SVECTOR-CORPORATION
/

Tessar-largest

Table Question Answering

neural-sql-executor

Model card Files Files and versions

SVECTOR-OFFICIAL commited on Mar 26

Commit

f23df61

·

verified ·

1 Parent(s): c7a90a1

Update tessar_tokenizer.py

Files changed (1) hide show

tessar_tokenizer.py +22 -1

tessar_tokenizer.py CHANGED Viewed

@@ -8,6 +8,9 @@ from transformers import PreTrainedTokenizerFast
 class TessarTokenizer(PreTrainedTokenizerFast):
     """
     Tessar Tokenizer implementation for Hugging Face Transformers
     """
     model_input_names = ['input_ids', 'attention_mask']
@@ -74,6 +77,9 @@ class TessarTokenizer(PreTrainedTokenizerFast):
         Returns:
             tuple: Paths to the saved files
         """
         # Prepare file paths
         vocab_file = os.path.join(
             save_directory,
@@ -161,4 +167,19 @@ def load_tessar_tokenizer(pretrained_model_name_or_path: str):
     Returns:
         TessarTokenizer: Initialized tokenizer
     """
-    return TessarTokenizer.from_pretrained(pretrained_model_name_or_path)

 class TessarTokenizer(PreTrainedTokenizerFast):
     """
     Tessar Tokenizer implementation for Hugging Face Transformers
+    This custom tokenizer extends the PreTrainedTokenizerFast with specialized
+    configuration and tokenization methods for the Tessar model.
     """
     model_input_names = ['input_ids', 'attention_mask']
         Returns:
             tuple: Paths to the saved files
         """
+        # Ensure the save directory exists
+        os.makedirs(save_directory, exist_ok=True)
         # Prepare file paths
         vocab_file = os.path.join(
             save_directory,
     Returns:
         TessarTokenizer: Initialized tokenizer
     """
+    return TessarTokenizer.from_pretrained(pretrained_model_name_or_path)
+# Optionally, add some example usage
+if __name__ == "__main__":
+    # Example of loading a pretrained tokenizer
+    try:
+        tokenizer = load_tessar_tokenizer("SVECTOR-CORPORATION/Tessar-largest")
+        print("Tokenizer loaded successfully!")
+        # Basic tokenization example
+        text = "Hello, how are you doing today?"
+        encoded = tokenizer(text, return_tensors="pt")
+        print("Encoded Input:", encoded)
+    except Exception as e:
+        print(f"Error loading tokenizer: {e}")