saracandu
/

stldec_random

Model card Files Files and versions

saracandu commited on about 1 month ago

Commit

c1d8d29

·

verified ·

1 Parent(s): 5335906

Upload tokenizer

Files changed (2) hide show

tokenizer.py +3 -1
tokenizer_config.json +6 -0

tokenizer.py CHANGED Viewed

@@ -137,7 +137,9 @@ class STLTokenizer(PreTrainedTokenizer):
         Returns:
             List[int]: A list of corresponding token IDs.
         """
-        return [self.vocab.get(token, self.vocab[self.unk_token]) for token in tokens]
     def convert_ids_to_tokens(self, ids: List[int]) -> List[str]:
         """

         Returns:
             List[int]: A list of corresponding token IDs.
         """
+        unk_token_str = str(self.unk_token)
+        unk_token_id = self.vocab.get(unk_token_str)
+        return [self.vocab.get(token, unk_token_id) for token in tokens]
     def convert_ids_to_tokens(self, ids: List[int]) -> List[str]:
         """

tokenizer_config.json CHANGED Viewed

@@ -33,6 +33,12 @@
       "special": true
     }
   },
   "bos_token": "/s",
   "clean_up_tokenization_spaces": false,
   "eos_token": "s",

       "special": true
     }
   },
+  "auto_map": {
+    "AutoTokenizer": [
+      "tokenizer.STLTokenizer",
+      null
+    ]
+  },
   "bos_token": "/s",
   "clean_up_tokenization_spaces": false,
   "eos_token": "s",