sunbaby
/

BrainCog-8B-0.1-Instruct

@@ -1,13 +1,4 @@
 {
-  "additional_special_tokens": [
-    "[INST]",
-    " [/INST]",
-    "[SYS]",
-    "[/SYS]",
-    "[ASST]",
-    "[/ASST]",
-    "[end_of_turn]"
-  ],
   "bos_token": {
     "content": "<|begin_of_text|>",
     "lstrip": false,
@@ -16,14 +7,14 @@
     "single_word": false
   },
   "eos_token": {
-    "content": "[/ASST]",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
-    "content": "<|pad_of_token|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

 {
   "bos_token": {
     "content": "<|begin_of_text|>",
     "lstrip": false,
     "single_word": false
   },
   "eos_token": {
+    "content": "<|eot_id|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
+    "content": "<|eot_id|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer.json CHANGED Viewed

@@ -2306,78 +2306,6 @@
       "rstrip": false,
       "normalized": false,
       "special": true
-    },
-    {
-      "id": 128256,
-      "content": "<|pad_of_token|>",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 128257,
-      "content": "[INST]",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 128258,
-      "content": " [/INST]",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 128259,
-      "content": "[SYS]",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 128260,
-      "content": "[/SYS]",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 128261,
-      "content": "[ASST]",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 128262,
-      "content": "[/ASST]",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 128263,
-      "content": "[end_of_turn]",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
     }
   ],
   "normalizer": null,

       "rstrip": false,
       "normalized": false,
       "special": true
     }
   ],
   "normalizer": null,

tokenizer_config.json CHANGED Viewed

@@ -2047,90 +2047,19 @@
       "rstrip": false,
       "single_word": false,
       "special": true
-    },
-    "128256": {
-      "content": "<|pad_of_token|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "128257": {
-      "content": "[INST]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "128258": {
-      "content": " [/INST]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "128259": {
-      "content": "[SYS]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "128260": {
-      "content": "[/SYS]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "128261": {
-      "content": "[ASST]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "128262": {
-      "content": "[/ASST]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "128263": {
-      "content": "[end_of_turn]",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
     }
   },
-  "additional_special_tokens": [
-    "[INST]",
-    " [/INST]",
-    "[SYS]",
-    "[/SYS]",
-    "[ASST]",
-    "[/ASST]",
-    "[end_of_turn]"
-  ],
   "bos_token": "<|begin_of_text|>",
-  "chat_template": "{{- bos_token }}                {%- for message in messages %}                    {%- if message['from'] == 'human' %}                        {{- '[INST] ' + message['value'].strip() + ' [/INST]' }}                    {%- elif message['from'] == 'system' %}                        {{- '[SYS]' + message['value'].strip() + '[/SYS]' }}                    {%- elif message['from'] == 'gpt' %}                        {{- '[ASST] '  + message['value'] + ' [/ASST]'  }}                    {%- if message.last and add_generate_prompt %}                        {{- '[ASST] '}}                    {%- endif %}                    {%- endif %}                {%- endfor %}",
   "clean_up_tokenization_spaces": true,
-  "eos_token": "[/ASST]",
   "model_input_names": [
     "input_ids",
     "attention_mask"
   ],
   "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "<|pad_of_token|>",
   "tokenizer_class": "PreTrainedTokenizerFast"
 }

       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "bos_token": "<|begin_of_text|>",
+  "chat_template": "{{ '<|begin_of_text|>' }}{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% if system_message is defined %}{{ '<|start_header_id|>system<|end_header_id|>\n\n' + system_message + '<|eot_id|>' }}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '<|start_header_id|>user<|end_header_id|>\n\n' + content + '<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n' }}{% elif message['role'] == 'assistant' %}{{ content + '<|eot_id|>' }}{% endif %}{% endfor %}",
   "clean_up_tokenization_spaces": true,
+  "eos_token": "<|eot_id|>",
   "model_input_names": [
     "input_ids",
     "attention_mask"
   ],
   "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|eot_id|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
   "tokenizer_class": "PreTrainedTokenizerFast"
 }