dar5115 commited on
Commit
d246ab1
·
verified ·
1 Parent(s): 01cf5af

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +67 -3
README.md CHANGED
@@ -1,3 +1,67 @@
1
- ---
2
- license: mit
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: mit
3
+ language:
4
+ - ru
5
+ tags:
6
+ - tokenizer
7
+ - bpe
8
+ - russian
9
+ - nlp
10
+ ---
11
+
12
+ # bpe-tokenizer-ru-32000
13
+
14
+ ## Описание
15
+
16
+ BPE tokenizer trained on Russian RIA.ru corpus with vocabulary size 32000
17
+
18
+ ## Параметры модели
19
+
20
+ - **Тип модели**: BPE (Byte Pair Encoding)
21
+ - **Размер словаря**: 32000
22
+ - **Язык**: Русский
23
+ - **Специальные токены**: `[UNK]`, `<NUM>`, `<URL>`, `<EMAIL>`
24
+
25
+ ## Использование
26
+
27
+ ```python
28
+ from tokenizers import Tokenizer
29
+
30
+ # Загрузка токенизатора напрямую
31
+ tokenizer = Tokenizer.from_file("vocab.json")
32
+
33
+ # Или через transformers
34
+ from transformers import AutoTokenizer
35
+
36
+ tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")
37
+ ```
38
+
39
+ ## Пример использования
40
+
41
+ ```python
42
+ from transformers import AutoTokenizer
43
+
44
+ tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")
45
+
46
+ text = "Пример текста для токенизации"
47
+ tokens = tokenizer.tokenize(text)
48
+ print(tokens)
49
+
50
+ # Или для получения IDs
51
+ input_ids = tokenizer.encode(text)
52
+ print(input_ids)
53
+ ```
54
+
55
+ ## Файлы модели
56
+
57
+ - `vocab.json` - словарь токенов
58
+ - `merges.txt` - правила слияния BPE
59
+ - `tokenizer_config.json` - конфигурация токенизатора
60
+
61
+ ## Автор
62
+
63
+ Обучено на корпусе RIA.ru
64
+
65
+ ## Лицензия
66
+
67
+ MIT