dar5115
/

NLP_BPE

+---
+license: mit
+language:
+- ru
+tags:
+- tokenizer
+- bpe
+- russian
+- nlp
+---
+# bpe-tokenizer-ru-32000
+## Описание
+BPE tokenizer trained on Russian RIA.ru corpus with vocabulary size 32000
+## Параметры модели
+- **Тип модели**: BPE (Byte Pair Encoding)
+- **Размер словаря**: 32000
+- **Язык**: Русский
+- **Специальные токены**: `[UNK]`, `<NUM>`, `<URL>`, `<EMAIL>`
+## Использование
+```python
+from tokenizers import Tokenizer
+# Загрузка токенизатора напрямую
+tokenizer = Tokenizer.from_file("vocab.json")
+# Или через transformers
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")
+```
+## Пример использования
+```python
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")
+text = "Пример текста для токенизации"
+tokens = tokenizer.tokenize(text)
+print(tokens)
+# Или для получения IDs
+input_ids = tokenizer.encode(text)
+print(input_ids)
+```
+## Файлы модели
+- `vocab.json` - словарь токенов
+- `merges.txt` - правила слияния BPE
+- `tokenizer_config.json` - конфигурация токенизатора
+## Автор
+Обучено на корпусе RIA.ru
+## Лицензия
+MIT