bpe-tokenizer-ru-32000
Описание
BPE tokenizer trained on Russian RIA.ru corpus with vocabulary size 32000
Параметры модели
- Тип модели: BPE (Byte Pair Encoding)
- Размер словаря: 32000
- Язык: Русский
- Специальные токены:
[UNK],<NUM>,<URL>,<EMAIL>
Использование
from tokenizers import Tokenizer
# Загрузка токенизатора напрямую
tokenizer = Tokenizer.from_file("vocab.json")
# Или через transformers
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")
Пример использования
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")
text = "Пример текста для токенизации"
tokens = tokenizer.tokenize(text)
print(tokens)
# Или для получения IDs
input_ids = tokenizer.encode(text)
print(input_ids)
Файлы модели
vocab.json- словарь токеновmerges.txt- правила слияния BPEtokenizer_config.json- конфигурация токенизатора
Автор
Обучено на корпусе RIA.ru
Лицензия
MIT
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support