bpe-tokenizer-ru-32000

Описание

BPE tokenizer trained on Russian RIA.ru corpus with vocabulary size 32000

Параметры модели

  • Тип модели: BPE (Byte Pair Encoding)
  • Размер словаря: 32000
  • Язык: Русский
  • Специальные токены: [UNK], <NUM>, <URL>, <EMAIL>

Использование

from tokenizers import Tokenizer

# Загрузка токенизатора напрямую
tokenizer = Tokenizer.from_file("vocab.json")

# Или через transformers
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")

Пример использования

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")

text = "Пример текста для токенизации"
tokens = tokenizer.tokenize(text)
print(tokens)

# Или для получения IDs
input_ids = tokenizer.encode(text)
print(input_ids)

Файлы модели

  • vocab.json - словарь токенов
  • merges.txt - правила слияния BPE
  • tokenizer_config.json - конфигурация токенизатора

Автор

Обучено на корпусе RIA.ru

Лицензия

MIT

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support