NLP_BPE / README.md
dar5115's picture
Update README.md
d246ab1 verified
metadata
license: mit
language:
  - ru
tags:
  - tokenizer
  - bpe
  - russian
  - nlp

bpe-tokenizer-ru-32000

Описание

BPE tokenizer trained on Russian RIA.ru corpus with vocabulary size 32000

Параметры модели

  • Тип модели: BPE (Byte Pair Encoding)
  • Размер словаря: 32000
  • Язык: Русский
  • Специальные токены: [UNK], <NUM>, <URL>, <EMAIL>

Использование

from tokenizers import Tokenizer

# Загрузка токенизатора напрямую
tokenizer = Tokenizer.from_file("vocab.json")

# Или через transformers
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")

Пример использования

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bpe-tokenizer-ru-32000")

text = "Пример текста для токенизации"
tokens = tokenizer.tokenize(text)
print(tokens)

# Или для получения IDs
input_ids = tokenizer.encode(text)
print(input_ids)

Файлы модели

  • vocab.json - словарь токенов
  • merges.txt - правила слияния BPE
  • tokenizer_config.json - конфигурация токенизатора

Автор

Обучено на корпусе RIA.ru

Лицензия

MIT