classla/ParlaSpeech-CZ
Viewer • Updated • 711k • 5.23k • 5
How to use TheRamsay/ClTRUS-gpt2-74M-transformer-adapter with Transformers:
# Use a pipeline as a high-level helper
from transformers import pipeline
pipe = pipeline("automatic-speech-recognition", model="TheRamsay/ClTRUS-gpt2-74M-transformer-adapter") # Load model directly
from transformers import AutoTokenizer, AutoModelForSpeechSeq2Seq
tokenizer = AutoTokenizer.from_pretrained("TheRamsay/ClTRUS-gpt2-74M-transformer-adapter")
model = AutoModelForSpeechSeq2Seq.from_pretrained("TheRamsay/ClTRUS-gpt2-74M-transformer-adapter")Tento model byl vytvořen v rámci bakalářské práce Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči. Byl trénován po dobu 10 epoch na datové sadě ParlaSpeech a dosáhl hodnoty WER 7,9 %.
Při trénování byla většina modelu zmrazena – trénovala se pouze embedding vrstva, vrstvy typu cross-attention a projekční vrstva (tzv. adaptér) mezi výstupy enkodéru a vstupy dekodéru. Adaptér se skládá z 1D konvoluční vrstvy pro podvzorkování a dvoublokového Transformer enkodéru.
Model dosahuje pouze o 0,9 procentního bodu horší WER než plně trénovaný model bez adaptéru, a to i přesto, že využívá přibližně polovinu trénovatelných parametrů.
@thesis{huml2025efektivni,
author = {Dominik Huml},
title = {Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči},
year = {2025},
school = {Vysoké učení technické v~Brně, Fakulta informačních technologií},
type = {Bakalářská práce},
address = {Brno},
supervisor = {Ing. Alexander Polok}
}
Base model
fav-kky/gpt2-small-cs