Tento model byl vytvořen v rámci bakalářské práce Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči. Byl trénován po dobu 10 epoch na datové sadě ParlaSpeech a dosáhl hodnoty WER 7,9 %.

Při trénování byla většina modelu zmrazena – trénovala se pouze embedding vrstva, vrstvy typu cross-attention a projekční vrstva (tzv. adaptér) mezi výstupy enkodéru a vstupy dekodéru. Adaptér se skládá z 1D konvoluční vrstvy pro podvzorkování a dvoublokového Transformer enkodéru.

Model dosahuje pouze o 0,9 procentního bodu horší WER než plně trénovaný model bez adaptéru, a to i přesto, že využívá přibližně polovinu trénovatelných parametrů.

@thesis{huml2025efektivni,
  author        = {Dominik Huml},
  title         = {Efektivní trénování neuronových sítí pro automatické rozpoznávání řeči},
  year          = {2025},
  school        = {Vysoké učení technické v~Brně, Fakulta informačních technologií},
  type          = {Bakalářská práce},
  address       = {Brno},
  supervisor    = {Ing. Alexander Polok}
}

Downloads last month: 1

Safetensors

Model size

78.1M params

Tensor type

F32

Model tree for TheRamsay/ClTRUS-gpt2-74M-transformer-adapter

Base model

fav-kky/gpt2-small-cs

Finetuned

(1)

this model

TheRamsay
/

ClTRUS-gpt2-74M-transformer-adapter

Model tree for TheRamsay/ClTRUS-gpt2-74M-transformer-adapter

Dataset used to train TheRamsay/ClTRUS-gpt2-74M-transformer-adapter