--- library_name: transformers tags: - whisper - speech-recognition - stt - german - austrian-german - loRA - fine-tuned --- # Model Card for chris365312/whisper-large-v3-de-at Ein feingetuntes Whisper-large-v3 Modell für österreichisches Deutsch, trainiert mit LoRA auf dem Common Voice v14 Datensatz. ## Model Details ### Model Description Dieses Modell ist eine Low-Rank-Adapter (LoRA) Feineinstellung von OpenAIs `whisper-large-v3` auf auf Common Voice v14 gefiltert für österreichische Sprecher. Es liefert verbesserte Transkriptionen für Österreich-Dialekt bei minimalem zusätzlichem Ressourcen­aufwand. - **Developed by:** Chris (GitHub: @chris365312) - **Model type:** Encoder-Decoder (Seq2Seq) mit Low-Rank-Adapter (PEFT/LoRA) - **Language(s):** Deutsch (de), spezialisiert auf österreichisches Deutsch - **License:** MIT - **Finetuned from:** `openai/whisper-large-v3` (MIT License) - **Training data:** Mozilla Common Voice v14 (CC-0 Public Domain), Subset “locale=de” mit `accent="at*"` und positive Votes, 40 000 zufällig ausgewählte Clips, 16 kHz Mono WAV ## Uses ### Direct Use Dieses Modell kann direkt zur **Spracherkennung** (Speech-to-Text) von deutschem Audio mit österreichischem Dialekt verwendet werden. Es ist ideal für: - Transkription von Interviews, Vorträgen oder Podcasts aus Österreich - Untertitelsoftware für Video- oder Audio-Inhalte in österreichischem Deutsch ### Out-of-Scope Use - Andere Sprachen oder starke Dialekte außerhalb Österreichs - Echtzeit-Streaming mit hoher Latenzbegrenzung (< 1 s) - Sprachsynthese oder Sprachübersetzung ## Bias, Risks, and Limitations - **Bias:** Getestet auf Common Voice, daher voreingenommen gegenüber dem dort vertretenen Sprecherprofil (z. B. junge, technikaffine Nutzer). - **Risks:** Kann bei stark abweichenden Dialekten, Akzentvariationen oder Hintergrundgeräuschen Fehler produzieren. - **Limitations:** - Keine Gewährleistung für medizinische, juristische oder sicherheitskritische Anwendungen. - Training auf 40 000 Clips → begrenzter Datensatzumfang (≈ 50 h Audio). ### Recommendations - Evaluieren Sie das Modell auf einem eigenen Validation-Set (WER-Messung mit [jiwer](https://github.com/jitsi/jiwer)). - Pre- und Post-Processing (Rauschunterdrückung, Punctuation-Restoration) kann die finale Transkript-Qualität steigern. ## How to Get Started with the Model ```python from transformers import WhisperProcessor, WhisperForConditionalGeneration import torchaudio, torch model_id = "chris365312/whisper-large-v3-de-at" proc = WhisperProcessor.from_pretrained(model_id) model = WhisperForConditionalGeneration.from_pretrained(model_id, device_map="auto") model.generation_config.forced_decoder_ids = None # Beispiel: WAV-Datei laden und transkribieren audio, sr = torchaudio.load("mein_audio.wav") if sr != 16000: audio = torchaudio.functional.resample(audio, sr, 16000) features = proc(audio.squeeze(), sampling_rate=16000, return_tensors="pt").input_features.to(model.device) ids = model.generate(features, language="de", task="transcribe", num_beams=6, temperature=0.0) text = proc.batch_decode(ids, skip_special_tokens=True)[0] print(text)