---
library_name: transformers
tags:
  - whisper
  - speech-recognition
  - stt
  - german
  - austrian-german
  - loRA
  - fine-tuned
---

# Model Card for chris365312/whisper-large-v3-de-at

Ein feingetuntes Whisper-large-v3 Modell für österreichisches Deutsch, trainiert mit LoRA auf dem Common Voice v14 Datensatz.

## Model Details

### Model Description

Dieses Modell ist eine Low-Rank-Adapter (LoRA) Feineinstellung von OpenAIs `whisper-large-v3` auf auf Common Voice v14 gefiltert für österreichische Sprecher. Es liefert verbesserte Transkriptionen für Österreich-Dialekt bei minimalem zusätzlichem Ressourcen­aufwand.

- **Developed by:** Chris (GitHub: @chris365312)  
- **Model type:** Encoder-Decoder (Seq2Seq) mit Low-Rank-Adapter (PEFT/LoRA)  
- **Language(s):** Deutsch (de), spezialisiert auf österreichisches Deutsch  
- **License:** MIT  
- **Finetuned from:** `openai/whisper-large-v3` (MIT License)  
- **Training data:** Mozilla Common Voice v14 (CC-0 Public Domain), Subset “locale=de” mit `accent="at*"` und positive Votes, 40 000 zufällig ausgewählte Clips, 16 kHz Mono WAV  

## Uses

### Direct Use

Dieses Modell kann direkt zur **Spracherkennung** (Speech-to-Text) von deutschem Audio mit österreichischem Dialekt verwendet werden. Es ist ideal für:

- Transkription von Interviews, Vorträgen oder Podcasts aus Österreich  
- Untertitelsoftware für Video- oder Audio-Inhalte in österreichischem Deutsch  

### Out-of-Scope Use

- Andere Sprachen oder starke Dialekte außerhalb Österreichs  
- Echtzeit-Streaming mit hoher Latenzbegrenzung (< 1 s)  
- Sprachsynthese oder Sprachübersetzung  

## Bias, Risks, and Limitations

- **Bias:** Getestet auf Common Voice, daher voreingenommen gegenüber dem dort vertretenen Sprecherprofil (z. B. junge, technikaffine Nutzer).  
- **Risks:** Kann bei stark abweichenden Dialekten, Akzentvariationen oder Hintergrundgeräuschen Fehler produzieren.  
- **Limitations:**  
  - Keine Gewährleistung für medizinische, juristische oder sicherheitskritische Anwendungen.  
  - Training auf 40 000 Clips → begrenzter Datensatzumfang (≈ 50 h Audio).  

### Recommendations

- Evaluieren Sie das Modell auf einem eigenen Validation-Set (WER-Messung mit [jiwer](https://github.com/jitsi/jiwer)).  
- Pre- und Post-Processing (Rauschunterdrückung, Punctuation-Restoration) kann die finale Transkript-Qualität steigern.  

## How to Get Started with the Model

```python
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio, torch

model_id = "chris365312/whisper-large-v3-de-at"
proc     = WhisperProcessor.from_pretrained(model_id)
model    = WhisperForConditionalGeneration.from_pretrained(model_id, device_map="auto")
model.generation_config.forced_decoder_ids = None

# Beispiel: WAV-Datei laden und transkribieren
audio, sr = torchaudio.load("mein_audio.wav")
if sr != 16000:
    audio = torchaudio.functional.resample(audio, sr, 16000)

features = proc(audio.squeeze(), sampling_rate=16000, return_tensors="pt").input_features.to(model.device)
ids      = model.generate(features, language="de", task="transcribe", num_beams=6, temperature=0.0)
text     = proc.batch_decode(ids, skip_special_tokens=True)[0]
print(text)