NLLB French → Tamazight (Tifinagh)
🌟 BLEU Score: 50.86
Premier modèle haute performance pour la traduction français → tamazight (écriture Tifinagh).
⚠️ Limitation importante
Ce modèle est optimisé pour du texte formel (documents, articles, littérature) et ne généralise pas bien aux expressions quotidiennes courantes.
📊 Performance
| Domain | BLEU |
|---|---|
| Texte formel/littéraire | 50.86 ⭐⭐⭐⭐⭐ |
| Conversation quotidienne | 4.64 ⭐ |
🚀 Utilisation
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from peft import PeftModel
import torch
base = AutoModelForSeq2SeqLM.from_pretrained(
"facebook/nllb-200-3.3B",
torch_dtype=torch.bfloat16,
device_map="auto"
)
model = PeftModel.from_pretrained(base, "VOTRE_USERNAME/nllb-fra-tzm-v2")
tokenizer = AutoTokenizer.from_pretrained("facebook/nllb-200-3.3B")
def traduire(texte):
tokenizer.src_lang = "fra_Latn"
inputs = tokenizer(texte, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
forced_bos_token_id=tokenizer.convert_tokens_to_ids("tzm_Tfng"),
max_length=128,
num_beams=5
)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
print(traduire("Le tamazight est une langue berbère"))
📝 Exemples
| Français | Tamazight (Tifinagh) |
|---|---|
| Le tamazight est une langue berbère | ⵜⴰⵎⴰⵣⵉⵖⵜ ⴷ ⵜⵓⵜⵍⴰⵢⵜ ⵜⴰⵢⵎⵎⴰⵜ |
| Le Dimanche 18 Décembre | ⴰⵛ ⴻⵔ 18 ⵓⵡⴰⵏⴱⵉⵔ |
🔧 Configuration
- Base : facebook/nllb-200-3.3B
- LoRA rank : 16
- Paramètres entraînés : 1.5% (~52M)
- Dataset : 165K paires (FLORES-200 + NLLB-Seed)
- Durée : 4h sur NVIDIA L40S 48GB
📄 License
CC-BY-NC-4.0
- Downloads last month
- 3
Model tree for YouNess01/nllb-fra-tzm
Base model
facebook/nllb-200-3.3B