🚀 Upload du modèle optimisé avec Optuna (85.3% accuracy globale, 82.9% funny accuracy)

Browse files

Files changed (4) hide show

README.md +80 -74
model.safetensors +1 -1
threshold.json +3 -0
tokenizer_config.json +1 -4

README.md CHANGED Viewed

@@ -13,6 +13,7 @@ tags:
 - eurobert
 - lora
 - git
 datasets:
 - custom
 metrics:
@@ -20,108 +21,113 @@ metrics:
 - f1
 library_name: transformers
 pipeline_tag: text-classification
 ---
-# 🤖 Classificateur d'Humour pour Messages de Commit
-Un classificateur d'humour basé sur **EuroBERT-210m** fine-tuné avec **LoRA** pour analyser si un message de commit Git est drôle ou pas.
-## 🚀 Utilisation Rapide
-```python
-from transformers import AutoTokenizer, AutoModelForSequenceClassification
-import torch
-# Charger le modèle et le tokenizer
-tokenizer = AutoTokenizer.from_pretrained("LBerthalon/eurobert-commit-humor", trust_remote_code=True)
-model = AutoModelForSequenceClassification.from_pretrained("LBerthalon/eurobert-commit-humor", trust_remote_code=True)
-# Exemple de classification
-def classify_commit(message):
-    inputs = tokenizer(message, return_tensors="pt", truncation=True, padding=True)
-    with torch.no_grad():
-        outputs = model(**inputs)
-        probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1)
-        predicted_class = torch.argmax(probabilities, dim=-1)
-        confidence = probabilities.max().item()
-    labels = ["PAS DRÔLE", "DRÔLE"]
-    return labels[predicted_class.item()], confidence
-# Test
-message = "gcc et moi c'est compliqué"
-result, confidence = classify_commit(message)
-print(f"Message: '{message}'")
-print(f"Résultat: {result} (confiance: {confidence:.3f})")
-```
-## 🎯 Exemples de Résultats
-```
-📝 'gcc et moi c'est compliqué'
-   → 😄 DRÔLE (prob: 0.730)
-📝 'fix typo in README'
-   → 😄 DRÔLE (prob: 0.738)
-📝 'Add cat gifs because why not'
-   → 😐 PAS DRÔLE (prob: 0.280)
 ```
-## 🏗️ Architecture
-- **Modèle Base** : EuroBERT-210m (210M paramètres)
-- **Fine-tuning** : LoRA (Low-Rank Adaptation)
-- **Dataset** : Messages de commit annotés (drôle/pas drôle)
-- **Classification** : Binaire avec seuil ajustable
-- **Langues supportées** : Français, Anglais, Allemand, Espagnol, Italien
-## 📈 Performance
-- **Temps d'inférence** : ~100ms par message (GPU)
-- **Mémoire** : ~1GB VRAM (GPU) / ~2GB RAM (CPU)
-- **Précision** : Optimisée avec early stopping
-## 🎪 Cas d'Usage
-- **Hooks Git** : Validation automatique des messages
-- **Code Review** : Détection d'humour dans les PR
-- **Statistiques** : Analyse des patterns d'équipe
-- **Bots** : Intégration Discord/Slack/Teams
-## 🔧 Installation
-```bash
-pip install transformers torch
 ```
-## 🛠️ Développement
-### Structure Technique
-- **Base** : EuroBERT (européen, multilingual)
-- **Fine-tuning** : LoRA avec r=16, alpha=32
-- **Optimiseur** : AdamW avec linear warmup
-- **Early stopping** : Validation loss monitoring
-## 📄 Licence
-MIT License - Libre d'utilisation et de modification
-## 👥 Citation
-Si vous utilisez ce modèle dans vos travaux, veuillez citer :
 ```bibtex
-@misc{commit-humor-classifier-2025,
-  title={EuroBERT Commit Humor Classifier},
-  author={Assistant IA},
   year={2025},
   url={https://huggingface.co/LBerthalon/eurobert-commit-humor}
 }
 ```
----
-**Version** : 1.0.0
-**Auteur** : Assistant IA
-**Date** : 2025

 - eurobert
 - lora
 - git
+- optuna-optimized
 datasets:
 - custom
 metrics:
 - f1
 library_name: transformers
 pipeline_tag: text-classification
+model-index:
+- name: eurobert-commit-humor
+  results:
+  - task:
+      type: text-classification
+      name: Text Classification
+    dataset:
+      type: custom
+      name: Git Commit Humor Detection
+    metrics:
+    - type: accuracy
+      value: 85.3
+      name: Global Accuracy
+    - type: accuracy
+      value: 82.9
+      name: Funny Class Accuracy
 ---
+# 🎭 EuroBERT Commit Humor Classifier (Optimized)
+## 📋 Description
+Ce modèle est une version optimisée d'EuroBERT fine-tunée pour détecter l'humour dans les messages de commit Git.
+Il a été optimisé avec Optuna sur plusieurs cycles d'amélioration automatique du dataset.
+## 🎯 Performances
+- **Accuracy globale**: 85.3%
+- **Accuracy classe "funny"**: 82.9%
+- **Accuracy classe "neutral"**: 85.6%
+- **Seuil optimal**: 0.35
+## 🚀 Utilisation
+```python
+from transformers import pipeline
+# Charger le modèle
+classifier = pipeline("text-classification",
+                     model="LBerthalon/eurobert-commit-humor",
+                     trust_remote_code=True)
+# Prédiction
+result = classifier("fix: gcc et moi c'est compliqué")
+print(result)
+# [{"label": "funny", "score": 0.85}]
 ```
+## 🔧 Utilisation avancée
+```python
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+import torch
+# Charger le modèle et tokenizer
+tokenizer = AutoTokenizer.from_pretrained("LBerthalon/eurobert-commit-humor", trust_remote_code=True)
+model = AutoModelForSequenceClassification.from_pretrained("LBerthalon/eurobert-commit-humor", trust_remote_code=True)
+# Préparer l'input
+text = "feat: ajout de la fonctionnalité qui marche pas"
+inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
+# Prédiction
+with torch.no_grad():
+    outputs = model(**inputs)
+    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
+print(f"Funny: {predictions[0][1]:.3f}")
+print(f"Neutral: {predictions[0][0]:.3f}")
 ```
+## 📊 Exemples de Prédictions
+| Message de Commit | Prédiction | Score |
+|-------------------|------------|-------|
+| "fix: correction du bug" | neutral | 0.92 |
+| "feat: ajout de la magie noire" | funny | 0.78 |
+| "docs: mise à jour README" | neutral | 0.95 |
+| "fix: ça marche sur ma machine" | funny | 0.83 |
+## 🛠️ Optimisation
+Ce modèle a été optimisé avec :
+- **Optuna** pour l'optimisation bayésienne des hyperparamètres
+- **LoRA** (Low-Rank Adaptation) pour un fine-tuning efficace
+- **Amélioration itérative** du dataset
+- **5 cycles d'optimisation** automatique
+## 📈 Architecture
+- **Modèle de base**: EuroBERT
+- **Technique**: LoRA Fine-tuning
+- **Classes**: 2 (funny, neutral)
+- **Langues supportées**: Français (principal), Anglais, Allemand, Espagnol, Italien
+## 🎓 Citation
 ```bibtex
+@misc{eurobert-commit-humor-optimized,
+  title={EuroBERT Commit Humor Classifier (Optimized)},
+  author={LBerthalon},
   year={2025},
+  publisher={Hugging Face},
   url={https://huggingface.co/LBerthalon/eurobert-commit-humor}
 }
 ```
+## 📄 Licence
+MIT License

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4526c769687512f9fa658c3c2eddb5bc004453d1d534dcbdc18495b929a88d67
 size 849445112

 version https://git-lfs.github.com/spec/v1
+oid sha256:62cf1928ab98691350cfe8fb8a1c276bd51c46bb63a19068996b8da0b96890f7
 size 849445112

threshold.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "funny_threshold": 0.35
+}

tokenizer_config.json CHANGED Viewed

@@ -2064,8 +2064,5 @@
   "pad_token": "<|pad|>",
   "pad_token_type_id": 0,
   "padding_side": "right",
-  "stride": 0,
-  "tokenizer_class": "PreTrainedTokenizerFast",
-  "truncation_side": "right",
-  "truncation_strategy": "longest_first"
 }

   "pad_token": "<|pad|>",
   "pad_token_type_id": 0,
   "padding_side": "right",
+  "tokenizer_class": "PreTrainedTokenizerFast"
 }