Wir stellen vor: Jacob 24b, das Flagschiff-Sprachmodell im Stil von "Leichter Sprache"; neu, vielseitig und mehr als ausreichend für alles, was unsere Zielgruppe benötigt.

Es basiert auf Mistral Small 3.2 und wurde mit Hilfe von LoRA-Fine-Tuning auf unserem synthetischen Datensatz von Gesprächen trainiert.

Das Modell...

hat 24 Milliarden Parameter (davon ~180 Mio. als LoRA)
ist in 16-Bit-Präzision verfügbar
kann sowohl Text als auch Bilder verarbeiten (Multimodal)
kann Tools aufrufen (Tool-Use), um externe Aufgaben zu erledigen
nutzt das Mistral-Chat-Template (siehe mistral-common)
ist optimiert für die Erzeugung von leicht verständlichem Text im Stil von "Leichter Sprache"

Aufbau des Repositories

Dieses Repository enthält Jacob-24b als GGUF V3-Dateien zur Ausführung mit GGML-Kompatiblen Engines und Bibliotheken.

Folgende Quantisierungen sind verfügbar, sortiert von höchster zu niedrigster Präzision:

BF16 (16-bit)
Q8_0 (8-bit)
Q4_K_M (4-bit)

Trainingsdetails

Ressourcen

Trainiert wurde das Modell für ca. 40 Minuten auf einer einzelnen NVIDIA H200 SXM-GPU mit 140 GB VRAM.

Trainings-Hyperparameter

Die folgenden Hyperparameter wurden während des Trainings verwendet:

learning_rate: 5e-05
train_batch_size: 2
eval_batch_size: 2
seed: 42
optimizer: OptimizerNames.ADAMW_BNB mit den betas=(0.9,0.999) und epsilon=1e-08 und keinen zusätzlichen Optimizer-Argumenten
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 138
training_steps: 1382

Trainingsergebnisse

Training-Loss	Epoch	Step	Validation-Loss	Aktiv (GiB)	Alloziiert (GiB)	Reserviert (GiB)
N/A	0	0	1.2655	74.77	74.77	75.47
0.4402	0.1006	139	0.5116	75.15	75.15	94.75
0.245	0.2012	278	0.4634	75.15	75.15	76.0
0.9161	0.3017	417	0.4530	75.15	75.15	115.46
0.3505	0.4023	556	0.4404	75.15	75.15	114.51
0.3678	0.5029	695	0.4325	75.15	75.15	99.36
0.4296	0.6035	834	0.4255	75.15	75.15	114.54
0.1516	0.7041	973	0.4215	75.15	75.15	117.01
0.2438	0.8046	1112	0.4178	75.15	75.15	112.8
0.1436	0.9052	1251	0.4156	75.15	75.15	99.45