Jacob Micro banner

Wir stellen vor: Jacob 24b, das Flagschiff-Sprachmodell im Stil von "Leichter Sprache"; neu, vielseitig und mehr als ausreichend für alles, was unsere Zielgruppe benötigt.

Es basiert auf Mistral Small 3.2 und wurde mit Hilfe von LoRA-Fine-Tuning auf unserem synthetischen Datensatz von Gesprächen trainiert.

Das Modell...

  • hat 24 Milliarden Parameter (davon ~180 Mio. als LoRA)
  • ist in 16-Bit-Präzision verfügbar
  • kann sowohl Text als auch Bilder verarbeiten (Multimodal)
  • kann Tools aufrufen (Tool-Use), um externe Aufgaben zu erledigen
  • nutzt das Mistral-Chat-Template (siehe mistral-common)
  • ist optimiert für die Erzeugung von leicht verständlichem Text im Stil von "Leichter Sprache"

Aufbau des Repositories

Dieses Repository enthält Jacob-24b als GGUF V3-Dateien zur Ausführung mit GGML-Kompatiblen Engines und Bibliotheken.

Folgende Quantisierungen sind verfügbar, sortiert von höchster zu niedrigster Präzision:

  • BF16 (16-bit)
  • Q8_0 (8-bit)
  • Q4_K_M (4-bit)

Trainingsdetails

Ressourcen

Trainiert wurde das Modell für ca. 40 Minuten auf einer einzelnen NVIDIA H200 SXM-GPU mit 140 GB VRAM.

Trainings-Hyperparameter

Die folgenden Hyperparameter wurden während des Trainings verwendet:

  • learning_rate: 5e-05
  • train_batch_size: 2
  • eval_batch_size: 2
  • seed: 42
  • optimizer: OptimizerNames.ADAMW_BNB mit den betas=(0.9,0.999) und epsilon=1e-08 und keinen zusätzlichen Optimizer-Argumenten
  • lr_scheduler_type: cosine
  • lr_scheduler_warmup_steps: 138
  • training_steps: 1382

Trainingsergebnisse

Training-Loss Epoch Step Validation-Loss Aktiv (GiB) Alloziiert (GiB) Reserviert (GiB)
N/A 0 0 1.2655 74.77 74.77 75.47
0.4402 0.1006 139 0.5116 75.15 75.15 94.75
0.245 0.2012 278 0.4634 75.15 75.15 76.0
0.9161 0.3017 417 0.4530 75.15 75.15 115.46
0.3505 0.4023 556 0.4404 75.15 75.15 114.51
0.3678 0.5029 695 0.4325 75.15 75.15 99.36
0.4296 0.6035 834 0.4255 75.15 75.15 114.54
0.1516 0.7041 973 0.4215 75.15 75.15 117.01
0.2438 0.8046 1112 0.4178 75.15 75.15 112.8
0.1436 0.9052 1251 0.4156 75.15 75.15 99.45

Framework-Versionen

  • PEFT 0.17.1
  • Transformers 4.57.0
  • Pytorch 2.7.1+cu126
  • Datasets 4.0.0
  • Tokenizers 0.22.1
Downloads last month
538
GGUF
Model size
24B params
Architecture
llama
Hardware compatibility
Log In to view the estimation

4-bit

8-bit

16-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for jacob-ml/jacob-24b-GGUF

Collection including jacob-ml/jacob-24b-GGUF