Training in progress, step 500

Files changed (4) hide show

config.json CHANGED Viewed

@@ -64,25 +64,31 @@
       "type": "audio"
     }
   },
   "dtype": "bfloat16",
   "encoder_dim": 1280,
   "inference_diversity_penalty": 0.0,
   "inference_warmup_tokens": 10,
   "label_smoothing": 0.0,
   "llm_dim": 2048,
-  "max_new_tokens": 64,
-  "min_new_tokens": 1,
   "model_dtype": "bfloat16",
   "model_type": "asr_model",
   "pipeline_tag": "automatic-speech-recognition",
-  "projector_dropout": 0.05,
   "projector_hidden_dim": null,
   "projector_init_std": 0.02,
   "projector_input_noise": 0.02,
   "projector_num_layers": 2,
   "projector_pool_stride": 2,
   "projector_type": "swiglu",
   "system_prompt": "/no_think /system_override",
   "text_config": {
     "_name_or_path": "HuggingFaceTB/SmolLM3-3B",
     "architectures": [
@@ -191,7 +197,7 @@
     "vocab_size": 128257
   },
   "text_model_id": "HuggingFaceTB/SmolLM3-3B",
-  "transformers_version": "4.57.1",
   "use_cache": false,
   "use_specaugment": true,
   "user_prompt": "Transcribe: <audio>",

       "type": "audio"
     }
   },
+  "decoder_model_name": "HuggingFaceTB/SmolLM3-3B",
   "dtype": "bfloat16",
   "encoder_dim": 1280,
+  "encoder_model_name": "openai/whisper-large-v3-turbo",
   "inference_diversity_penalty": 0.0,
   "inference_warmup_tokens": 10,
   "label_smoothing": 0.0,
   "llm_dim": 2048,
+  "max_new_tokens": 256,
+  "min_new_tokens": 0,
   "model_dtype": "bfloat16",
   "model_type": "asr_model",
+  "num_experts": 4,
+  "num_experts_per_tok": 2,
   "pipeline_tag": "automatic-speech-recognition",
+  "projector_dropout": 0.1,
   "projector_hidden_dim": null,
   "projector_init_std": 0.02,
   "projector_input_noise": 0.02,
   "projector_num_layers": 2,
   "projector_pool_stride": 2,
   "projector_type": "swiglu",
+  "router_aux_loss_coef": 0.01,
   "system_prompt": "/no_think /system_override",
+  "temperature": 0.1,
   "text_config": {
     "_name_or_path": "HuggingFaceTB/SmolLM3-3B",
     "architectures": [
     "vocab_size": 128257
   },
   "text_model_id": "HuggingFaceTB/SmolLM3-3B",
+  "transformers_version": "4.57.3",
   "use_cache": false,
   "use_specaugment": true,
   "user_prompt": "Transcribe: <audio>",

generation_config.json CHANGED Viewed

@@ -4,5 +4,5 @@
   "pad_token_id": 128004,
   "temperature": 0.6,
   "top_p": 0.95,
-  "transformers_version": "4.57.1"
 }

   "pad_token_id": 128004,
   "temperature": 0.6,
   "top_p": 0.95,
+  "transformers_version": "4.57.3"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5442f0167a7f53803c97510985333fe5c05c655fc4acfc4ba8304fdbae5b04cf
-size 73410040

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b12132b4625446fcbd9b3d942aebec4cf5686e57c8683526bb1e7e5564f5084
+size 76022400

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0804916431f48195bb027164f4b7c17b1344d0f0721f7b74a05472f50ce056c5
-size 5969

 version https://git-lfs.github.com/spec/v1
+oid sha256:161661b994f6ca586957ca389329090fcf4e91738ad2b4c103e427316d33abcd
+size 5905