khaingsmon
/

whisper3

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 # whisper3
-This model is a fine-tuned version of [openai/whisper-tiny.en](https://huggingface.co/openai/whisper-tiny.en) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.5509
 - Wer: 26.9488

 # whisper3
+This model is a fine-tuned version of [openai/whisper-tiny.en](https://huggingface.co/openai/whisper-tiny.en) on the tiny dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.5509
 - Wer: 26.9488

trainer_state.json ADDED Viewed

	@@ -0,0 +1,720 @@

+{
+  "best_metric": 23.35348393254852,
+  "best_model_checkpoint": "whisper3/checkpoint-240",
+  "epoch": 8.333333333333334,
+  "eval_steps": 10,
+  "global_step": 300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1388888888888889,
+      "grad_norm": 46.06148147583008,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 3.9402,
+      "step": 5
+    },
+    {
+      "epoch": 0.2777777777777778,
+      "grad_norm": 43.4765625,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 3.8281,
+      "step": 10
+    },
+    {
+      "epoch": 0.2777777777777778,
+      "eval_loss": 3.7929115295410156,
+      "eval_runtime": 253.0403,
+      "eval_samples_per_second": 1.976,
+      "eval_steps_per_second": 0.249,
+      "eval_wer": 80.40089086859689,
+      "step": 10
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 40.57815933227539,
+      "learning_rate": 3e-06,
+      "loss": 3.5929,
+      "step": 15
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 39.72583770751953,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 3.209,
+      "step": 20
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "eval_loss": 3.0014312267303467,
+      "eval_runtime": 246.2101,
+      "eval_samples_per_second": 2.031,
+      "eval_steps_per_second": 0.256,
+      "eval_wer": 68.37416481069042,
+      "step": 20
+    },
+    {
+      "epoch": 0.6944444444444444,
+      "grad_norm": 39.53627395629883,
+      "learning_rate": 5e-06,
+      "loss": 2.7486,
+      "step": 25
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 30.079750061035156,
+      "learning_rate": 6e-06,
+      "loss": 2.1066,
+      "step": 30
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "eval_loss": 1.761271595954895,
+      "eval_runtime": 245.5315,
+      "eval_samples_per_second": 2.036,
+      "eval_steps_per_second": 0.257,
+      "eval_wer": 63.91982182628062,
+      "step": 30
+    },
+    {
+      "epoch": 0.9722222222222222,
+      "grad_norm": 19.831071853637695,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 1.5134,
+      "step": 35
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 9.755999565124512,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.9963,
+      "step": 40
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "eval_loss": 0.8740884065628052,
+      "eval_runtime": 246.6146,
+      "eval_samples_per_second": 2.027,
+      "eval_steps_per_second": 0.255,
+      "eval_wer": 52.43398027362392,
+      "step": 40
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 6.842897891998291,
+      "learning_rate": 9e-06,
+      "loss": 0.786,
+      "step": 45
+    },
+    {
+      "epoch": 1.3888888888888888,
+      "grad_norm": 5.720729351043701,
+      "learning_rate": 1e-05,
+      "loss": 0.6922,
+      "step": 50
+    },
+    {
+      "epoch": 1.3888888888888888,
+      "eval_loss": 0.7008740901947021,
+      "eval_runtime": 245.5713,
+      "eval_samples_per_second": 2.036,
+      "eval_steps_per_second": 0.257,
+      "eval_wer": 35.82564428889596,
+      "step": 50
+    },
+    {
+      "epoch": 1.5277777777777777,
+      "grad_norm": 4.806775093078613,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.6427,
+      "step": 55
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 5.128376483917236,
+      "learning_rate": 1.2e-05,
+      "loss": 0.5816,
+      "step": 60
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "eval_loss": 0.6238442659378052,
+      "eval_runtime": 245.679,
+      "eval_samples_per_second": 2.035,
+      "eval_steps_per_second": 0.256,
+      "eval_wer": 31.148584155265667,
+      "step": 60
+    },
+    {
+      "epoch": 1.8055555555555556,
+      "grad_norm": 4.993675231933594,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.5805,
+      "step": 65
+    },
+    {
+      "epoch": 1.9444444444444444,
+      "grad_norm": 4.856825351715088,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.5684,
+      "step": 70
+    },
+    {
+      "epoch": 1.9444444444444444,
+      "eval_loss": 0.5697694420814514,
+      "eval_runtime": 245.5413,
+      "eval_samples_per_second": 2.036,
+      "eval_steps_per_second": 0.257,
+      "eval_wer": 35.47566019726376,
+      "step": 70
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "grad_norm": 4.464582443237305,
+      "learning_rate": 1.5e-05,
+      "loss": 0.4534,
+      "step": 75
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 4.251033306121826,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.427,
+      "step": 80
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "eval_loss": 0.5380394458770752,
+      "eval_runtime": 244.4819,
+      "eval_samples_per_second": 2.045,
+      "eval_steps_per_second": 0.258,
+      "eval_wer": 27.266942411708563,
+      "step": 80
+    },
+    {
+      "epoch": 2.361111111111111,
+      "grad_norm": 4.489510536193848,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.3929,
+      "step": 85
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 4.552371025085449,
+      "learning_rate": 1.8e-05,
+      "loss": 0.4395,
+      "step": 90
+    },
+    {
+      "epoch": 2.5,
+      "eval_loss": 0.5162410140037537,
+      "eval_runtime": 245.2373,
+      "eval_samples_per_second": 2.039,
+      "eval_steps_per_second": 0.257,
+      "eval_wer": 32.73942093541203,
+      "step": 90
+    },
+    {
+      "epoch": 2.638888888888889,
+      "grad_norm": 4.691618919372559,
+      "learning_rate": 1.9e-05,
+      "loss": 0.3825,
+      "step": 95
+    },
+    {
+      "epoch": 2.7777777777777777,
+      "grad_norm": 4.219367027282715,
+      "learning_rate": 2e-05,
+      "loss": 0.3861,
+      "step": 100
+    },
+    {
+      "epoch": 2.7777777777777777,
+      "eval_loss": 0.495292991399765,
+      "eval_runtime": 243.4193,
+      "eval_samples_per_second": 2.054,
+      "eval_steps_per_second": 0.259,
+      "eval_wer": 24.530703149856826,
+      "step": 100
+    },
+    {
+      "epoch": 2.9166666666666665,
+      "grad_norm": 4.323045253753662,
+      "learning_rate": 2.1e-05,
+      "loss": 0.3669,
+      "step": 105
+    },
+    {
+      "epoch": 3.0555555555555554,
+      "grad_norm": 3.2159509658813477,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.3745,
+      "step": 110
+    },
+    {
+      "epoch": 3.0555555555555554,
+      "eval_loss": 0.4837464392185211,
+      "eval_runtime": 244.5759,
+      "eval_samples_per_second": 2.044,
+      "eval_steps_per_second": 0.258,
+      "eval_wer": 24.626153356665608,
+      "step": 110
+    },
+    {
+      "epoch": 3.1944444444444446,
+      "grad_norm": 3.675457000732422,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.257,
+      "step": 115
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 2.8939876556396484,
+      "learning_rate": 2.4e-05,
+      "loss": 0.2487,
+      "step": 120
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "eval_loss": 0.4732927978038788,
+      "eval_runtime": 244.6891,
+      "eval_samples_per_second": 2.043,
+      "eval_steps_per_second": 0.257,
+      "eval_wer": 23.57620108176901,
+      "step": 120
+    },
+    {
+      "epoch": 3.4722222222222223,
+      "grad_norm": 3.4589827060699463,
+      "learning_rate": 2.5e-05,
+      "loss": 0.253,
+      "step": 125
+    },
+    {
+      "epoch": 3.611111111111111,
+      "grad_norm": 3.1798577308654785,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.2343,
+      "step": 130
+    },
+    {
+      "epoch": 3.611111111111111,
+      "eval_loss": 0.46519017219543457,
+      "eval_runtime": 244.3925,
+      "eval_samples_per_second": 2.046,
+      "eval_steps_per_second": 0.258,
+      "eval_wer": 24.94432071269488,
+      "step": 130
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 4.061887741088867,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.2354,
+      "step": 135
+    },
+    {
+      "epoch": 3.888888888888889,
+      "grad_norm": 4.474591255187988,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.2429,
+      "step": 140
+    },
+    {
+      "epoch": 3.888888888888889,
+      "eval_loss": 0.4581267833709717,
+      "eval_runtime": 244.836,
+      "eval_samples_per_second": 2.042,
+      "eval_steps_per_second": 0.257,
+      "eval_wer": 24.085268851415844,
+      "step": 140
+    },
+    {
+      "epoch": 4.027777777777778,
+      "grad_norm": 2.3235318660736084,
+      "learning_rate": 2.9e-05,
+      "loss": 0.2728,
+      "step": 145
+    },
+    {
+      "epoch": 4.166666666666667,
+      "grad_norm": 2.3824808597564697,
+      "learning_rate": 3e-05,
+      "loss": 0.1286,
+      "step": 150
+    },
+    {
+      "epoch": 4.166666666666667,
+      "eval_loss": 0.46725359559059143,
+      "eval_runtime": 245.6982,
+      "eval_samples_per_second": 2.035,
+      "eval_steps_per_second": 0.256,
+      "eval_wer": 24.276169265033406,
+      "step": 150
+    },
+    {
+      "epoch": 4.305555555555555,
+      "grad_norm": 2.5686404705047607,
+      "learning_rate": 3.1e-05,
+      "loss": 0.1301,
+      "step": 155
+    },
+    {
+      "epoch": 4.444444444444445,
+      "grad_norm": 2.7436068058013916,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.1304,
+      "step": 160
+    },
+    {
+      "epoch": 4.444444444444445,
+      "eval_loss": 0.46984970569610596,
+      "eval_runtime": 245.0991,
+      "eval_samples_per_second": 2.04,
+      "eval_steps_per_second": 0.257,
+      "eval_wer": 31.72128539611836,
+      "step": 160
+    },
+    {
+      "epoch": 4.583333333333333,
+      "grad_norm": 2.83823823928833,
+      "learning_rate": 3.3e-05,
+      "loss": 0.1408,
+      "step": 165
+    },
+    {
+      "epoch": 4.722222222222222,
+      "grad_norm": 2.7204811573028564,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.1361,
+      "step": 170
+    },
+    {
+      "epoch": 4.722222222222222,
+      "eval_loss": 0.4690161943435669,
+      "eval_runtime": 246.5232,
+      "eval_samples_per_second": 2.028,
+      "eval_steps_per_second": 0.256,
+      "eval_wer": 33.08940502704423,
+      "step": 170
+    },
+    {
+      "epoch": 4.861111111111111,
+      "grad_norm": 3.671097993850708,
+      "learning_rate": 3.5e-05,
+      "loss": 0.1511,
+      "step": 175
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 6.484060764312744,
+      "learning_rate": 3.6e-05,
+      "loss": 0.1447,
+      "step": 180
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.4811546802520752,
+      "eval_runtime": 244.9356,
+      "eval_samples_per_second": 2.041,
+      "eval_steps_per_second": 0.257,
+      "eval_wer": 24.657970092268535,
+      "step": 180
+    },
+    {
+      "epoch": 5.138888888888889,
+      "grad_norm": 1.9667352437973022,
+      "learning_rate": 3.7e-05,
+      "loss": 0.063,
+      "step": 185
+    },
+    {
+      "epoch": 5.277777777777778,
+      "grad_norm": 2.1828482151031494,
+      "learning_rate": 3.8e-05,
+      "loss": 0.0617,
+      "step": 190
+    },
+    {
+      "epoch": 5.277777777777778,
+      "eval_loss": 0.48713362216949463,
+      "eval_runtime": 244.9851,
+      "eval_samples_per_second": 2.041,
+      "eval_steps_per_second": 0.257,
+      "eval_wer": 29.939548202354437,
+      "step": 190
+    },
+    {
+      "epoch": 5.416666666666667,
+      "grad_norm": 1.8774911165237427,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.0606,
+      "step": 195
+    },
+    {
+      "epoch": 5.555555555555555,
+      "grad_norm": 1.8562583923339844,
+      "learning_rate": 4e-05,
+      "loss": 0.0617,
+      "step": 200
+    },
+    {
+      "epoch": 5.555555555555555,
+      "eval_loss": 0.488438218832016,
+      "eval_runtime": 244.9014,
+      "eval_samples_per_second": 2.042,
+      "eval_steps_per_second": 0.257,
+      "eval_wer": 24.848870505886094,
+      "step": 200
+    },
+    {
+      "epoch": 5.694444444444445,
+      "grad_norm": 1.9106348752975464,
+      "learning_rate": 4.1e-05,
+      "loss": 0.0617,
+      "step": 205
+    },
+    {
+      "epoch": 5.833333333333333,
+      "grad_norm": 1.8114972114562988,
+      "learning_rate": 4.2e-05,
+      "loss": 0.0577,
+      "step": 210
+    },
+    {
+      "epoch": 5.833333333333333,
+      "eval_loss": 0.4998014569282532,
+      "eval_runtime": 244.1029,
+      "eval_samples_per_second": 2.048,
+      "eval_steps_per_second": 0.258,
+      "eval_wer": 26.853324848870507,
+      "step": 210
+    },
+    {
+      "epoch": 5.972222222222222,
+      "grad_norm": 5.00437593460083,
+      "learning_rate": 4.3e-05,
+      "loss": 0.078,
+      "step": 215
+    },
+    {
+      "epoch": 6.111111111111111,
+      "grad_norm": 1.4013047218322754,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.038,
+      "step": 220
+    },
+    {
+      "epoch": 6.111111111111111,
+      "eval_loss": 0.500673770904541,
+      "eval_runtime": 247.5538,
+      "eval_samples_per_second": 2.02,
+      "eval_steps_per_second": 0.254,
+      "eval_wer": 24.848870505886094,
+      "step": 220
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 1.4778488874435425,
+      "learning_rate": 4.5e-05,
+      "loss": 0.0243,
+      "step": 225
+    },
+    {
+      "epoch": 6.388888888888889,
+      "grad_norm": 1.3681198358535767,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.0269,
+      "step": 230
+    },
+    {
+      "epoch": 6.388888888888889,
+      "eval_loss": 0.5122880935668945,
+      "eval_runtime": 243.6648,
+      "eval_samples_per_second": 2.052,
+      "eval_steps_per_second": 0.259,
+      "eval_wer": 27.139675469296847,
+      "step": 230
+    },
+    {
+      "epoch": 6.527777777777778,
+      "grad_norm": 1.450726866722107,
+      "learning_rate": 4.7e-05,
+      "loss": 0.0297,
+      "step": 235
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 1.4052125215530396,
+      "learning_rate": 4.8e-05,
+      "loss": 0.0321,
+      "step": 240
+    },
+    {
+      "epoch": 6.666666666666667,
+      "eval_loss": 0.500522792339325,
+      "eval_runtime": 247.602,
+      "eval_samples_per_second": 2.019,
+      "eval_steps_per_second": 0.254,
+      "eval_wer": 23.35348393254852,
+      "step": 240
+    },
+    {
+      "epoch": 6.805555555555555,
+      "grad_norm": 1.2223644256591797,
+      "learning_rate": 4.9e-05,
+      "loss": 0.0291,
+      "step": 245
+    },
+    {
+      "epoch": 6.944444444444445,
+      "grad_norm": 1.463398814201355,
+      "learning_rate": 5e-05,
+      "loss": 0.0296,
+      "step": 250
+    },
+    {
+      "epoch": 6.944444444444445,
+      "eval_loss": 0.5332342386245728,
+      "eval_runtime": 246.3422,
+      "eval_samples_per_second": 2.03,
+      "eval_steps_per_second": 0.256,
+      "eval_wer": 31.880369074132993,
+      "step": 250
+    },
+    {
+      "epoch": 7.083333333333333,
+      "grad_norm": 4.257472991943359,
+      "learning_rate": 5.1000000000000006e-05,
+      "loss": 0.027,
+      "step": 255
+    },
+    {
+      "epoch": 7.222222222222222,
+      "grad_norm": 2.294562339782715,
+      "learning_rate": 5.2000000000000004e-05,
+      "loss": 0.0207,
+      "step": 260
+    },
+    {
+      "epoch": 7.222222222222222,
+      "eval_loss": 0.5236981511116028,
+      "eval_runtime": 244.1894,
+      "eval_samples_per_second": 2.048,
+      "eval_steps_per_second": 0.258,
+      "eval_wer": 30.066815144766146,
+      "step": 260
+    },
+    {
+      "epoch": 7.361111111111111,
+      "grad_norm": 1.2468712329864502,
+      "learning_rate": 5.300000000000001e-05,
+      "loss": 0.0228,
+      "step": 265
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 1.8487240076065063,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 0.0215,
+      "step": 270
+    },
+    {
+      "epoch": 7.5,
+      "eval_loss": 0.5222529768943787,
+      "eval_runtime": 243.6778,
+      "eval_samples_per_second": 2.052,
+      "eval_steps_per_second": 0.259,
+      "eval_wer": 25.548838689150493,
+      "step": 270
+    },
+    {
+      "epoch": 7.638888888888889,
+      "grad_norm": 1.1909741163253784,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.0201,
+      "step": 275
+    },
+    {
+      "epoch": 7.777777777777778,
+      "grad_norm": 1.6141778230667114,
+      "learning_rate": 5.6000000000000006e-05,
+      "loss": 0.0198,
+      "step": 280
+    },
+    {
+      "epoch": 7.777777777777778,
+      "eval_loss": 0.5157026648521423,
+      "eval_runtime": 244.0734,
+      "eval_samples_per_second": 2.049,
+      "eval_steps_per_second": 0.258,
+      "eval_wer": 30.194082087177854,
+      "step": 280
+    },
+    {
+      "epoch": 7.916666666666667,
+      "grad_norm": 1.1372332572937012,
+      "learning_rate": 5.6999999999999996e-05,
+      "loss": 0.0193,
+      "step": 285
+    },
+    {
+      "epoch": 8.055555555555555,
+      "grad_norm": 2.210016965866089,
+      "learning_rate": 5.8e-05,
+      "loss": 0.0273,
+      "step": 290
+    },
+    {
+      "epoch": 8.055555555555555,
+      "eval_loss": 0.5289562940597534,
+      "eval_runtime": 243.9152,
+      "eval_samples_per_second": 2.05,
+      "eval_steps_per_second": 0.258,
+      "eval_wer": 27.553293032134903,
+      "step": 290
+    },
+    {
+      "epoch": 8.194444444444445,
+      "grad_norm": 1.942575454711914,
+      "learning_rate": 5.9e-05,
+      "loss": 0.0201,
+      "step": 295
+    },
+    {
+      "epoch": 8.333333333333334,
+      "grad_norm": 1.3640440702438354,
+      "learning_rate": 6e-05,
+      "loss": 0.0197,
+      "step": 300
+    },
+    {
+      "epoch": 8.333333333333334,
+      "eval_loss": 0.5509196519851685,
+      "eval_runtime": 243.9508,
+      "eval_samples_per_second": 2.05,
+      "eval_steps_per_second": 0.258,
+      "eval_wer": 26.948775055679285,
+      "step": 300
+    },
+    {
+      "epoch": 8.333333333333334,
+      "step": 300,
+      "total_flos": 9.2409447186432e+17,
+      "train_loss": 0.5431244759509961,
+      "train_runtime": 10016.0212,
+      "train_samples_per_second": 3.834,
+      "train_steps_per_second": 0.03
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 300,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9,
+  "save_steps": 10,
+  "total_flos": 9.2409447186432e+17,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}