End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +619 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3.1
 base_model: meta-llama/Llama-3.1-8B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: OH_original_wo_glaive_code_assistant
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # OH_original_wo_glaive_code_assistant
-This model is a fine-tuned version of [meta-llama/Llama-3.1-8B](https://huggingface.co/meta-llama/Llama-3.1-8B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6022

 base_model: meta-llama/Llama-3.1-8B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: OH_original_wo_glaive_code_assistant
 # OH_original_wo_glaive_code_assistant
+This model is a fine-tuned version of [meta-llama/Llama-3.1-8B](https://huggingface.co/meta-llama/Llama-3.1-8B) on the mlfoundations-dev/OH_original_wo_glaive_code_assistant dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6022

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 2.994350282485876,
+    "eval_loss": 0.6022372245788574,
+    "eval_runtime": 90.8872,
+    "eval_samples_per_second": 78.691,
+    "eval_steps_per_second": 0.616,
+    "total_flos": 1331235850813440.0,
+    "train_loss": 0.5684360762062313,
+    "train_runtime": 14109.8059,
+    "train_samples_per_second": 28.892,
+    "train_steps_per_second": 0.056
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.994350282485876,
+    "eval_loss": 0.6022372245788574,
+    "eval_runtime": 90.8872,
+    "eval_samples_per_second": 78.691,
+    "eval_steps_per_second": 0.616
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.994350282485876,
+    "total_flos": 1331235850813440.0,
+    "train_loss": 0.5684360762062313,
+    "train_runtime": 14109.8059,
+    "train_samples_per_second": 28.892,
+    "train_steps_per_second": 0.056
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,619 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.994350282485876,
+  "eval_steps": 500,
+  "global_step": 795,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03766478342749529,
+      "grad_norm": 2.263125496637036,
+      "learning_rate": 5e-06,
+      "loss": 0.8213,
+      "step": 10
+    },
+    {
+      "epoch": 0.07532956685499058,
+      "grad_norm": 2.189120038314998,
+      "learning_rate": 5e-06,
+      "loss": 0.725,
+      "step": 20
+    },
+    {
+      "epoch": 0.11299435028248588,
+      "grad_norm": 2.7377229620997587,
+      "learning_rate": 5e-06,
+      "loss": 0.6984,
+      "step": 30
+    },
+    {
+      "epoch": 0.15065913370998116,
+      "grad_norm": 1.6393030705097076,
+      "learning_rate": 5e-06,
+      "loss": 0.6949,
+      "step": 40
+    },
+    {
+      "epoch": 0.18832391713747645,
+      "grad_norm": 1.0398712245575565,
+      "learning_rate": 5e-06,
+      "loss": 0.6683,
+      "step": 50
+    },
+    {
+      "epoch": 0.22598870056497175,
+      "grad_norm": 0.8808957646364496,
+      "learning_rate": 5e-06,
+      "loss": 0.6657,
+      "step": 60
+    },
+    {
+      "epoch": 0.263653483992467,
+      "grad_norm": 0.7566447407586742,
+      "learning_rate": 5e-06,
+      "loss": 0.6496,
+      "step": 70
+    },
+    {
+      "epoch": 0.3013182674199623,
+      "grad_norm": 0.7117741359385918,
+      "learning_rate": 5e-06,
+      "loss": 0.6458,
+      "step": 80
+    },
+    {
+      "epoch": 0.3389830508474576,
+      "grad_norm": 0.7784154878802825,
+      "learning_rate": 5e-06,
+      "loss": 0.643,
+      "step": 90
+    },
+    {
+      "epoch": 0.3766478342749529,
+      "grad_norm": 1.2764054406718297,
+      "learning_rate": 5e-06,
+      "loss": 0.634,
+      "step": 100
+    },
+    {
+      "epoch": 0.4143126177024482,
+      "grad_norm": 0.7389123630080362,
+      "learning_rate": 5e-06,
+      "loss": 0.642,
+      "step": 110
+    },
+    {
+      "epoch": 0.4519774011299435,
+      "grad_norm": 0.5996098331338064,
+      "learning_rate": 5e-06,
+      "loss": 0.6213,
+      "step": 120
+    },
+    {
+      "epoch": 0.4896421845574388,
+      "grad_norm": 1.1501035575220573,
+      "learning_rate": 5e-06,
+      "loss": 0.6249,
+      "step": 130
+    },
+    {
+      "epoch": 0.527306967984934,
+      "grad_norm": 0.6904388049559987,
+      "learning_rate": 5e-06,
+      "loss": 0.6243,
+      "step": 140
+    },
+    {
+      "epoch": 0.5649717514124294,
+      "grad_norm": 0.783351095580665,
+      "learning_rate": 5e-06,
+      "loss": 0.621,
+      "step": 150
+    },
+    {
+      "epoch": 0.6026365348399246,
+      "grad_norm": 0.5318412680049267,
+      "learning_rate": 5e-06,
+      "loss": 0.6296,
+      "step": 160
+    },
+    {
+      "epoch": 0.64030131826742,
+      "grad_norm": 1.1247908870238332,
+      "learning_rate": 5e-06,
+      "loss": 0.6244,
+      "step": 170
+    },
+    {
+      "epoch": 0.6779661016949152,
+      "grad_norm": 0.5383437573904913,
+      "learning_rate": 5e-06,
+      "loss": 0.6174,
+      "step": 180
+    },
+    {
+      "epoch": 0.7156308851224106,
+      "grad_norm": 2.5733659531838198,
+      "learning_rate": 5e-06,
+      "loss": 0.6193,
+      "step": 190
+    },
+    {
+      "epoch": 0.7532956685499058,
+      "grad_norm": 0.7831306502565981,
+      "learning_rate": 5e-06,
+      "loss": 0.6127,
+      "step": 200
+    },
+    {
+      "epoch": 0.7909604519774012,
+      "grad_norm": 0.6934442696862589,
+      "learning_rate": 5e-06,
+      "loss": 0.6244,
+      "step": 210
+    },
+    {
+      "epoch": 0.8286252354048964,
+      "grad_norm": 0.6677867481758228,
+      "learning_rate": 5e-06,
+      "loss": 0.613,
+      "step": 220
+    },
+    {
+      "epoch": 0.8662900188323918,
+      "grad_norm": 0.4859701739274024,
+      "learning_rate": 5e-06,
+      "loss": 0.6101,
+      "step": 230
+    },
+    {
+      "epoch": 0.903954802259887,
+      "grad_norm": 0.8722337210188531,
+      "learning_rate": 5e-06,
+      "loss": 0.606,
+      "step": 240
+    },
+    {
+      "epoch": 0.9416195856873822,
+      "grad_norm": 1.9266628990003756,
+      "learning_rate": 5e-06,
+      "loss": 0.6019,
+      "step": 250
+    },
+    {
+      "epoch": 0.9792843691148776,
+      "grad_norm": 1.056076074715482,
+      "learning_rate": 5e-06,
+      "loss": 0.6112,
+      "step": 260
+    },
+    {
+      "epoch": 0.9981167608286252,
+      "eval_loss": 0.605501651763916,
+      "eval_runtime": 91.0085,
+      "eval_samples_per_second": 78.586,
+      "eval_steps_per_second": 0.615,
+      "step": 265
+    },
+    {
+      "epoch": 1.0169491525423728,
+      "grad_norm": 0.8391047454772584,
+      "learning_rate": 5e-06,
+      "loss": 0.5915,
+      "step": 270
+    },
+    {
+      "epoch": 1.054613935969868,
+      "grad_norm": 0.834651626730102,
+      "learning_rate": 5e-06,
+      "loss": 0.5646,
+      "step": 280
+    },
+    {
+      "epoch": 1.0922787193973635,
+      "grad_norm": 0.7450681825170591,
+      "learning_rate": 5e-06,
+      "loss": 0.5518,
+      "step": 290
+    },
+    {
+      "epoch": 1.1299435028248588,
+      "grad_norm": 0.590980176111281,
+      "learning_rate": 5e-06,
+      "loss": 0.5601,
+      "step": 300
+    },
+    {
+      "epoch": 1.167608286252354,
+      "grad_norm": 0.9385625642802127,
+      "learning_rate": 5e-06,
+      "loss": 0.552,
+      "step": 310
+    },
+    {
+      "epoch": 1.2052730696798493,
+      "grad_norm": 0.8126168794552087,
+      "learning_rate": 5e-06,
+      "loss": 0.558,
+      "step": 320
+    },
+    {
+      "epoch": 1.2429378531073447,
+      "grad_norm": 0.677905810554928,
+      "learning_rate": 5e-06,
+      "loss": 0.565,
+      "step": 330
+    },
+    {
+      "epoch": 1.28060263653484,
+      "grad_norm": 0.6544626057539239,
+      "learning_rate": 5e-06,
+      "loss": 0.5582,
+      "step": 340
+    },
+    {
+      "epoch": 1.3182674199623352,
+      "grad_norm": 0.8524924080405836,
+      "learning_rate": 5e-06,
+      "loss": 0.5602,
+      "step": 350
+    },
+    {
+      "epoch": 1.3559322033898304,
+      "grad_norm": 0.4907188308076832,
+      "learning_rate": 5e-06,
+      "loss": 0.5607,
+      "step": 360
+    },
+    {
+      "epoch": 1.3935969868173257,
+      "grad_norm": 0.53907446375581,
+      "learning_rate": 5e-06,
+      "loss": 0.5547,
+      "step": 370
+    },
+    {
+      "epoch": 1.4312617702448212,
+      "grad_norm": 0.5927028384991923,
+      "learning_rate": 5e-06,
+      "loss": 0.5541,
+      "step": 380
+    },
+    {
+      "epoch": 1.4689265536723164,
+      "grad_norm": 0.7128973727870778,
+      "learning_rate": 5e-06,
+      "loss": 0.5528,
+      "step": 390
+    },
+    {
+      "epoch": 1.5065913370998116,
+      "grad_norm": 0.49840825439685243,
+      "learning_rate": 5e-06,
+      "loss": 0.5668,
+      "step": 400
+    },
+    {
+      "epoch": 1.544256120527307,
+      "grad_norm": 0.5370743335720791,
+      "learning_rate": 5e-06,
+      "loss": 0.5575,
+      "step": 410
+    },
+    {
+      "epoch": 1.5819209039548023,
+      "grad_norm": 0.6150871895812915,
+      "learning_rate": 5e-06,
+      "loss": 0.5597,
+      "step": 420
+    },
+    {
+      "epoch": 1.6195856873822976,
+      "grad_norm": 0.563194743905304,
+      "learning_rate": 5e-06,
+      "loss": 0.5592,
+      "step": 430
+    },
+    {
+      "epoch": 1.6572504708097928,
+      "grad_norm": 0.5119581124907059,
+      "learning_rate": 5e-06,
+      "loss": 0.5621,
+      "step": 440
+    },
+    {
+      "epoch": 1.694915254237288,
+      "grad_norm": 0.5352254655513019,
+      "learning_rate": 5e-06,
+      "loss": 0.5541,
+      "step": 450
+    },
+    {
+      "epoch": 1.7325800376647833,
+      "grad_norm": 0.6077433771903062,
+      "learning_rate": 5e-06,
+      "loss": 0.5563,
+      "step": 460
+    },
+    {
+      "epoch": 1.7702448210922788,
+      "grad_norm": 0.562877694142977,
+      "learning_rate": 5e-06,
+      "loss": 0.555,
+      "step": 470
+    },
+    {
+      "epoch": 1.807909604519774,
+      "grad_norm": 0.5453089094350608,
+      "learning_rate": 5e-06,
+      "loss": 0.5465,
+      "step": 480
+    },
+    {
+      "epoch": 1.8455743879472695,
+      "grad_norm": 0.5709862620082578,
+      "learning_rate": 5e-06,
+      "loss": 0.5592,
+      "step": 490
+    },
+    {
+      "epoch": 1.8832391713747647,
+      "grad_norm": 0.49785144147435545,
+      "learning_rate": 5e-06,
+      "loss": 0.5563,
+      "step": 500
+    },
+    {
+      "epoch": 1.92090395480226,
+      "grad_norm": 0.48543855573710365,
+      "learning_rate": 5e-06,
+      "loss": 0.5552,
+      "step": 510
+    },
+    {
+      "epoch": 1.9585687382297552,
+      "grad_norm": 0.5180932799655572,
+      "learning_rate": 5e-06,
+      "loss": 0.5571,
+      "step": 520
+    },
+    {
+      "epoch": 1.9962335216572504,
+      "grad_norm": 0.5674984350650156,
+      "learning_rate": 5e-06,
+      "loss": 0.5554,
+      "step": 530
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.5974339842796326,
+      "eval_runtime": 92.2503,
+      "eval_samples_per_second": 77.528,
+      "eval_steps_per_second": 0.607,
+      "step": 531
+    },
+    {
+      "epoch": 2.0338983050847457,
+      "grad_norm": 0.6380443072327275,
+      "learning_rate": 5e-06,
+      "loss": 0.5074,
+      "step": 540
+    },
+    {
+      "epoch": 2.071563088512241,
+      "grad_norm": 0.7526012751703193,
+      "learning_rate": 5e-06,
+      "loss": 0.5056,
+      "step": 550
+    },
+    {
+      "epoch": 2.109227871939736,
+      "grad_norm": 0.601125683400543,
+      "learning_rate": 5e-06,
+      "loss": 0.5081,
+      "step": 560
+    },
+    {
+      "epoch": 2.146892655367232,
+      "grad_norm": 0.5412801866050161,
+      "learning_rate": 5e-06,
+      "loss": 0.4964,
+      "step": 570
+    },
+    {
+      "epoch": 2.184557438794727,
+      "grad_norm": 0.6605525778778812,
+      "learning_rate": 5e-06,
+      "loss": 0.4924,
+      "step": 580
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 0.5634126387252626,
+      "learning_rate": 5e-06,
+      "loss": 0.5017,
+      "step": 590
+    },
+    {
+      "epoch": 2.2598870056497176,
+      "grad_norm": 0.5612826370434433,
+      "learning_rate": 5e-06,
+      "loss": 0.507,
+      "step": 600
+    },
+    {
+      "epoch": 2.297551789077213,
+      "grad_norm": 0.5863149934883163,
+      "learning_rate": 5e-06,
+      "loss": 0.4966,
+      "step": 610
+    },
+    {
+      "epoch": 2.335216572504708,
+      "grad_norm": 0.5234770461125302,
+      "learning_rate": 5e-06,
+      "loss": 0.504,
+      "step": 620
+    },
+    {
+      "epoch": 2.3728813559322033,
+      "grad_norm": 0.6459395940002383,
+      "learning_rate": 5e-06,
+      "loss": 0.5026,
+      "step": 630
+    },
+    {
+      "epoch": 2.4105461393596985,
+      "grad_norm": 0.6027956338487243,
+      "learning_rate": 5e-06,
+      "loss": 0.5025,
+      "step": 640
+    },
+    {
+      "epoch": 2.4482109227871938,
+      "grad_norm": 0.5328974338222766,
+      "learning_rate": 5e-06,
+      "loss": 0.5003,
+      "step": 650
+    },
+    {
+      "epoch": 2.4858757062146895,
+      "grad_norm": 0.6107575449426592,
+      "learning_rate": 5e-06,
+      "loss": 0.5009,
+      "step": 660
+    },
+    {
+      "epoch": 2.5235404896421847,
+      "grad_norm": 0.6193028412595688,
+      "learning_rate": 5e-06,
+      "loss": 0.5068,
+      "step": 670
+    },
+    {
+      "epoch": 2.56120527306968,
+      "grad_norm": 0.5313172697707192,
+      "learning_rate": 5e-06,
+      "loss": 0.5087,
+      "step": 680
+    },
+    {
+      "epoch": 2.598870056497175,
+      "grad_norm": 0.6705815338360445,
+      "learning_rate": 5e-06,
+      "loss": 0.5072,
+      "step": 690
+    },
+    {
+      "epoch": 2.6365348399246704,
+      "grad_norm": 0.5631108090258757,
+      "learning_rate": 5e-06,
+      "loss": 0.5053,
+      "step": 700
+    },
+    {
+      "epoch": 2.6741996233521657,
+      "grad_norm": 0.6409277069423337,
+      "learning_rate": 5e-06,
+      "loss": 0.503,
+      "step": 710
+    },
+    {
+      "epoch": 2.711864406779661,
+      "grad_norm": 0.5852444630897177,
+      "learning_rate": 5e-06,
+      "loss": 0.5099,
+      "step": 720
+    },
+    {
+      "epoch": 2.7495291902071566,
+      "grad_norm": 0.6554053610190018,
+      "learning_rate": 5e-06,
+      "loss": 0.5149,
+      "step": 730
+    },
+    {
+      "epoch": 2.7871939736346514,
+      "grad_norm": 0.6563071365261379,
+      "learning_rate": 5e-06,
+      "loss": 0.5018,
+      "step": 740
+    },
+    {
+      "epoch": 2.824858757062147,
+      "grad_norm": 0.5582449045429995,
+      "learning_rate": 5e-06,
+      "loss": 0.5103,
+      "step": 750
+    },
+    {
+      "epoch": 2.8625235404896423,
+      "grad_norm": 0.5062040173398443,
+      "learning_rate": 5e-06,
+      "loss": 0.5063,
+      "step": 760
+    },
+    {
+      "epoch": 2.9001883239171375,
+      "grad_norm": 0.6071759917390698,
+      "learning_rate": 5e-06,
+      "loss": 0.5003,
+      "step": 770
+    },
+    {
+      "epoch": 2.937853107344633,
+      "grad_norm": 0.5606403524855348,
+      "learning_rate": 5e-06,
+      "loss": 0.512,
+      "step": 780
+    },
+    {
+      "epoch": 2.975517890772128,
+      "grad_norm": 0.6859712101741441,
+      "learning_rate": 5e-06,
+      "loss": 0.5025,
+      "step": 790
+    },
+    {
+      "epoch": 2.994350282485876,
+      "eval_loss": 0.6022372245788574,
+      "eval_runtime": 89.8413,
+      "eval_samples_per_second": 79.607,
+      "eval_steps_per_second": 0.623,
+      "step": 795
+    },
+    {
+      "epoch": 2.994350282485876,
+      "step": 795,
+      "total_flos": 1331235850813440.0,
+      "train_loss": 0.5684360762062313,
+      "train_runtime": 14109.8059,
+      "train_samples_per_second": 28.892,
+      "train_steps_per_second": 0.056
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 795,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1331235850813440.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed