Train complete at 3epochs

Browse files

Files changed (5) hide show

adapter_config.json +2 -2
adapter_model.bin +1 -1
scaler.pt +0 -3
scheduler.pt +0 -3
trainer_state.json +237 -3

adapter_config.json CHANGED Viewed

@@ -4,7 +4,7 @@
   "enable_lora": null,
   "fan_in_fan_out": false,
   "inference_mode": true,
-  "lora_alpha": 8,
   "lora_dropout": 0.05,
   "merge_weights": false,
   "modules_to_save": null,
@@ -15,4 +15,4 @@
     "v_proj"
   ],
   "task_type": "CAUSAL_LM"
-}

   "enable_lora": null,
   "fan_in_fan_out": false,
   "inference_mode": true,
+  "lora_alpha": 16,
   "lora_dropout": 0.05,
   "merge_weights": false,
   "modules_to_save": null,
     "v_proj"
   ],
   "task_type": "CAUSAL_LM"
+}

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f001994ef638f77b8d6ebb48a26a7c118864bf78afac5811f536c9fc2f148e48
 size 84001933

 version https://git-lfs.github.com/spec/v1
+oid sha256:7cc3e88a5ffbde4422d1c4928af850ec41e2a420e149ba5fdaba16b64450e564
 size 84001933

scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1269a10971cdfaf218d0248ae69edd4de991ba32b7f1d7f4ab1bab4b303cdf82
-size 557

scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:99f4707cc6da43569e1ae1afbc47e184230167a1ad359ef368f74abc427c732b
-size 627

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9987397605545052,
-  "global_step": 793,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -480,11 +480,245 @@
       "learning_rate": 1.829044117647059e-05,
       "loss": 0.7239,
       "step": 790
     }
   ],
   "max_steps": 1188,
   "num_train_epochs": 3,
-  "total_flos": 4.058995894908669e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9943289224952743,
+  "global_step": 1188,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.829044117647059e-05,
       "loss": 0.7239,
       "step": 790
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 1.7830882352941177e-05,
+      "loss": 0.7271,
+      "step": 800
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 1.7371323529411764e-05,
+      "loss": 0.7201,
+      "step": 810
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.6911764705882355e-05,
+      "loss": 0.7228,
+      "step": 820
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 1.6452205882352942e-05,
+      "loss": 0.7337,
+      "step": 830
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 1.599264705882353e-05,
+      "loss": 0.7279,
+      "step": 840
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 1.5533088235294117e-05,
+      "loss": 0.7283,
+      "step": 850
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 1.5073529411764706e-05,
+      "loss": 0.714,
+      "step": 860
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 1.4613970588235295e-05,
+      "loss": 0.7185,
+      "step": 870
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 1.4154411764705883e-05,
+      "loss": 0.7216,
+      "step": 880
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 1.3694852941176472e-05,
+      "loss": 0.7239,
+      "step": 890
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.323529411764706e-05,
+      "loss": 0.7309,
+      "step": 900
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 1.2775735294117647e-05,
+      "loss": 0.727,
+      "step": 910
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 1.2316176470588236e-05,
+      "loss": 0.7165,
+      "step": 920
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 1.1856617647058823e-05,
+      "loss": 0.723,
+      "step": 930
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 1.1397058823529412e-05,
+      "loss": 0.7166,
+      "step": 940
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 1.09375e-05,
+      "loss": 0.7178,
+      "step": 950
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 1.0477941176470589e-05,
+      "loss": 0.7094,
+      "step": 960
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 1.0018382352941178e-05,
+      "loss": 0.7229,
+      "step": 970
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 9.558823529411764e-06,
+      "loss": 0.7116,
+      "step": 980
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 9.099264705882353e-06,
+      "loss": 0.7187,
+      "step": 990
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 8.639705882352942e-06,
+      "loss": 0.7103,
+      "step": 1000
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 8.18014705882353e-06,
+      "loss": 0.7241,
+      "step": 1010
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 7.720588235294119e-06,
+      "loss": 0.7336,
+      "step": 1020
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 7.261029411764707e-06,
+      "loss": 0.7168,
+      "step": 1030
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 6.8014705882352935e-06,
+      "loss": 0.7242,
+      "step": 1040
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 6.341911764705883e-06,
+      "loss": 0.7199,
+      "step": 1050
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 5.882352941176471e-06,
+      "loss": 0.725,
+      "step": 1060
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 5.422794117647059e-06,
+      "loss": 0.7252,
+      "step": 1070
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 4.963235294117647e-06,
+      "loss": 0.7183,
+      "step": 1080
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 4.503676470588236e-06,
+      "loss": 0.7172,
+      "step": 1090
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 4.044117647058824e-06,
+      "loss": 0.7195,
+      "step": 1100
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 3.584558823529412e-06,
+      "loss": 0.7155,
+      "step": 1110
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 3.125e-06,
+      "loss": 0.7209,
+      "step": 1120
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 2.6654411764705884e-06,
+      "loss": 0.7112,
+      "step": 1130
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 2.2058823529411767e-06,
+      "loss": 0.7105,
+      "step": 1140
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 1.7463235294117648e-06,
+      "loss": 0.7217,
+      "step": 1150
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 1.286764705882353e-06,
+      "loss": 0.7183,
+      "step": 1160
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 8.272058823529412e-07,
+      "loss": 0.7143,
+      "step": 1170
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 3.6764705882352943e-07,
+      "loss": 0.7126,
+      "step": 1180
     }
   ],
   "max_steps": 1188,
   "num_train_epochs": 3,
+  "total_flos": 6.076984402892554e+19,
   "trial_name": null,
   "trial_params": null
 }