Training in progress, step 1350, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +273 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:152dbb08fdc5ac415b1aef8cdb064f7a2af23ec037d9f6e1faf797526933b886
 size 528550256

 version https://git-lfs.github.com/spec/v1
+oid sha256:46d58394aa961cbd926c561b5aff779db006a0066e23a13e85c327c0e4c1545a
 size 528550256

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ea7a39b7f029aabed418f7134bd4793c70721221732e7926264b2029a522e56
 size 1057390522

 version https://git-lfs.github.com/spec/v1
+oid sha256:e766854e476f43601e5416bc84190938026e3bac15055777e1067753193a6440
 size 1057390522

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7682299c566684ea51cf26f0c86b6ffaa3c0bc63cbdf84674b29a2c62ac72143
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:52cca5856c568bc52c683b690919168fa27bfbdfefc6e0a62355afa6011157c3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bbf814912876811928d96d5682a1ea23a461d2600cea80dc2fd25c5ed5ec5ef
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e199c66e0e47121b15fb9bae86bf70568a0203a8dfc619658b4b2491bc6b8472
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.2223457476375765,
   "eval_steps": 100,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -788,6 +788,275 @@
       "eval_samples_per_second": 4.15,
       "eval_steps_per_second": 4.15,
       "step": 1000
     }
   ],
   "logging_steps": 10,
@@ -802,12 +1071,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.995091809512653e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 100,
+  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.15,
       "eval_steps_per_second": 4.15,
       "step": 1000
+    },
+    {
+      "epoch": 2.244580322401334,
+      "grad_norm": 0.266984224319458,
+      "learning_rate": 1.8208560452235625e-05,
+      "loss": 0.0614,
+      "step": 1010
+    },
+    {
+      "epoch": 2.2668148971650917,
+      "grad_norm": 0.24567271769046783,
+      "learning_rate": 1.7221448304223327e-05,
+      "loss": 0.0385,
+      "step": 1020
+    },
+    {
+      "epoch": 2.289049471928849,
+      "grad_norm": 0.15998658537864685,
+      "learning_rate": 1.6256249706943628e-05,
+      "loss": 0.0482,
+      "step": 1030
+    },
+    {
+      "epoch": 2.311284046692607,
+      "grad_norm": 0.2101755291223526,
+      "learning_rate": 1.5313609927723332e-05,
+      "loss": 0.0419,
+      "step": 1040
+    },
+    {
+      "epoch": 2.333518621456365,
+      "grad_norm": 0.10369472205638885,
+      "learning_rate": 1.4394159152569903e-05,
+      "loss": 0.0248,
+      "step": 1050
+    },
+    {
+      "epoch": 2.3557531962201224,
+      "grad_norm": 0.3291586637496948,
+      "learning_rate": 1.3498512064871271e-05,
+      "loss": 0.0611,
+      "step": 1060
+    },
+    {
+      "epoch": 2.37798777098388,
+      "grad_norm": 0.5122426748275757,
+      "learning_rate": 1.262726743445954e-05,
+      "loss": 0.0628,
+      "step": 1070
+    },
+    {
+      "epoch": 2.4002223457476375,
+      "grad_norm": 0.1757289469242096,
+      "learning_rate": 1.178100771731339e-05,
+      "loss": 0.0414,
+      "step": 1080
+    },
+    {
+      "epoch": 2.422456920511395,
+      "grad_norm": 0.3590919077396393,
+      "learning_rate": 1.096029866616704e-05,
+      "loss": 0.0349,
+      "step": 1090
+    },
+    {
+      "epoch": 2.444691495275153,
+      "grad_norm": 0.21179239451885223,
+      "learning_rate": 1.0165688952285651e-05,
+      "loss": 0.0318,
+      "step": 1100
+    },
+    {
+      "epoch": 2.444691495275153,
+      "eval_loss": 0.048208702355623245,
+      "eval_runtime": 48.1747,
+      "eval_samples_per_second": 4.152,
+      "eval_steps_per_second": 4.152,
+      "step": 1100
+    },
+    {
+      "epoch": 2.4669260700389106,
+      "grad_norm": 0.2429758608341217,
+      "learning_rate": 9.397709798660359e-06,
+      "loss": 0.0389,
+      "step": 1110
+    },
+    {
+      "epoch": 2.489160644802668,
+      "grad_norm": 0.3247833251953125,
+      "learning_rate": 8.656874624868134e-06,
+      "loss": 0.0474,
+      "step": 1120
+    },
+    {
+      "epoch": 2.5113952195664258,
+      "grad_norm": 0.20058025419712067,
+      "learning_rate": 7.943678703833657e-06,
+      "loss": 0.0446,
+      "step": 1130
+    },
+    {
+      "epoch": 2.5336297943301833,
+      "grad_norm": 0.22172123193740845,
+      "learning_rate": 7.258598830722946e-06,
+      "loss": 0.0429,
+      "step": 1140
+    },
+    {
+      "epoch": 2.555864369093941,
+      "grad_norm": 0.3664150834083557,
+      "learning_rate": 6.6020930041899635e-06,
+      "loss": 0.0487,
+      "step": 1150
+    },
+    {
+      "epoch": 2.5780989438576984,
+      "grad_norm": 0.13659419119358063,
+      "learning_rate": 5.974600120189289e-06,
+      "loss": 0.0438,
+      "step": 1160
+    },
+    {
+      "epoch": 2.6003335186214565,
+      "grad_norm": 0.18766269087791443,
+      "learning_rate": 5.376539678559567e-06,
+      "loss": 0.0385,
+      "step": 1170
+    },
+    {
+      "epoch": 2.622568093385214,
+      "grad_norm": 0.24047650396823883,
+      "learning_rate": 4.8083115025739756e-06,
+      "loss": 0.0413,
+      "step": 1180
+    },
+    {
+      "epoch": 2.6448026681489716,
+      "grad_norm": 0.10476374626159668,
+      "learning_rate": 4.270295471645064e-06,
+      "loss": 0.0426,
+      "step": 1190
+    },
+    {
+      "epoch": 2.667037242912729,
+      "grad_norm": 0.3628266155719757,
+      "learning_rate": 3.7628512673627215e-06,
+      "loss": 0.0527,
+      "step": 1200
+    },
+    {
+      "epoch": 2.667037242912729,
+      "eval_loss": 0.04677248001098633,
+      "eval_runtime": 48.3089,
+      "eval_samples_per_second": 4.14,
+      "eval_steps_per_second": 4.14,
+      "step": 1200
+    },
+    {
+      "epoch": 2.689271817676487,
+      "grad_norm": 0.2052982747554779,
+      "learning_rate": 3.286318133035132e-06,
+      "loss": 0.0394,
+      "step": 1210
+    },
+    {
+      "epoch": 2.7115063924402447,
+      "grad_norm": 0.14959484338760376,
+      "learning_rate": 2.8410146468933364e-06,
+      "loss": 0.0351,
+      "step": 1220
+    },
+    {
+      "epoch": 2.7337409672040023,
+      "grad_norm": 0.17867030203342438,
+      "learning_rate": 2.4272385091110516e-06,
+      "loss": 0.0465,
+      "step": 1230
+    },
+    {
+      "epoch": 2.75597554196776,
+      "grad_norm": 0.2831536531448364,
+      "learning_rate": 2.0452663427823093e-06,
+      "loss": 0.0487,
+      "step": 1240
+    },
+    {
+      "epoch": 2.7782101167315174,
+      "grad_norm": 0.16684742271900177,
+      "learning_rate": 1.6953535089896555e-06,
+      "loss": 0.0335,
+      "step": 1250
+    },
+    {
+      "epoch": 2.800444691495275,
+      "grad_norm": 0.12368661165237427,
+      "learning_rate": 1.3777339360867836e-06,
+      "loss": 0.0317,
+      "step": 1260
+    },
+    {
+      "epoch": 2.8226792662590325,
+      "grad_norm": 0.13758961856365204,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.0305,
+      "step": 1270
+    },
+    {
+      "epoch": 2.8449138410227905,
+      "grad_norm": 0.3133557438850403,
+      "learning_rate": 8.402021988209218e-07,
+      "loss": 0.0488,
+      "step": 1280
+    },
+    {
+      "epoch": 2.867148415786548,
+      "grad_norm": 0.13724081218242645,
+      "learning_rate": 6.20649392281425e-07,
+      "loss": 0.0406,
+      "step": 1290
+    },
+    {
+      "epoch": 2.8893829905503057,
+      "grad_norm": 0.286937952041626,
+      "learning_rate": 4.341083220360864e-07,
+      "loss": 0.049,
+      "step": 1300
+    },
+    {
+      "epoch": 2.8893829905503057,
+      "eval_loss": 0.0463690422475338,
+      "eval_runtime": 48.3097,
+      "eval_samples_per_second": 4.14,
+      "eval_steps_per_second": 4.14,
+      "step": 1300
+    },
+    {
+      "epoch": 2.9116175653140632,
+      "grad_norm": 0.06224232539534569,
+      "learning_rate": 2.807036969873722e-07,
+      "loss": 0.0565,
+      "step": 1310
+    },
+    {
+      "epoch": 2.9338521400778212,
+      "grad_norm": 0.08071974664926529,
+      "learning_rate": 1.6053807322333191e-07,
+      "loss": 0.0369,
+      "step": 1320
+    },
+    {
+      "epoch": 2.956086714841579,
+      "grad_norm": 0.22806085646152496,
+      "learning_rate": 7.369178545542088e-08,
+      "loss": 0.0376,
+      "step": 1330
+    },
+    {
+      "epoch": 2.9783212896053364,
+      "grad_norm": 0.20774702727794647,
+      "learning_rate": 2.022289331209959e-08,
+      "loss": 0.0467,
+      "step": 1340
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.19576112926006317,
+      "learning_rate": 1.671425240434843e-10,
+      "loss": 0.0531,
+      "step": 1350
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.093314295223091e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null