Training in progress, step 29000, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dba92eda90ccd8855e50aee729cdc5933197c20a8987e4bbca2496ccfb9f46eb
 size 189211642

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b38bfb27a9fc22c4b4574f2214176972bfa73ac8d3142646b820761f674ca95
 size 189211642

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8f471b58470f0f0e383b2688276d66ec94091abd49fe394fff9a7d394d7d0dc
 size 363608098

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea9176a26395979f62437009f3466faa938a707a4323d4e687b5d57a6d6f8f1c
 size 363608098

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e41142a223ed1ae8017110280e6ff1f68b98f6d47c8beb2d6f6523b2cabd70c5
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb28b82c42a9bb5bf55d64e97db9f27987fa81a7c592e21d815d9cffa7c0a5df
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c493128931a764e58051cbbc6ca0186c75c2810adca6d6eca3ccc349e82ae214
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e1aa25338743d0285d43b88c2600ca688a8287786133cac01ad1f618ed37739
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e134aa099db26f2c8d758c8b103d6bd472b8ea45ff8e39d7896c6430387d54a
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:884b90160675995812f0bd6498c004f5dca4bb18e90a7252a45f89ada159e10c
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db90ca38a63561dbf292acd617970b0ad5074b0e5381b45d37012d6f0663100c
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:89ce837998bb8f91c98f4e51f479825ed96387b3201a4c2cea96eef1bf292192
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5cfceb803c7665261ab2df9397277d216fbd340170042b1ba5a8d1d0d822658
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cebc651d508c09e942cf4f665fc7edfe43526ad316e05d80134d3ca9d4a1b0b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04147681149974225,
   "eval_steps": 500,
-  "global_step": 28000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9808,6 +9808,356 @@
       "learning_rate": 4.9320921131134654e-05,
       "loss": 39.6667,
       "step": 28000
     }
   ],
   "logging_steps": 20,
@@ -9827,7 +10177,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8052908555278746e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.042958126196161614,
   "eval_steps": 500,
+  "global_step": 29000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.9320921131134654e-05,
       "loss": 39.6667,
       "step": 28000
+    },
+    {
+      "epoch": 0.041506437793670636,
+      "grad_norm": 79.0,
+      "learning_rate": 4.93204272376339e-05,
+      "loss": 39.7124,
+      "step": 28020
+    },
+    {
+      "epoch": 0.04153606408759902,
+      "grad_norm": 56.0,
+      "learning_rate": 4.931993334413314e-05,
+      "loss": 39.702,
+      "step": 28040
+    },
+    {
+      "epoch": 0.041565690381527416,
+      "grad_norm": 70.0,
+      "learning_rate": 4.9319439450632384e-05,
+      "loss": 39.6675,
+      "step": 28060
+    },
+    {
+      "epoch": 0.0415953166754558,
+      "grad_norm": 58.25,
+      "learning_rate": 4.931894555713163e-05,
+      "loss": 39.603,
+      "step": 28080
+    },
+    {
+      "epoch": 0.04162494296938419,
+      "grad_norm": 58.0,
+      "learning_rate": 4.931845166363087e-05,
+      "loss": 39.6839,
+      "step": 28100
+    },
+    {
+      "epoch": 0.041654569263312576,
+      "grad_norm": 66.0,
+      "learning_rate": 4.9317957770130115e-05,
+      "loss": 39.7011,
+      "step": 28120
+    },
+    {
+      "epoch": 0.04168419555724096,
+      "grad_norm": 63.25,
+      "learning_rate": 4.931746387662936e-05,
+      "loss": 39.702,
+      "step": 28140
+    },
+    {
+      "epoch": 0.04171382185116935,
+      "grad_norm": 66.0,
+      "learning_rate": 4.93169699831286e-05,
+      "loss": 39.6368,
+      "step": 28160
+    },
+    {
+      "epoch": 0.041743448145097735,
+      "grad_norm": 71.0,
+      "learning_rate": 4.9316476089627845e-05,
+      "loss": 39.6087,
+      "step": 28180
+    },
+    {
+      "epoch": 0.04177307443902612,
+      "grad_norm": 76.5,
+      "learning_rate": 4.931598219612709e-05,
+      "loss": 39.6342,
+      "step": 28200
+    },
+    {
+      "epoch": 0.041802700732954515,
+      "grad_norm": 79.5,
+      "learning_rate": 4.9315488302626325e-05,
+      "loss": 39.5706,
+      "step": 28220
+    },
+    {
+      "epoch": 0.0418323270268829,
+      "grad_norm": 66.5,
+      "learning_rate": 4.9314994409125575e-05,
+      "loss": 39.6543,
+      "step": 28240
+    },
+    {
+      "epoch": 0.04186195332081129,
+      "grad_norm": 58.5,
+      "learning_rate": 4.931450051562482e-05,
+      "loss": 39.5878,
+      "step": 28260
+    },
+    {
+      "epoch": 0.041891579614739674,
+      "grad_norm": 59.0,
+      "learning_rate": 4.931400662212406e-05,
+      "loss": 39.6459,
+      "step": 28280
+    },
+    {
+      "epoch": 0.04192120590866806,
+      "grad_norm": 49.25,
+      "learning_rate": 4.93135127286233e-05,
+      "loss": 39.5152,
+      "step": 28300
+    },
+    {
+      "epoch": 0.04195083220259645,
+      "grad_norm": 64.0,
+      "learning_rate": 4.931301883512255e-05,
+      "loss": 39.5766,
+      "step": 28320
+    },
+    {
+      "epoch": 0.04198045849652483,
+      "grad_norm": 58.0,
+      "learning_rate": 4.931252494162179e-05,
+      "loss": 39.5904,
+      "step": 28340
+    },
+    {
+      "epoch": 0.04201008479045322,
+      "grad_norm": 58.25,
+      "learning_rate": 4.9312031048121036e-05,
+      "loss": 39.6196,
+      "step": 28360
+    },
+    {
+      "epoch": 0.04203971108438161,
+      "grad_norm": 61.25,
+      "learning_rate": 4.931153715462028e-05,
+      "loss": 39.5726,
+      "step": 28380
+    },
+    {
+      "epoch": 0.04206933737831,
+      "grad_norm": 61.75,
+      "learning_rate": 4.931104326111952e-05,
+      "loss": 39.5673,
+      "step": 28400
+    },
+    {
+      "epoch": 0.042098963672238386,
+      "grad_norm": 74.0,
+      "learning_rate": 4.9310549367618766e-05,
+      "loss": 39.546,
+      "step": 28420
+    },
+    {
+      "epoch": 0.04212858996616677,
+      "grad_norm": 60.75,
+      "learning_rate": 4.9310055474118e-05,
+      "loss": 39.5487,
+      "step": 28440
+    },
+    {
+      "epoch": 0.04215821626009516,
+      "grad_norm": 52.0,
+      "learning_rate": 4.930956158061725e-05,
+      "loss": 39.5736,
+      "step": 28460
+    },
+    {
+      "epoch": 0.042187842554023545,
+      "grad_norm": 72.5,
+      "learning_rate": 4.9309067687116496e-05,
+      "loss": 39.45,
+      "step": 28480
+    },
+    {
+      "epoch": 0.04221746884795193,
+      "grad_norm": 75.5,
+      "learning_rate": 4.930857379361574e-05,
+      "loss": 39.5851,
+      "step": 28500
+    },
+    {
+      "epoch": 0.04224709514188032,
+      "grad_norm": 98.5,
+      "learning_rate": 4.9308079900114976e-05,
+      "loss": 39.5567,
+      "step": 28520
+    },
+    {
+      "epoch": 0.04227672143580871,
+      "grad_norm": 56.25,
+      "learning_rate": 4.9307586006614227e-05,
+      "loss": 39.4901,
+      "step": 28540
+    },
+    {
+      "epoch": 0.0423063477297371,
+      "grad_norm": 61.0,
+      "learning_rate": 4.930709211311347e-05,
+      "loss": 39.4569,
+      "step": 28560
+    },
+    {
+      "epoch": 0.042335974023665485,
+      "grad_norm": 64.0,
+      "learning_rate": 4.930659821961271e-05,
+      "loss": 39.5612,
+      "step": 28580
+    },
+    {
+      "epoch": 0.04236560031759387,
+      "grad_norm": 58.25,
+      "learning_rate": 4.930610432611195e-05,
+      "loss": 39.4928,
+      "step": 28600
+    },
+    {
+      "epoch": 0.04239522661152226,
+      "grad_norm": 63.75,
+      "learning_rate": 4.93056104326112e-05,
+      "loss": 39.5275,
+      "step": 28620
+    },
+    {
+      "epoch": 0.042424852905450644,
+      "grad_norm": 68.0,
+      "learning_rate": 4.9305116539110444e-05,
+      "loss": 39.4773,
+      "step": 28640
+    },
+    {
+      "epoch": 0.04245447919937903,
+      "grad_norm": 72.0,
+      "learning_rate": 4.930462264560968e-05,
+      "loss": 39.5318,
+      "step": 28660
+    },
+    {
+      "epoch": 0.04248410549330742,
+      "grad_norm": 56.0,
+      "learning_rate": 4.930412875210893e-05,
+      "loss": 39.4474,
+      "step": 28680
+    },
+    {
+      "epoch": 0.04251373178723581,
+      "grad_norm": 66.0,
+      "learning_rate": 4.9303634858608174e-05,
+      "loss": 39.485,
+      "step": 28700
+    },
+    {
+      "epoch": 0.0425433580811642,
+      "grad_norm": 71.5,
+      "learning_rate": 4.930314096510741e-05,
+      "loss": 39.4602,
+      "step": 28720
+    },
+    {
+      "epoch": 0.04257298437509258,
+      "grad_norm": 58.0,
+      "learning_rate": 4.9302647071606654e-05,
+      "loss": 39.4508,
+      "step": 28740
+    },
+    {
+      "epoch": 0.04260261066902097,
+      "grad_norm": 62.5,
+      "learning_rate": 4.9302153178105904e-05,
+      "loss": 39.4066,
+      "step": 28760
+    },
+    {
+      "epoch": 0.042632236962949356,
+      "grad_norm": 61.75,
+      "learning_rate": 4.930165928460515e-05,
+      "loss": 39.4411,
+      "step": 28780
+    },
+    {
+      "epoch": 0.04266186325687774,
+      "grad_norm": 62.0,
+      "learning_rate": 4.9301165391104384e-05,
+      "loss": 39.4268,
+      "step": 28800
+    },
+    {
+      "epoch": 0.04269148955080613,
+      "grad_norm": 54.0,
+      "learning_rate": 4.930067149760363e-05,
+      "loss": 39.3404,
+      "step": 28820
+    },
+    {
+      "epoch": 0.042721115844734515,
+      "grad_norm": 56.75,
+      "learning_rate": 4.930017760410288e-05,
+      "loss": 39.3246,
+      "step": 28840
+    },
+    {
+      "epoch": 0.04275074213866291,
+      "grad_norm": 58.25,
+      "learning_rate": 4.929968371060212e-05,
+      "loss": 39.3779,
+      "step": 28860
+    },
+    {
+      "epoch": 0.042780368432591295,
+      "grad_norm": 64.0,
+      "learning_rate": 4.929918981710136e-05,
+      "loss": 39.4462,
+      "step": 28880
+    },
+    {
+      "epoch": 0.04280999472651968,
+      "grad_norm": 66.0,
+      "learning_rate": 4.92986959236006e-05,
+      "loss": 39.3394,
+      "step": 28900
+    },
+    {
+      "epoch": 0.04283962102044807,
+      "grad_norm": 57.25,
+      "learning_rate": 4.929820203009985e-05,
+      "loss": 39.3868,
+      "step": 28920
+    },
+    {
+      "epoch": 0.042869247314376455,
+      "grad_norm": 78.0,
+      "learning_rate": 4.929770813659909e-05,
+      "loss": 39.3587,
+      "step": 28940
+    },
+    {
+      "epoch": 0.04289887360830484,
+      "grad_norm": 63.25,
+      "learning_rate": 4.929721424309833e-05,
+      "loss": 39.4021,
+      "step": 28960
+    },
+    {
+      "epoch": 0.04292849990223323,
+      "grad_norm": 51.5,
+      "learning_rate": 4.929672034959758e-05,
+      "loss": 39.313,
+      "step": 28980
+    },
+    {
+      "epoch": 0.042958126196161614,
+      "grad_norm": 57.5,
+      "learning_rate": 4.9296226456096825e-05,
+      "loss": 39.3612,
+      "step": 29000
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 1.869765281936782e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null