Training in progress, step 940, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.bin +1 -1
last-checkpoint/pytorch_model_fsdp.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +340 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b224591b33b6f0dcca681ec8c98ebd3bc73d8678c36c6d74ef5f9772fc8dfdd
 size 259932816

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0e1cc5911239f49e561557a27b5f0a85dbb7e313fc43601f1cc90c43205fc68
 size 259932816

last-checkpoint/optimizer.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a84a2ee9fe524ec7424238025b6441fe2d2576088097e5a27473f77a4a30da54
 size 520248073

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a466f86ba55f590c748d1bc349d5fe6c57546e91129c4c900d8113eb56637dd
 size 520248073

last-checkpoint/pytorch_model_fsdp.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef684c624caa4dc4e8ba0d900b78b653c1096ae75c5542ba66d71ebd70bdac39
 size 260079091

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c5a87cde250f707ccacc19304f9de97807fe4e1340c81a39b85d565c0fb23e9
 size 260079091

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21a9d25a3ffb87111d602f8be707f915f247940200262cfaa79a64b9962b93ca
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f157be64f7256ff822ba6aa659c854e52284065797d00185f15a16bb9279903
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1e6d333c5faed40933de287cee8ff8bb32ffa8966fbdd18b75aa3caaec14033
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:1423736299094f0d9876f80f9f1e421064bba39236724b994e8e9c8c5510e786
 size 14917

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3fdc3543f586a4b1de6270b4a6fb197c861a47b1989bb7a635856151db43b7f
 size 1529

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d13d20eae0718d29061a425b788ef9fb122d4217938b16d41a64bc1a7b675c8
 size 1529

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9651445555255337,
   "eval_steps": 185,
-  "global_step": 893,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6299,6 +6299,343 @@
       "learning_rate": 9.324213144551805e-06,
       "loss": 2.3854,
       "step": 893
     }
   ],
   "logging_steps": 1,
@@ -6318,7 +6655,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.42802856887006e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0151310456633342,
   "eval_steps": 185,
+  "global_step": 940,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.324213144551805e-06,
       "loss": 2.3854,
       "step": 893
+    },
+    {
+      "epoch": 0.9662253445014861,
+      "grad_norm": 0.3288347125053406,
+      "learning_rate": 9.322864802757564e-06,
+      "loss": 2.451,
+      "step": 894
+    },
+    {
+      "epoch": 0.9673061334774385,
+      "grad_norm": 0.531466007232666,
+      "learning_rate": 9.321514135122184e-06,
+      "loss": 2.3317,
+      "step": 895
+    },
+    {
+      "epoch": 0.968386922453391,
+      "grad_norm": 0.3763998746871948,
+      "learning_rate": 9.320161135622483e-06,
+      "loss": 2.2536,
+      "step": 896
+    },
+    {
+      "epoch": 0.9694677114293434,
+      "grad_norm": 1.116055965423584,
+      "learning_rate": 9.318805798214459e-06,
+      "loss": 2.4407,
+      "step": 897
+    },
+    {
+      "epoch": 0.9705485004052958,
+      "grad_norm": 0.49112746119499207,
+      "learning_rate": 9.317448116833207e-06,
+      "loss": 2.4513,
+      "step": 898
+    },
+    {
+      "epoch": 0.9716292893812483,
+      "grad_norm": 0.6849557757377625,
+      "learning_rate": 9.316088085392826e-06,
+      "loss": 2.3513,
+      "step": 899
+    },
+    {
+      "epoch": 0.9727100783572008,
+      "grad_norm": 0.5073702335357666,
+      "learning_rate": 9.314725697786334e-06,
+      "loss": 2.4163,
+      "step": 900
+    },
+    {
+      "epoch": 0.9737908673331532,
+      "grad_norm": 0.45914849638938904,
+      "learning_rate": 9.31336094788556e-06,
+      "loss": 2.3871,
+      "step": 901
+    },
+    {
+      "epoch": 0.9748716563091057,
+      "grad_norm": 0.33709532022476196,
+      "learning_rate": 9.311993829541072e-06,
+      "loss": 2.476,
+      "step": 902
+    },
+    {
+      "epoch": 0.9759524452850581,
+      "grad_norm": 0.9165427684783936,
+      "learning_rate": 9.310624336582073e-06,
+      "loss": 2.3338,
+      "step": 903
+    },
+    {
+      "epoch": 0.9770332342610105,
+      "grad_norm": 1.3027328252792358,
+      "learning_rate": 9.309252462816303e-06,
+      "loss": 2.4926,
+      "step": 904
+    },
+    {
+      "epoch": 0.978114023236963,
+      "grad_norm": 0.3530491590499878,
+      "learning_rate": 9.307878202029968e-06,
+      "loss": 2.4139,
+      "step": 905
+    },
+    {
+      "epoch": 0.9791948122129154,
+      "grad_norm": 0.35203471779823303,
+      "learning_rate": 9.306501547987617e-06,
+      "loss": 2.3944,
+      "step": 906
+    },
+    {
+      "epoch": 0.9802756011888679,
+      "grad_norm": 0.3719307482242584,
+      "learning_rate": 9.305122494432071e-06,
+      "loss": 2.1928,
+      "step": 907
+    },
+    {
+      "epoch": 0.9813563901648203,
+      "grad_norm": 1.6625559329986572,
+      "learning_rate": 9.303741035084319e-06,
+      "loss": 2.3813,
+      "step": 908
+    },
+    {
+      "epoch": 0.9824371791407728,
+      "grad_norm": 0.39877355098724365,
+      "learning_rate": 9.302357163643418e-06,
+      "loss": 2.4736,
+      "step": 909
+    },
+    {
+      "epoch": 0.9835179681167252,
+      "grad_norm": 0.33090370893478394,
+      "learning_rate": 9.300970873786411e-06,
+      "loss": 2.3231,
+      "step": 910
+    },
+    {
+      "epoch": 0.9845987570926776,
+      "grad_norm": 0.3974967300891876,
+      "learning_rate": 9.299582159168208e-06,
+      "loss": 2.333,
+      "step": 911
+    },
+    {
+      "epoch": 0.9856795460686301,
+      "grad_norm": 0.4661647379398346,
+      "learning_rate": 9.298191013421514e-06,
+      "loss": 2.2566,
+      "step": 912
+    },
+    {
+      "epoch": 0.9867603350445825,
+      "grad_norm": 0.325780987739563,
+      "learning_rate": 9.296797430156723e-06,
+      "loss": 2.3431,
+      "step": 913
+    },
+    {
+      "epoch": 0.987841124020535,
+      "grad_norm": 0.3106825351715088,
+      "learning_rate": 9.29540140296181e-06,
+      "loss": 2.2994,
+      "step": 914
+    },
+    {
+      "epoch": 0.9889219129964875,
+      "grad_norm": 1.1611113548278809,
+      "learning_rate": 9.294002925402243e-06,
+      "loss": 2.3236,
+      "step": 915
+    },
+    {
+      "epoch": 0.9900027019724399,
+      "grad_norm": 0.43262773752212524,
+      "learning_rate": 9.292601991020887e-06,
+      "loss": 2.3774,
+      "step": 916
+    },
+    {
+      "epoch": 0.9910834909483923,
+      "grad_norm": 0.3371218740940094,
+      "learning_rate": 9.291198593337894e-06,
+      "loss": 2.3657,
+      "step": 917
+    },
+    {
+      "epoch": 0.9921642799243447,
+      "grad_norm": 0.43215903639793396,
+      "learning_rate": 9.289792725850607e-06,
+      "loss": 2.4198,
+      "step": 918
+    },
+    {
+      "epoch": 0.9932450689002972,
+      "grad_norm": 0.33630141615867615,
+      "learning_rate": 9.288384382033469e-06,
+      "loss": 2.3433,
+      "step": 919
+    },
+    {
+      "epoch": 0.9943258578762496,
+      "grad_norm": 0.36779069900512695,
+      "learning_rate": 9.286973555337906e-06,
+      "loss": 2.4905,
+      "step": 920
+    },
+    {
+      "epoch": 0.9954066468522021,
+      "grad_norm": 0.31049975752830505,
+      "learning_rate": 9.285560239192237e-06,
+      "loss": 2.2489,
+      "step": 921
+    },
+    {
+      "epoch": 0.9964874358281546,
+      "grad_norm": 0.3580339848995209,
+      "learning_rate": 9.28414442700157e-06,
+      "loss": 2.3187,
+      "step": 922
+    },
+    {
+      "epoch": 0.997568224804107,
+      "grad_norm": 0.45295870304107666,
+      "learning_rate": 9.282726112147697e-06,
+      "loss": 2.3443,
+      "step": 923
+    },
+    {
+      "epoch": 0.9986490137800594,
+      "grad_norm": 0.5400623083114624,
+      "learning_rate": 9.281305287988994e-06,
+      "loss": 2.4031,
+      "step": 924
+    },
+    {
+      "epoch": 0.9997298027560119,
+      "grad_norm": 0.32201769948005676,
+      "learning_rate": 9.279881947860306e-06,
+      "loss": 2.4042,
+      "step": 925
+    },
+    {
+      "epoch": 0.9997298027560119,
+      "eval_loss": 2.3627305030822754,
+      "eval_runtime": 441.1251,
+      "eval_samples_per_second": 0.227,
+      "eval_steps_per_second": 0.113,
+      "step": 925
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.5289644598960876,
+      "learning_rate": 9.278456085072864e-06,
+      "loss": 2.3884,
+      "step": 926
+    },
+    {
+      "epoch": 1.0010807889759525,
+      "grad_norm": 0.5844120383262634,
+      "learning_rate": 9.277027692914162e-06,
+      "loss": 2.2919,
+      "step": 927
+    },
+    {
+      "epoch": 1.0021615779519049,
+      "grad_norm": 0.2842770516872406,
+      "learning_rate": 9.27559676464786e-06,
+      "loss": 2.4023,
+      "step": 928
+    },
+    {
+      "epoch": 1.0032423669278574,
+      "grad_norm": 1.1834286451339722,
+      "learning_rate": 9.274163293513674e-06,
+      "loss": 2.2412,
+      "step": 929
+    },
+    {
+      "epoch": 1.0043231559038097,
+      "grad_norm": 0.32926666736602783,
+      "learning_rate": 9.272727272727273e-06,
+      "loss": 2.3672,
+      "step": 930
+    },
+    {
+      "epoch": 1.0054039448797623,
+      "grad_norm": 0.30600887537002563,
+      "learning_rate": 9.271288695480172e-06,
+      "loss": 2.3036,
+      "step": 931
+    },
+    {
+      "epoch": 1.0064847338557146,
+      "grad_norm": 0.4481301009654999,
+      "learning_rate": 9.269847554939618e-06,
+      "loss": 2.3731,
+      "step": 932
+    },
+    {
+      "epoch": 1.0075655228316671,
+      "grad_norm": 0.6130079627037048,
+      "learning_rate": 9.26840384424849e-06,
+      "loss": 2.3797,
+      "step": 933
+    },
+    {
+      "epoch": 1.0086463118076197,
+      "grad_norm": 1.2700423002243042,
+      "learning_rate": 9.266957556525189e-06,
+      "loss": 2.3293,
+      "step": 934
+    },
+    {
+      "epoch": 1.009727100783572,
+      "grad_norm": 0.501125156879425,
+      "learning_rate": 9.265508684863524e-06,
+      "loss": 2.5028,
+      "step": 935
+    },
+    {
+      "epoch": 1.0108078897595245,
+      "grad_norm": 0.4285920560359955,
+      "learning_rate": 9.264057222332605e-06,
+      "loss": 2.1419,
+      "step": 936
+    },
+    {
+      "epoch": 1.0118886787354768,
+      "grad_norm": 0.4635486900806427,
+      "learning_rate": 9.262603161976733e-06,
+      "loss": 2.2757,
+      "step": 937
+    },
+    {
+      "epoch": 1.0129694677114294,
+      "grad_norm": 0.3583570122718811,
+      "learning_rate": 9.261146496815287e-06,
+      "loss": 2.3095,
+      "step": 938
+    },
+    {
+      "epoch": 1.0140502566873817,
+      "grad_norm": 0.43252095580101013,
+      "learning_rate": 9.259687219842614e-06,
+      "loss": 2.3978,
+      "step": 939
+    },
+    {
+      "epoch": 1.0151310456633342,
+      "grad_norm": 0.6250537037849426,
+      "learning_rate": 9.258225324027916e-06,
+      "loss": 2.2394,
+      "step": 940
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.5537803284559954e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null