End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +1092 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: apache-2.0
 base_model: Qwen/Qwen3-4B-Instruct-2507
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: obscura-blitz-v0.0.4-qwen-3
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # obscura-blitz-v0.0.4-qwen-3
-This model is a fine-tuned version of [Qwen/Qwen3-4B-Instruct-2507](https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0464

 base_model: Qwen/Qwen3-4B-Instruct-2507
 tags:
 - llama-factory
+- lora
 - generated_from_trainer
 model-index:
 - name: obscura-blitz-v0.0.4-qwen-3
 # obscura-blitz-v0.0.4-qwen-3
+This model is a fine-tuned version of [Qwen/Qwen3-4B-Instruct-2507](https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507) on the obscura_finetune_train dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0464

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.04641611501574516,
+    "eval_runtime": 48.5515,
+    "eval_samples_per_second": 4.119,
+    "eval_steps_per_second": 4.119,
+    "total_flos": 8.093314295223091e+16,
+    "train_loss": 0.09125252608899717,
+    "train_runtime": 5067.962,
+    "train_samples_per_second": 1.065,
+    "train_steps_per_second": 0.266
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.04641611501574516,
+    "eval_runtime": 48.5515,
+    "eval_samples_per_second": 4.119,
+    "eval_steps_per_second": 4.119
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "total_flos": 8.093314295223091e+16,
+    "train_loss": 0.09125252608899717,
+    "train_runtime": 5067.962,
+    "train_samples_per_second": 1.065,
+    "train_steps_per_second": 0.266
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1092 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 100,
+  "global_step": 1350,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.022234574763757644,
+      "grad_norm": 13.383837699890137,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 1.1717,
+      "step": 10
+    },
+    {
+      "epoch": 0.04446914952751529,
+      "grad_norm": 8.375042915344238,
+      "learning_rate": 1.4074074074074075e-05,
+      "loss": 0.687,
+      "step": 20
+    },
+    {
+      "epoch": 0.06670372429127293,
+      "grad_norm": 1.584594964981079,
+      "learning_rate": 2.148148148148148e-05,
+      "loss": 0.3803,
+      "step": 30
+    },
+    {
+      "epoch": 0.08893829905503058,
+      "grad_norm": 0.9581405520439148,
+      "learning_rate": 2.8888888888888888e-05,
+      "loss": 0.1693,
+      "step": 40
+    },
+    {
+      "epoch": 0.11117287381878821,
+      "grad_norm": 0.6701180338859558,
+      "learning_rate": 3.62962962962963e-05,
+      "loss": 0.3744,
+      "step": 50
+    },
+    {
+      "epoch": 0.13340744858254586,
+      "grad_norm": 0.6323037147521973,
+      "learning_rate": 4.3703703703703705e-05,
+      "loss": 0.1978,
+      "step": 60
+    },
+    {
+      "epoch": 0.1556420233463035,
+      "grad_norm": 0.796017050743103,
+      "learning_rate": 5.111111111111111e-05,
+      "loss": 0.2044,
+      "step": 70
+    },
+    {
+      "epoch": 0.17787659811006115,
+      "grad_norm": 0.6810458898544312,
+      "learning_rate": 5.851851851851852e-05,
+      "loss": 0.1671,
+      "step": 80
+    },
+    {
+      "epoch": 0.2001111728738188,
+      "grad_norm": 0.7922764420509338,
+      "learning_rate": 6.592592592592593e-05,
+      "loss": 0.2068,
+      "step": 90
+    },
+    {
+      "epoch": 0.22234574763757642,
+      "grad_norm": 0.8138841986656189,
+      "learning_rate": 7.333333333333333e-05,
+      "loss": 0.1194,
+      "step": 100
+    },
+    {
+      "epoch": 0.22234574763757642,
+      "eval_loss": 0.10435345023870468,
+      "eval_runtime": 48.2401,
+      "eval_samples_per_second": 4.146,
+      "eval_steps_per_second": 4.146,
+      "step": 100
+    },
+    {
+      "epoch": 0.24458032240133407,
+      "grad_norm": 0.6520943641662598,
+      "learning_rate": 8.074074074074075e-05,
+      "loss": 0.1525,
+      "step": 110
+    },
+    {
+      "epoch": 0.2668148971650917,
+      "grad_norm": 1.0254029035568237,
+      "learning_rate": 8.814814814814815e-05,
+      "loss": 0.1429,
+      "step": 120
+    },
+    {
+      "epoch": 0.28904947192884933,
+      "grad_norm": 0.40128573775291443,
+      "learning_rate": 9.555555555555557e-05,
+      "loss": 0.1224,
+      "step": 130
+    },
+    {
+      "epoch": 0.311284046692607,
+      "grad_norm": 0.544367253780365,
+      "learning_rate": 9.999732574196451e-05,
+      "loss": 0.122,
+      "step": 140
+    },
+    {
+      "epoch": 0.33351862145636463,
+      "grad_norm": 0.5095152258872986,
+      "learning_rate": 9.996724362426075e-05,
+      "loss": 0.1241,
+      "step": 150
+    },
+    {
+      "epoch": 0.3557531962201223,
+      "grad_norm": 0.6605976819992065,
+      "learning_rate": 9.990375674425109e-05,
+      "loss": 0.0931,
+      "step": 160
+    },
+    {
+      "epoch": 0.3779877709838799,
+      "grad_norm": 0.6440847516059875,
+      "learning_rate": 9.980690754502393e-05,
+      "loss": 0.1106,
+      "step": 170
+    },
+    {
+      "epoch": 0.4002223457476376,
+      "grad_norm": 0.41629621386528015,
+      "learning_rate": 9.96767607734863e-05,
+      "loss": 0.0995,
+      "step": 180
+    },
+    {
+      "epoch": 0.4224569205113952,
+      "grad_norm": 0.4533500075340271,
+      "learning_rate": 9.951340343707852e-05,
+      "loss": 0.1155,
+      "step": 190
+    },
+    {
+      "epoch": 0.44469149527515284,
+      "grad_norm": 0.33990752696990967,
+      "learning_rate": 9.931694474560686e-05,
+      "loss": 0.1023,
+      "step": 200
+    },
+    {
+      "epoch": 0.44469149527515284,
+      "eval_loss": 0.08741892129182816,
+      "eval_runtime": 48.1931,
+      "eval_samples_per_second": 4.15,
+      "eval_steps_per_second": 4.15,
+      "step": 200
+    },
+    {
+      "epoch": 0.4669260700389105,
+      "grad_norm": 0.5338679552078247,
+      "learning_rate": 9.908751603823301e-05,
+      "loss": 0.1177,
+      "step": 210
+    },
+    {
+      "epoch": 0.48916064480266813,
+      "grad_norm": 0.817176342010498,
+      "learning_rate": 9.882527069566965e-05,
+      "loss": 0.0899,
+      "step": 220
+    },
+    {
+      "epoch": 0.5113952195664258,
+      "grad_norm": 0.28271085023880005,
+      "learning_rate": 9.853038403764021e-05,
+      "loss": 0.1285,
+      "step": 230
+    },
+    {
+      "epoch": 0.5336297943301834,
+      "grad_norm": 0.4720575511455536,
+      "learning_rate": 9.820305320567192e-05,
+      "loss": 0.116,
+      "step": 240
+    },
+    {
+      "epoch": 0.5558643690939411,
+      "grad_norm": 0.2770315706729889,
+      "learning_rate": 9.784349703130007e-05,
+      "loss": 0.1355,
+      "step": 250
+    },
+    {
+      "epoch": 0.5780989438576987,
+      "grad_norm": 0.45048788189888,
+      "learning_rate": 9.745195588977192e-05,
+      "loss": 0.1187,
+      "step": 260
+    },
+    {
+      "epoch": 0.6003335186214563,
+      "grad_norm": 0.3435899317264557,
+      "learning_rate": 9.702869153934782e-05,
+      "loss": 0.1505,
+      "step": 270
+    },
+    {
+      "epoch": 0.622568093385214,
+      "grad_norm": 0.47825339436531067,
+      "learning_rate": 9.657398694630712e-05,
+      "loss": 0.113,
+      "step": 280
+    },
+    {
+      "epoch": 0.6448026681489717,
+      "grad_norm": 0.19181689620018005,
+      "learning_rate": 9.608814609577585e-05,
+      "loss": 0.0761,
+      "step": 290
+    },
+    {
+      "epoch": 0.6670372429127293,
+      "grad_norm": 0.2734505832195282,
+      "learning_rate": 9.557149378850254e-05,
+      "loss": 0.0873,
+      "step": 300
+    },
+    {
+      "epoch": 0.6670372429127293,
+      "eval_loss": 0.07399436831474304,
+      "eval_runtime": 48.0939,
+      "eval_samples_per_second": 4.159,
+      "eval_steps_per_second": 4.159,
+      "step": 300
+    },
+    {
+      "epoch": 0.6892718176764869,
+      "grad_norm": 0.438323050737381,
+      "learning_rate": 9.502437542371812e-05,
+      "loss": 0.105,
+      "step": 310
+    },
+    {
+      "epoch": 0.7115063924402446,
+      "grad_norm": 0.694514274597168,
+      "learning_rate": 9.444715676822501e-05,
+      "loss": 0.1134,
+      "step": 320
+    },
+    {
+      "epoch": 0.7337409672040022,
+      "grad_norm": 0.5426012277603149,
+      "learning_rate": 9.384022371187003e-05,
+      "loss": 0.1102,
+      "step": 330
+    },
+    {
+      "epoch": 0.7559755419677598,
+      "grad_norm": 0.38747844099998474,
+      "learning_rate": 9.320398200956403e-05,
+      "loss": 0.0883,
+      "step": 340
+    },
+    {
+      "epoch": 0.7782101167315175,
+      "grad_norm": 0.33049455285072327,
+      "learning_rate": 9.253885701002134e-05,
+      "loss": 0.1114,
+      "step": 350
+    },
+    {
+      "epoch": 0.8004446914952752,
+      "grad_norm": 0.2674323320388794,
+      "learning_rate": 9.184529337140002e-05,
+      "loss": 0.0803,
+      "step": 360
+    },
+    {
+      "epoch": 0.8226792662590328,
+      "grad_norm": 0.31980791687965393,
+      "learning_rate": 9.112375476403312e-05,
+      "loss": 0.1024,
+      "step": 370
+    },
+    {
+      "epoch": 0.8449138410227904,
+      "grad_norm": 0.15382544696331024,
+      "learning_rate": 9.037472356044962e-05,
+      "loss": 0.0588,
+      "step": 380
+    },
+    {
+      "epoch": 0.8671484157865481,
+      "grad_norm": 0.23380494117736816,
+      "learning_rate": 8.959870051289241e-05,
+      "loss": 0.0549,
+      "step": 390
+    },
+    {
+      "epoch": 0.8893829905503057,
+      "grad_norm": 0.2885076105594635,
+      "learning_rate": 8.879620441854872e-05,
+      "loss": 0.1051,
+      "step": 400
+    },
+    {
+      "epoch": 0.8893829905503057,
+      "eval_loss": 0.06723224371671677,
+      "eval_runtime": 48.2096,
+      "eval_samples_per_second": 4.149,
+      "eval_steps_per_second": 4.149,
+      "step": 400
+    },
+    {
+      "epoch": 0.9116175653140633,
+      "grad_norm": 0.3105609714984894,
+      "learning_rate": 8.796777177271708e-05,
+      "loss": 0.0823,
+      "step": 410
+    },
+    {
+      "epoch": 0.933852140077821,
+      "grad_norm": 0.4871651828289032,
+      "learning_rate": 8.711395641014228e-05,
+      "loss": 0.095,
+      "step": 420
+    },
+    {
+      "epoch": 0.9560867148415787,
+      "grad_norm": 0.34139370918273926,
+      "learning_rate": 8.623532913475847e-05,
+      "loss": 0.0742,
+      "step": 430
+    },
+    {
+      "epoch": 0.9783212896053363,
+      "grad_norm": 0.1284688413143158,
+      "learning_rate": 8.533247733808776e-05,
+      "loss": 0.074,
+      "step": 440
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.15243172645568848,
+      "learning_rate": 8.440600460654958e-05,
+      "loss": 0.1033,
+      "step": 450
+    },
+    {
+      "epoch": 1.0222345747637576,
+      "grad_norm": 0.29170939326286316,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.0786,
+      "step": 460
+    },
+    {
+      "epoch": 1.0444691495275154,
+      "grad_norm": 0.1913299411535263,
+      "learning_rate": 8.248468922737188e-05,
+      "loss": 0.0568,
+      "step": 470
+    },
+    {
+      "epoch": 1.066703724291273,
+      "grad_norm": 0.38078683614730835,
+      "learning_rate": 8.149113104289063e-05,
+      "loss": 0.0809,
+      "step": 480
+    },
+    {
+      "epoch": 1.0889382990550305,
+      "grad_norm": 0.38182222843170166,
+      "learning_rate": 8.047651999115217e-05,
+      "loss": 0.0758,
+      "step": 490
+    },
+    {
+      "epoch": 1.1111728738187883,
+      "grad_norm": 0.13781729340553284,
+      "learning_rate": 7.944153437335057e-05,
+      "loss": 0.0636,
+      "step": 500
+    },
+    {
+      "epoch": 1.1111728738187883,
+      "eval_loss": 0.06643614917993546,
+      "eval_runtime": 48.2161,
+      "eval_samples_per_second": 4.148,
+      "eval_steps_per_second": 4.148,
+      "step": 500
+    },
+    {
+      "epoch": 1.1334074485825458,
+      "grad_norm": 0.06484173983335495,
+      "learning_rate": 7.838686611175421e-05,
+      "loss": 0.068,
+      "step": 510
+    },
+    {
+      "epoch": 1.1556420233463034,
+      "grad_norm": 0.34467655420303345,
+      "learning_rate": 7.73132202871327e-05,
+      "loss": 0.0778,
+      "step": 520
+    },
+    {
+      "epoch": 1.1778765981100612,
+      "grad_norm": 0.35296931862831116,
+      "learning_rate": 7.6221314667387e-05,
+      "loss": 0.0796,
+      "step": 530
+    },
+    {
+      "epoch": 1.2001111728738187,
+      "grad_norm": 0.09108947217464447,
+      "learning_rate": 7.511187922769768e-05,
+      "loss": 0.0643,
+      "step": 540
+    },
+    {
+      "epoch": 1.2223457476375765,
+      "grad_norm": 0.3470743000507355,
+      "learning_rate": 7.398565566251232e-05,
+      "loss": 0.0716,
+      "step": 550
+    },
+    {
+      "epoch": 1.244580322401334,
+      "grad_norm": 0.23976042866706848,
+      "learning_rate": 7.284339688969809e-05,
+      "loss": 0.051,
+      "step": 560
+    },
+    {
+      "epoch": 1.2668148971650917,
+      "grad_norm": 0.36250776052474976,
+      "learning_rate": 7.168586654719117e-05,
+      "loss": 0.0608,
+      "step": 570
+    },
+    {
+      "epoch": 1.2890494719288492,
+      "grad_norm": 0.31230035424232483,
+      "learning_rate": 7.051383848247942e-05,
+      "loss": 0.0565,
+      "step": 580
+    },
+    {
+      "epoch": 1.311284046692607,
+      "grad_norm": 0.22365595400333405,
+      "learning_rate": 6.932809623525957e-05,
+      "loss": 0.0735,
+      "step": 590
+    },
+    {
+      "epoch": 1.3335186214563646,
+      "grad_norm": 0.26981058716773987,
+      "learning_rate": 6.812943251361505e-05,
+      "loss": 0.072,
+      "step": 600
+    },
+    {
+      "epoch": 1.3335186214563646,
+      "eval_loss": 0.06549877673387527,
+      "eval_runtime": 48.2581,
+      "eval_samples_per_second": 4.144,
+      "eval_steps_per_second": 4.144,
+      "step": 600
+    },
+    {
+      "epoch": 1.3557531962201224,
+      "grad_norm": 0.3754810690879822,
+      "learning_rate": 6.691864866406407e-05,
+      "loss": 0.0678,
+      "step": 610
+    },
+    {
+      "epoch": 1.37798777098388,
+      "grad_norm": 0.31102293729782104,
+      "learning_rate": 6.569655413583306e-05,
+      "loss": 0.0946,
+      "step": 620
+    },
+    {
+      "epoch": 1.4002223457476375,
+      "grad_norm": 0.2776915729045868,
+      "learning_rate": 6.446396593971294e-05,
+      "loss": 0.0649,
+      "step": 630
+    },
+    {
+      "epoch": 1.4224569205113953,
+      "grad_norm": 0.5137710571289062,
+      "learning_rate": 6.322170810186012e-05,
+      "loss": 0.0718,
+      "step": 640
+    },
+    {
+      "epoch": 1.4446914952751528,
+      "grad_norm": 0.255832314491272,
+      "learning_rate": 6.197061111290779e-05,
+      "loss": 0.0705,
+      "step": 650
+    },
+    {
+      "epoch": 1.4669260700389106,
+      "grad_norm": 0.19154119491577148,
+      "learning_rate": 6.07115113727553e-05,
+      "loss": 0.0682,
+      "step": 660
+    },
+    {
+      "epoch": 1.4891606448026682,
+      "grad_norm": 0.2686958909034729,
+      "learning_rate": 5.9445250631407024e-05,
+      "loss": 0.081,
+      "step": 670
+    },
+    {
+      "epoch": 1.5113952195664258,
+      "grad_norm": 0.31166499853134155,
+      "learning_rate": 5.817267542623451e-05,
+      "loss": 0.0574,
+      "step": 680
+    },
+    {
+      "epoch": 1.5336297943301833,
+      "grad_norm": 0.22264094650745392,
+      "learning_rate": 5.689463651603818e-05,
+      "loss": 0.0513,
+      "step": 690
+    },
+    {
+      "epoch": 1.555864369093941,
+      "grad_norm": 0.23241780698299408,
+      "learning_rate": 5.561198831228675e-05,
+      "loss": 0.0807,
+      "step": 700
+    },
+    {
+      "epoch": 1.555864369093941,
+      "eval_loss": 0.05730433017015457,
+      "eval_runtime": 48.1316,
+      "eval_samples_per_second": 4.155,
+      "eval_steps_per_second": 4.155,
+      "step": 700
+    },
+    {
+      "epoch": 1.5780989438576987,
+      "grad_norm": 0.36841678619384766,
+      "learning_rate": 5.432558830791479e-05,
+      "loss": 0.0601,
+      "step": 710
+    },
+    {
+      "epoch": 1.6003335186214565,
+      "grad_norm": 0.20728759467601776,
+      "learning_rate": 5.3036296504060235e-05,
+      "loss": 0.0841,
+      "step": 720
+    },
+    {
+      "epoch": 1.622568093385214,
+      "grad_norm": 0.10159023851156235,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.042,
+      "step": 730
+    },
+    {
+      "epoch": 1.6448026681489716,
+      "grad_norm": 0.31575503945350647,
+      "learning_rate": 5.045248659254344e-05,
+      "loss": 0.0829,
+      "step": 740
+    },
+    {
+      "epoch": 1.6670372429127291,
+      "grad_norm": 0.1763896644115448,
+      "learning_rate": 4.915969584764282e-05,
+      "loss": 0.0893,
+      "step": 750
+    },
+    {
+      "epoch": 1.689271817676487,
+      "grad_norm": 0.3741007447242737,
+      "learning_rate": 4.7867466873983464e-05,
+      "loss": 0.0694,
+      "step": 760
+    },
+    {
+      "epoch": 1.7115063924402447,
+      "grad_norm": 0.28057777881622314,
+      "learning_rate": 4.657666356956296e-05,
+      "loss": 0.0499,
+      "step": 770
+    },
+    {
+      "epoch": 1.7337409672040023,
+      "grad_norm": 0.23745323717594147,
+      "learning_rate": 4.528814887927157e-05,
+      "loss": 0.063,
+      "step": 780
+    },
+    {
+      "epoch": 1.7559755419677598,
+      "grad_norm": 0.22828607261180878,
+      "learning_rate": 4.400278421798501e-05,
+      "loss": 0.0623,
+      "step": 790
+    },
+    {
+      "epoch": 1.7782101167315174,
+      "grad_norm": 0.35160404443740845,
+      "learning_rate": 4.272142889468002e-05,
+      "loss": 0.0536,
+      "step": 800
+    },
+    {
+      "epoch": 1.7782101167315174,
+      "eval_loss": 0.05802774429321289,
+      "eval_runtime": 48.2104,
+      "eval_samples_per_second": 4.148,
+      "eval_steps_per_second": 4.148,
+      "step": 800
+    },
+    {
+      "epoch": 1.8004446914952752,
+      "grad_norm": 0.30460554361343384,
+      "learning_rate": 4.144493953795759e-05,
+      "loss": 0.074,
+      "step": 810
+    },
+    {
+      "epoch": 1.8226792662590328,
+      "grad_norm": 0.1435527503490448,
+      "learning_rate": 4.017416952335849e-05,
+      "loss": 0.0576,
+      "step": 820
+    },
+    {
+      "epoch": 1.8449138410227905,
+      "grad_norm": 0.13923799991607666,
+      "learning_rate": 3.890996840285328e-05,
+      "loss": 0.0441,
+      "step": 830
+    },
+    {
+      "epoch": 1.867148415786548,
+      "grad_norm": 0.2655491232872009,
+      "learning_rate": 3.765318133688853e-05,
+      "loss": 0.0779,
+      "step": 840
+    },
+    {
+      "epoch": 1.8893829905503057,
+      "grad_norm": 0.2776850759983063,
+      "learning_rate": 3.640464852936909e-05,
+      "loss": 0.0552,
+      "step": 850
+    },
+    {
+      "epoch": 1.9116175653140632,
+      "grad_norm": 0.10389228910207748,
+      "learning_rate": 3.5165204665953875e-05,
+      "loss": 0.0545,
+      "step": 860
+    },
+    {
+      "epoch": 1.933852140077821,
+      "grad_norm": 0.17789633572101593,
+      "learning_rate": 3.393567835604063e-05,
+      "loss": 0.0647,
+      "step": 870
+    },
+    {
+      "epoch": 1.9560867148415788,
+      "grad_norm": 0.19800323247909546,
+      "learning_rate": 3.271689157881317e-05,
+      "loss": 0.0728,
+      "step": 880
+    },
+    {
+      "epoch": 1.9783212896053364,
+      "grad_norm": 0.33102431893348694,
+      "learning_rate": 3.150965913372095e-05,
+      "loss": 0.0566,
+      "step": 890
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.31623104214668274,
+      "learning_rate": 3.031478809575852e-05,
+      "loss": 0.0453,
+      "step": 900
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.0510103702545166,
+      "eval_runtime": 48.2625,
+      "eval_samples_per_second": 4.144,
+      "eval_steps_per_second": 4.144,
+      "step": 900
+    },
+    {
+      "epoch": 2.0222345747637576,
+      "grad_norm": 0.190277099609375,
+      "learning_rate": 2.9133077275909108e-05,
+      "loss": 0.0461,
+      "step": 910
+    },
+    {
+      "epoch": 2.044469149527515,
+      "grad_norm": 0.30117812752723694,
+      "learning_rate": 2.7965316687112976e-05,
+      "loss": 0.0457,
+      "step": 920
+    },
+    {
+      "epoch": 2.066703724291273,
+      "grad_norm": 0.22665348649024963,
+      "learning_rate": 2.6812287016117477e-05,
+      "loss": 0.0416,
+      "step": 930
+    },
+    {
+      "epoch": 2.0889382990550307,
+      "grad_norm": 0.26945072412490845,
+      "learning_rate": 2.5674759101562006e-05,
+      "loss": 0.0492,
+      "step": 940
+    },
+    {
+      "epoch": 2.1111728738187883,
+      "grad_norm": 0.20119303464889526,
+      "learning_rate": 2.455349341864685e-05,
+      "loss": 0.0506,
+      "step": 950
+    },
+    {
+      "epoch": 2.133407448582546,
+      "grad_norm": 0.16967110335826874,
+      "learning_rate": 2.344923957073021e-05,
+      "loss": 0.0438,
+      "step": 960
+    },
+    {
+      "epoch": 2.1556420233463034,
+      "grad_norm": 0.17140169441699982,
+      "learning_rate": 2.2362735788193367e-05,
+      "loss": 0.0337,
+      "step": 970
+    },
+    {
+      "epoch": 2.177876598110061,
+      "grad_norm": 0.22932595014572144,
+      "learning_rate": 2.129470843490932e-05,
+      "loss": 0.0539,
+      "step": 980
+    },
+    {
+      "epoch": 2.200111172873819,
+      "grad_norm": 0.24180778861045837,
+      "learning_rate": 2.024587152264428e-05,
+      "loss": 0.0317,
+      "step": 990
+    },
+    {
+      "epoch": 2.2223457476375765,
+      "grad_norm": 0.4643738865852356,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 0.0469,
+      "step": 1000
+    },
+    {
+      "epoch": 2.2223457476375765,
+      "eval_loss": 0.048854030668735504,
+      "eval_runtime": 48.1955,
+      "eval_samples_per_second": 4.15,
+      "eval_steps_per_second": 4.15,
+      "step": 1000
+    },
+    {
+      "epoch": 2.244580322401334,
+      "grad_norm": 0.266984224319458,
+      "learning_rate": 1.8208560452235625e-05,
+      "loss": 0.0614,
+      "step": 1010
+    },
+    {
+      "epoch": 2.2668148971650917,
+      "grad_norm": 0.24567271769046783,
+      "learning_rate": 1.7221448304223327e-05,
+      "loss": 0.0385,
+      "step": 1020
+    },
+    {
+      "epoch": 2.289049471928849,
+      "grad_norm": 0.15998658537864685,
+      "learning_rate": 1.6256249706943628e-05,
+      "loss": 0.0482,
+      "step": 1030
+    },
+    {
+      "epoch": 2.311284046692607,
+      "grad_norm": 0.2101755291223526,
+      "learning_rate": 1.5313609927723332e-05,
+      "loss": 0.0419,
+      "step": 1040
+    },
+    {
+      "epoch": 2.333518621456365,
+      "grad_norm": 0.10369472205638885,
+      "learning_rate": 1.4394159152569903e-05,
+      "loss": 0.0248,
+      "step": 1050
+    },
+    {
+      "epoch": 2.3557531962201224,
+      "grad_norm": 0.3291586637496948,
+      "learning_rate": 1.3498512064871271e-05,
+      "loss": 0.0611,
+      "step": 1060
+    },
+    {
+      "epoch": 2.37798777098388,
+      "grad_norm": 0.5122426748275757,
+      "learning_rate": 1.262726743445954e-05,
+      "loss": 0.0628,
+      "step": 1070
+    },
+    {
+      "epoch": 2.4002223457476375,
+      "grad_norm": 0.1757289469242096,
+      "learning_rate": 1.178100771731339e-05,
+      "loss": 0.0414,
+      "step": 1080
+    },
+    {
+      "epoch": 2.422456920511395,
+      "grad_norm": 0.3590919077396393,
+      "learning_rate": 1.096029866616704e-05,
+      "loss": 0.0349,
+      "step": 1090
+    },
+    {
+      "epoch": 2.444691495275153,
+      "grad_norm": 0.21179239451885223,
+      "learning_rate": 1.0165688952285651e-05,
+      "loss": 0.0318,
+      "step": 1100
+    },
+    {
+      "epoch": 2.444691495275153,
+      "eval_loss": 0.048208702355623245,
+      "eval_runtime": 48.1747,
+      "eval_samples_per_second": 4.152,
+      "eval_steps_per_second": 4.152,
+      "step": 1100
+    },
+    {
+      "epoch": 2.4669260700389106,
+      "grad_norm": 0.2429758608341217,
+      "learning_rate": 9.397709798660359e-06,
+      "loss": 0.0389,
+      "step": 1110
+    },
+    {
+      "epoch": 2.489160644802668,
+      "grad_norm": 0.3247833251953125,
+      "learning_rate": 8.656874624868134e-06,
+      "loss": 0.0474,
+      "step": 1120
+    },
+    {
+      "epoch": 2.5113952195664258,
+      "grad_norm": 0.20058025419712067,
+      "learning_rate": 7.943678703833657e-06,
+      "loss": 0.0446,
+      "step": 1130
+    },
+    {
+      "epoch": 2.5336297943301833,
+      "grad_norm": 0.22172123193740845,
+      "learning_rate": 7.258598830722946e-06,
+      "loss": 0.0429,
+      "step": 1140
+    },
+    {
+      "epoch": 2.555864369093941,
+      "grad_norm": 0.3664150834083557,
+      "learning_rate": 6.6020930041899635e-06,
+      "loss": 0.0487,
+      "step": 1150
+    },
+    {
+      "epoch": 2.5780989438576984,
+      "grad_norm": 0.13659419119358063,
+      "learning_rate": 5.974600120189289e-06,
+      "loss": 0.0438,
+      "step": 1160
+    },
+    {
+      "epoch": 2.6003335186214565,
+      "grad_norm": 0.18766269087791443,
+      "learning_rate": 5.376539678559567e-06,
+      "loss": 0.0385,
+      "step": 1170
+    },
+    {
+      "epoch": 2.622568093385214,
+      "grad_norm": 0.24047650396823883,
+      "learning_rate": 4.8083115025739756e-06,
+      "loss": 0.0413,
+      "step": 1180
+    },
+    {
+      "epoch": 2.6448026681489716,
+      "grad_norm": 0.10476374626159668,
+      "learning_rate": 4.270295471645064e-06,
+      "loss": 0.0426,
+      "step": 1190
+    },
+    {
+      "epoch": 2.667037242912729,
+      "grad_norm": 0.3628266155719757,
+      "learning_rate": 3.7628512673627215e-06,
+      "loss": 0.0527,
+      "step": 1200
+    },
+    {
+      "epoch": 2.667037242912729,
+      "eval_loss": 0.04677248001098633,
+      "eval_runtime": 48.3089,
+      "eval_samples_per_second": 4.14,
+      "eval_steps_per_second": 4.14,
+      "step": 1200
+    },
+    {
+      "epoch": 2.689271817676487,
+      "grad_norm": 0.2052982747554779,
+      "learning_rate": 3.286318133035132e-06,
+      "loss": 0.0394,
+      "step": 1210
+    },
+    {
+      "epoch": 2.7115063924402447,
+      "grad_norm": 0.14959484338760376,
+      "learning_rate": 2.8410146468933364e-06,
+      "loss": 0.0351,
+      "step": 1220
+    },
+    {
+      "epoch": 2.7337409672040023,
+      "grad_norm": 0.17867030203342438,
+      "learning_rate": 2.4272385091110516e-06,
+      "loss": 0.0465,
+      "step": 1230
+    },
+    {
+      "epoch": 2.75597554196776,
+      "grad_norm": 0.2831536531448364,
+      "learning_rate": 2.0452663427823093e-06,
+      "loss": 0.0487,
+      "step": 1240
+    },
+    {
+      "epoch": 2.7782101167315174,
+      "grad_norm": 0.16684742271900177,
+      "learning_rate": 1.6953535089896555e-06,
+      "loss": 0.0335,
+      "step": 1250
+    },
+    {
+      "epoch": 2.800444691495275,
+      "grad_norm": 0.12368661165237427,
+      "learning_rate": 1.3777339360867836e-06,
+      "loss": 0.0317,
+      "step": 1260
+    },
+    {
+      "epoch": 2.8226792662590325,
+      "grad_norm": 0.13758961856365204,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.0305,
+      "step": 1270
+    },
+    {
+      "epoch": 2.8449138410227905,
+      "grad_norm": 0.3133557438850403,
+      "learning_rate": 8.402021988209218e-07,
+      "loss": 0.0488,
+      "step": 1280
+    },
+    {
+      "epoch": 2.867148415786548,
+      "grad_norm": 0.13724081218242645,
+      "learning_rate": 6.20649392281425e-07,
+      "loss": 0.0406,
+      "step": 1290
+    },
+    {
+      "epoch": 2.8893829905503057,
+      "grad_norm": 0.286937952041626,
+      "learning_rate": 4.341083220360864e-07,
+      "loss": 0.049,
+      "step": 1300
+    },
+    {
+      "epoch": 2.8893829905503057,
+      "eval_loss": 0.0463690422475338,
+      "eval_runtime": 48.3097,
+      "eval_samples_per_second": 4.14,
+      "eval_steps_per_second": 4.14,
+      "step": 1300
+    },
+    {
+      "epoch": 2.9116175653140632,
+      "grad_norm": 0.06224232539534569,
+      "learning_rate": 2.807036969873722e-07,
+      "loss": 0.0565,
+      "step": 1310
+    },
+    {
+      "epoch": 2.9338521400778212,
+      "grad_norm": 0.08071974664926529,
+      "learning_rate": 1.6053807322333191e-07,
+      "loss": 0.0369,
+      "step": 1320
+    },
+    {
+      "epoch": 2.956086714841579,
+      "grad_norm": 0.22806085646152496,
+      "learning_rate": 7.369178545542088e-08,
+      "loss": 0.0376,
+      "step": 1330
+    },
+    {
+      "epoch": 2.9783212896053364,
+      "grad_norm": 0.20774702727794647,
+      "learning_rate": 2.022289331209959e-08,
+      "loss": 0.0467,
+      "step": 1340
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.19576112926006317,
+      "learning_rate": 1.671425240434843e-10,
+      "loss": 0.0531,
+      "step": 1350
+    },
+    {
+      "epoch": 3.0,
+      "step": 1350,
+      "total_flos": 8.093314295223091e+16,
+      "train_loss": 0.09125252608899717,
+      "train_runtime": 5067.962,
+      "train_samples_per_second": 1.065,
+      "train_steps_per_second": 0.266
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1350,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.093314295223091e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed