initial release v3

Browse files

Files changed (7) hide show

adapter_config.json +27 -0
adapter_model.bin +3 -0
training_graph.json +956 -0
training_graph.png +0 -0
training_log.json +19 -0
training_parameters.json +37 -0
training_prompt.json +3 -0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "models/meta-llama_Meta-Llama-3-8B",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 256,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5055b89b8fe192656f23926b31901bbb81d0bb979f6566f1d692fffc5998b01f
+size 218150282

training_graph.json ADDED Viewed

	@@ -0,0 +1,956 @@

+[
+    {
+        "current_steps": 63,
+        "loss": 2.8305,
+        "learning_rate": 0.0005,
+        "epoch": 0.02549800796812749
+    },
+    {
+        "current_steps": 127,
+        "loss": 2.7784,
+        "learning_rate": 0.001,
+        "epoch": 0.05099601593625498
+    },
+    {
+        "current_steps": 191,
+        "loss": 2.6623,
+        "learning_rate": 0.0009974226804123712,
+        "epoch": 0.07649402390438247
+    },
+    {
+        "current_steps": 255,
+        "loss": 2.6442,
+        "learning_rate": 0.0009948453608247423,
+        "epoch": 0.10199203187250996
+    },
+    {
+        "current_steps": 319,
+        "loss": 2.822,
+        "learning_rate": 0.0009922680412371135,
+        "epoch": 0.12749003984063745
+    },
+    {
+        "current_steps": 383,
+        "loss": 2.6869,
+        "learning_rate": 0.0009896907216494846,
+        "epoch": 0.15298804780876493
+    },
+    {
+        "current_steps": 447,
+        "loss": 2.5865,
+        "learning_rate": 0.0009871134020618558,
+        "epoch": 0.17848605577689244
+    },
+    {
+        "current_steps": 511,
+        "loss": 2.6222,
+        "learning_rate": 0.000984536082474227,
+        "epoch": 0.20398406374501993
+    },
+    {
+        "current_steps": 575,
+        "loss": 2.5421,
+        "learning_rate": 0.0009819587628865979,
+        "epoch": 0.2294820717131474
+    },
+    {
+        "current_steps": 639,
+        "loss": 2.5766,
+        "learning_rate": 0.000979381443298969,
+        "epoch": 0.2549800796812749
+    },
+    {
+        "current_steps": 703,
+        "loss": 2.5266,
+        "learning_rate": 0.0009768041237113402,
+        "epoch": 0.2804780876494024
+    },
+    {
+        "current_steps": 767,
+        "loss": 2.5239,
+        "learning_rate": 0.0009742268041237113,
+        "epoch": 0.30597609561752986
+    },
+    {
+        "current_steps": 831,
+        "loss": 2.4799,
+        "learning_rate": 0.0009716494845360825,
+        "epoch": 0.3314741035856574
+    },
+    {
+        "current_steps": 895,
+        "loss": 2.5332,
+        "learning_rate": 0.0009690721649484536,
+        "epoch": 0.3569721115537849
+    },
+    {
+        "current_steps": 959,
+        "loss": 2.4283,
+        "learning_rate": 0.0009664948453608248,
+        "epoch": 0.38247011952191234
+    },
+    {
+        "current_steps": 1023,
+        "loss": 2.4595,
+        "learning_rate": 0.0009639175257731959,
+        "epoch": 0.40796812749003986
+    },
+    {
+        "current_steps": 1087,
+        "loss": 2.4821,
+        "learning_rate": 0.0009613402061855671,
+        "epoch": 0.4334661354581673
+    },
+    {
+        "current_steps": 1151,
+        "loss": 2.4473,
+        "learning_rate": 0.0009587628865979382,
+        "epoch": 0.4589641434262948
+    },
+    {
+        "current_steps": 1215,
+        "loss": 2.4614,
+        "learning_rate": 0.0009561855670103094,
+        "epoch": 0.48446215139442234
+    },
+    {
+        "current_steps": 1279,
+        "loss": 2.4037,
+        "learning_rate": 0.0009536082474226805,
+        "epoch": 0.5099601593625498
+    },
+    {
+        "current_steps": 1343,
+        "loss": 2.4243,
+        "learning_rate": 0.0009510309278350515,
+        "epoch": 0.5354581673306773
+    },
+    {
+        "current_steps": 1407,
+        "loss": 2.3534,
+        "learning_rate": 0.0009484536082474226,
+        "epoch": 0.5609561752988048
+    },
+    {
+        "current_steps": 1471,
+        "loss": 2.406,
+        "learning_rate": 0.0009458762886597938,
+        "epoch": 0.5864541832669322
+    },
+    {
+        "current_steps": 1535,
+        "loss": 2.483,
+        "learning_rate": 0.0009432989690721649,
+        "epoch": 0.6119521912350597
+    },
+    {
+        "current_steps": 1599,
+        "loss": 2.4313,
+        "learning_rate": 0.0009407216494845361,
+        "epoch": 0.6374501992031872
+    },
+    {
+        "current_steps": 1663,
+        "loss": 2.4101,
+        "learning_rate": 0.0009381443298969072,
+        "epoch": 0.6629482071713148
+    },
+    {
+        "current_steps": 1727,
+        "loss": 2.3847,
+        "learning_rate": 0.0009355670103092784,
+        "epoch": 0.6884462151394423
+    },
+    {
+        "current_steps": 1791,
+        "loss": 2.3194,
+        "learning_rate": 0.0009329896907216495,
+        "epoch": 0.7139442231075698
+    },
+    {
+        "current_steps": 1855,
+        "loss": 2.3921,
+        "learning_rate": 0.0009304123711340207,
+        "epoch": 0.7394422310756972
+    },
+    {
+        "current_steps": 1919,
+        "loss": 2.4158,
+        "learning_rate": 0.0009278350515463918,
+        "epoch": 0.7649402390438247
+    },
+    {
+        "current_steps": 1983,
+        "loss": 2.3134,
+        "learning_rate": 0.000925257731958763,
+        "epoch": 0.7904382470119522
+    },
+    {
+        "current_steps": 2047,
+        "loss": 2.3514,
+        "learning_rate": 0.0009226804123711341,
+        "epoch": 0.8159362549800797
+    },
+    {
+        "current_steps": 2111,
+        "loss": 2.3011,
+        "learning_rate": 0.0009201030927835051,
+        "epoch": 0.8414342629482072
+    },
+    {
+        "current_steps": 2175,
+        "loss": 2.4016,
+        "learning_rate": 0.0009175257731958762,
+        "epoch": 0.8669322709163346
+    },
+    {
+        "current_steps": 2239,
+        "loss": 2.3209,
+        "learning_rate": 0.0009149484536082474,
+        "epoch": 0.8924302788844621
+    },
+    {
+        "current_steps": 2303,
+        "loss": 2.3672,
+        "learning_rate": 0.0009123711340206185,
+        "epoch": 0.9179282868525896
+    },
+    {
+        "current_steps": 2367,
+        "loss": 2.3597,
+        "learning_rate": 0.0009097938144329897,
+        "epoch": 0.9434262948207172
+    },
+    {
+        "current_steps": 2431,
+        "loss": 2.3619,
+        "learning_rate": 0.0009072164948453608,
+        "epoch": 0.9689243027888447
+    },
+    {
+        "current_steps": 2495,
+        "loss": 2.3521,
+        "learning_rate": 0.000904639175257732,
+        "epoch": 0.9944223107569721
+    },
+    {
+        "current_steps": 2545,
+        "loss": 2.2467,
+        "learning_rate": 0.0009020618556701031,
+        "epoch": 1.0199203187250996
+    },
+    {
+        "current_steps": 2609,
+        "loss": 2.2082,
+        "learning_rate": 0.0008994845360824743,
+        "epoch": 1.045418326693227
+    },
+    {
+        "current_steps": 2673,
+        "loss": 2.2161,
+        "learning_rate": 0.0008969072164948454,
+        "epoch": 1.0709163346613546
+    },
+    {
+        "current_steps": 2737,
+        "loss": 2.1961,
+        "learning_rate": 0.0008943298969072166,
+        "epoch": 1.0964143426294821
+    },
+    {
+        "current_steps": 2801,
+        "loss": 2.215,
+        "learning_rate": 0.0008917525773195877,
+        "epoch": 1.1219123505976096
+    },
+    {
+        "current_steps": 2865,
+        "loss": 2.1951,
+        "learning_rate": 0.0008891752577319587,
+        "epoch": 1.1474103585657371
+    },
+    {
+        "current_steps": 2929,
+        "loss": 2.1599,
+        "learning_rate": 0.0008865979381443298,
+        "epoch": 1.1729083665338647
+    },
+    {
+        "current_steps": 2993,
+        "loss": 2.1511,
+        "learning_rate": 0.000884020618556701,
+        "epoch": 1.198406374501992
+    },
+    {
+        "current_steps": 3057,
+        "loss": 2.0713,
+        "learning_rate": 0.0008814432989690721,
+        "epoch": 1.2239043824701195
+    },
+    {
+        "current_steps": 3121,
+        "loss": 2.1312,
+        "learning_rate": 0.0008788659793814433,
+        "epoch": 1.249402390438247
+    },
+    {
+        "current_steps": 3185,
+        "loss": 2.1442,
+        "learning_rate": 0.0008762886597938144,
+        "epoch": 1.2749003984063745
+    },
+    {
+        "current_steps": 3249,
+        "loss": 2.141,
+        "learning_rate": 0.0008737113402061856,
+        "epoch": 1.300398406374502
+    },
+    {
+        "current_steps": 3313,
+        "loss": 2.1281,
+        "learning_rate": 0.0008711340206185567,
+        "epoch": 1.3258964143426295
+    },
+    {
+        "current_steps": 3377,
+        "loss": 2.1373,
+        "learning_rate": 0.0008685567010309279,
+        "epoch": 1.351394422310757
+    },
+    {
+        "current_steps": 3441,
+        "loss": 2.1111,
+        "learning_rate": 0.000865979381443299,
+        "epoch": 1.3768924302788845
+    },
+    {
+        "current_steps": 3505,
+        "loss": 2.0973,
+        "learning_rate": 0.0008634020618556702,
+        "epoch": 1.402390438247012
+    },
+    {
+        "current_steps": 3569,
+        "loss": 2.1299,
+        "learning_rate": 0.0008608247422680414,
+        "epoch": 1.4278884462151393
+    },
+    {
+        "current_steps": 3633,
+        "loss": 2.0971,
+        "learning_rate": 0.0008582474226804123,
+        "epoch": 1.453386454183267
+    },
+    {
+        "current_steps": 3697,
+        "loss": 2.0334,
+        "learning_rate": 0.0008556701030927834,
+        "epoch": 1.4788844621513944
+    },
+    {
+        "current_steps": 3761,
+        "loss": 2.0659,
+        "learning_rate": 0.0008530927835051546,
+        "epoch": 1.5043824701195219
+    },
+    {
+        "current_steps": 3825,
+        "loss": 2.0648,
+        "learning_rate": 0.0008505154639175257,
+        "epoch": 1.5298804780876494
+    },
+    {
+        "current_steps": 3889,
+        "loss": 2.0629,
+        "learning_rate": 0.0008479381443298969,
+        "epoch": 1.5553784860557769
+    },
+    {
+        "current_steps": 3953,
+        "loss": 2.0136,
+        "learning_rate": 0.000845360824742268,
+        "epoch": 1.5808764940239044
+    },
+    {
+        "current_steps": 4017,
+        "loss": 2.0692,
+        "learning_rate": 0.0008427835051546392,
+        "epoch": 1.606374501992032
+    },
+    {
+        "current_steps": 4081,
+        "loss": 2.1114,
+        "learning_rate": 0.0008402061855670104,
+        "epoch": 1.6318725099601594
+    },
+    {
+        "current_steps": 4145,
+        "loss": 2.048,
+        "learning_rate": 0.0008376288659793815,
+        "epoch": 1.6573705179282867
+    },
+    {
+        "current_steps": 4209,
+        "loss": 2.1087,
+        "learning_rate": 0.0008350515463917527,
+        "epoch": 1.6828685258964144
+    },
+    {
+        "current_steps": 4273,
+        "loss": 2.0474,
+        "learning_rate": 0.0008324742268041238,
+        "epoch": 1.7083665338645417
+    },
+    {
+        "current_steps": 4337,
+        "loss": 2.0699,
+        "learning_rate": 0.000829896907216495,
+        "epoch": 1.7338645418326695
+    },
+    {
+        "current_steps": 4401,
+        "loss": 2.0901,
+        "learning_rate": 0.0008273195876288659,
+        "epoch": 1.7593625498007968
+    },
+    {
+        "current_steps": 4465,
+        "loss": 2.018,
+        "learning_rate": 0.000824742268041237,
+        "epoch": 1.7848605577689243
+    },
+    {
+        "current_steps": 4529,
+        "loss": 2.039,
+        "learning_rate": 0.0008221649484536082,
+        "epoch": 1.8103585657370518
+    },
+    {
+        "current_steps": 4593,
+        "loss": 2.0168,
+        "learning_rate": 0.0008195876288659793,
+        "epoch": 1.8358565737051793
+    },
+    {
+        "current_steps": 4657,
+        "loss": 1.9646,
+        "learning_rate": 0.0008170103092783505,
+        "epoch": 1.8613545816733068
+    },
+    {
+        "current_steps": 4721,
+        "loss": 1.9875,
+        "learning_rate": 0.0008144329896907217,
+        "epoch": 1.886852589641434
+    },
+    {
+        "current_steps": 4785,
+        "loss": 2.0373,
+        "learning_rate": 0.0008118556701030928,
+        "epoch": 1.9123505976095618
+    },
+    {
+        "current_steps": 4849,
+        "loss": 1.9158,
+        "learning_rate": 0.000809278350515464,
+        "epoch": 1.9378486055776891
+    },
+    {
+        "current_steps": 4913,
+        "loss": 1.9173,
+        "learning_rate": 0.0008067010309278351,
+        "epoch": 1.9633466135458169
+    },
+    {
+        "current_steps": 4977,
+        "loss": 1.9941,
+        "learning_rate": 0.0008041237113402063,
+        "epoch": 1.9888446215139441
+    },
+    {
+        "current_steps": 5027,
+        "loss": 1.8231,
+        "learning_rate": 0.0008015463917525774,
+        "epoch": 2.014342629482072
+    },
+    {
+        "current_steps": 5091,
+        "loss": 1.8018,
+        "learning_rate": 0.0007989690721649486,
+        "epoch": 2.039840637450199
+    },
+    {
+        "current_steps": 5155,
+        "loss": 1.7098,
+        "learning_rate": 0.0007963917525773195,
+        "epoch": 2.065338645418327
+    },
+    {
+        "current_steps": 5219,
+        "loss": 1.7214,
+        "learning_rate": 0.0007938144329896907,
+        "epoch": 2.090836653386454
+    },
+    {
+        "current_steps": 5283,
+        "loss": 1.8029,
+        "learning_rate": 0.0007912371134020618,
+        "epoch": 2.1163346613545815
+    },
+    {
+        "current_steps": 5347,
+        "loss": 1.71,
+        "learning_rate": 0.000788659793814433,
+        "epoch": 2.141832669322709
+    },
+    {
+        "current_steps": 5411,
+        "loss": 1.725,
+        "learning_rate": 0.0007860824742268041,
+        "epoch": 2.1673306772908365
+    },
+    {
+        "current_steps": 5475,
+        "loss": 1.729,
+        "learning_rate": 0.0007835051546391753,
+        "epoch": 2.1928286852589642
+    },
+    {
+        "current_steps": 5539,
+        "loss": 1.7139,
+        "learning_rate": 0.0007809278350515464,
+        "epoch": 2.2183266932270915
+    },
+    {
+        "current_steps": 5603,
+        "loss": 1.6588,
+        "learning_rate": 0.0007783505154639176,
+        "epoch": 2.2438247011952193
+    },
+    {
+        "current_steps": 5667,
+        "loss": 1.7179,
+        "learning_rate": 0.0007757731958762887,
+        "epoch": 2.2693227091633466
+    },
+    {
+        "current_steps": 5731,
+        "loss": 1.7024,
+        "learning_rate": 0.0007731958762886599,
+        "epoch": 2.2948207171314743
+    },
+    {
+        "current_steps": 5795,
+        "loss": 1.7205,
+        "learning_rate": 0.000770618556701031,
+        "epoch": 2.3203187250996016
+    },
+    {
+        "current_steps": 5859,
+        "loss": 1.7094,
+        "learning_rate": 0.0007680412371134022,
+        "epoch": 2.3458167330677293
+    },
+    {
+        "current_steps": 5923,
+        "loss": 1.7152,
+        "learning_rate": 0.0007654639175257731,
+        "epoch": 2.3713147410358566
+    },
+    {
+        "current_steps": 5987,
+        "loss": 1.7285,
+        "learning_rate": 0.0007628865979381443,
+        "epoch": 2.396812749003984
+    },
+    {
+        "current_steps": 6051,
+        "loss": 1.6915,
+        "learning_rate": 0.0007603092783505154,
+        "epoch": 2.4223107569721116
+    },
+    {
+        "current_steps": 6115,
+        "loss": 1.6536,
+        "learning_rate": 0.0007577319587628866,
+        "epoch": 2.447808764940239
+    },
+    {
+        "current_steps": 6179,
+        "loss": 1.6924,
+        "learning_rate": 0.0007551546391752577,
+        "epoch": 2.4733067729083666
+    },
+    {
+        "current_steps": 6243,
+        "loss": 1.6518,
+        "learning_rate": 0.0007525773195876289,
+        "epoch": 2.498804780876494
+    },
+    {
+        "current_steps": 6307,
+        "loss": 1.6765,
+        "learning_rate": 0.00075,
+        "epoch": 2.5243027888446217
+    },
+    {
+        "current_steps": 6371,
+        "loss": 1.6662,
+        "learning_rate": 0.0007474226804123712,
+        "epoch": 2.549800796812749
+    },
+    {
+        "current_steps": 6435,
+        "loss": 1.6179,
+        "learning_rate": 0.0007448453608247423,
+        "epoch": 2.5752988047808767
+    },
+    {
+        "current_steps": 6499,
+        "loss": 1.6485,
+        "learning_rate": 0.0007422680412371135,
+        "epoch": 2.600796812749004
+    },
+    {
+        "current_steps": 6563,
+        "loss": 1.7025,
+        "learning_rate": 0.0007396907216494846,
+        "epoch": 2.6262948207171313
+    },
+    {
+        "current_steps": 6627,
+        "loss": 1.6723,
+        "learning_rate": 0.0007371134020618558,
+        "epoch": 2.651792828685259
+    },
+    {
+        "current_steps": 6691,
+        "loss": 1.7608,
+        "learning_rate": 0.0007345360824742269,
+        "epoch": 2.6772908366533863
+    },
+    {
+        "current_steps": 6755,
+        "loss": 1.6388,
+        "learning_rate": 0.0007319587628865979,
+        "epoch": 2.702788844621514
+    },
+    {
+        "current_steps": 6819,
+        "loss": 1.6381,
+        "learning_rate": 0.000729381443298969,
+        "epoch": 2.7282868525896413
+    },
+    {
+        "current_steps": 6883,
+        "loss": 1.6857,
+        "learning_rate": 0.0007268041237113402,
+        "epoch": 2.753784860557769
+    },
+    {
+        "current_steps": 6947,
+        "loss": 1.6556,
+        "learning_rate": 0.0007242268041237113,
+        "epoch": 2.7792828685258963
+    },
+    {
+        "current_steps": 7011,
+        "loss": 1.6446,
+        "learning_rate": 0.0007216494845360825,
+        "epoch": 2.804780876494024
+    },
+    {
+        "current_steps": 7075,
+        "loss": 1.593,
+        "learning_rate": 0.0007190721649484536,
+        "epoch": 2.8302788844621514
+    },
+    {
+        "current_steps": 7139,
+        "loss": 1.6836,
+        "learning_rate": 0.0007164948453608248,
+        "epoch": 2.8557768924302787
+    },
+    {
+        "current_steps": 7203,
+        "loss": 1.5774,
+        "learning_rate": 0.0007139175257731959,
+        "epoch": 2.8812749003984064
+    },
+    {
+        "current_steps": 7267,
+        "loss": 1.6251,
+        "learning_rate": 0.0007113402061855671,
+        "epoch": 2.906772908366534
+    },
+    {
+        "current_steps": 7331,
+        "loss": 1.6695,
+        "learning_rate": 0.0007087628865979382,
+        "epoch": 2.9322709163346614
+    },
+    {
+        "current_steps": 7395,
+        "loss": 1.6645,
+        "learning_rate": 0.0007061855670103094,
+        "epoch": 2.9577689243027887
+    },
+    {
+        "current_steps": 7459,
+        "loss": 1.6589,
+        "learning_rate": 0.0007036082474226805,
+        "epoch": 2.9832669322709164
+    },
+    {
+        "current_steps": 7509,
+        "loss": 1.4876,
+        "learning_rate": 0.0007010309278350515,
+        "epoch": 3.0087649402390437
+    },
+    {
+        "current_steps": 7573,
+        "loss": 1.3509,
+        "learning_rate": 0.0006984536082474226,
+        "epoch": 3.0342629482071715
+    },
+    {
+        "current_steps": 7637,
+        "loss": 1.3058,
+        "learning_rate": 0.0006958762886597938,
+        "epoch": 3.0597609561752988
+    },
+    {
+        "current_steps": 7701,
+        "loss": 1.4409,
+        "learning_rate": 0.0006932989690721649,
+        "epoch": 3.0852589641434265
+    },
+    {
+        "current_steps": 7765,
+        "loss": 1.3829,
+        "learning_rate": 0.0006907216494845361,
+        "epoch": 3.1107569721115538
+    },
+    {
+        "current_steps": 7829,
+        "loss": 1.3513,
+        "learning_rate": 0.0006881443298969072,
+        "epoch": 3.1362549800796815
+    },
+    {
+        "current_steps": 7893,
+        "loss": 1.3223,
+        "learning_rate": 0.0006855670103092784,
+        "epoch": 3.161752988047809
+    },
+    {
+        "current_steps": 7957,
+        "loss": 1.2705,
+        "learning_rate": 0.0006829896907216495,
+        "epoch": 3.187250996015936
+    },
+    {
+        "current_steps": 8021,
+        "loss": 1.3133,
+        "learning_rate": 0.0006804123711340207,
+        "epoch": 3.212749003984064
+    },
+    {
+        "current_steps": 8085,
+        "loss": 1.3229,
+        "learning_rate": 0.0006778350515463918,
+        "epoch": 3.238247011952191
+    },
+    {
+        "current_steps": 8149,
+        "loss": 1.3097,
+        "learning_rate": 0.000675257731958763,
+        "epoch": 3.263745019920319
+    },
+    {
+        "current_steps": 8213,
+        "loss": 1.2961,
+        "learning_rate": 0.0006726804123711341,
+        "epoch": 3.289243027888446
+    },
+    {
+        "current_steps": 8277,
+        "loss": 1.3048,
+        "learning_rate": 0.0006701030927835051,
+        "epoch": 3.314741035856574
+    },
+    {
+        "current_steps": 8341,
+        "loss": 1.2909,
+        "learning_rate": 0.0006675257731958762,
+        "epoch": 3.340239043824701
+    },
+    {
+        "current_steps": 8405,
+        "loss": 1.3333,
+        "learning_rate": 0.0006649484536082474,
+        "epoch": 3.365737051792829
+    },
+    {
+        "current_steps": 8469,
+        "loss": 1.2552,
+        "learning_rate": 0.0006623711340206185,
+        "epoch": 3.391235059760956
+    },
+    {
+        "current_steps": 8533,
+        "loss": 1.306,
+        "learning_rate": 0.0006597938144329897,
+        "epoch": 3.4167330677290835
+    },
+    {
+        "current_steps": 8597,
+        "loss": 1.2382,
+        "learning_rate": 0.0006572164948453608,
+        "epoch": 3.442231075697211
+    },
+    {
+        "current_steps": 8661,
+        "loss": 1.2718,
+        "learning_rate": 0.000654639175257732,
+        "epoch": 3.4677290836653385
+    },
+    {
+        "current_steps": 8725,
+        "loss": 1.2348,
+        "learning_rate": 0.0006520618556701031,
+        "epoch": 3.4932270916334662
+    },
+    {
+        "current_steps": 8789,
+        "loss": 1.2724,
+        "learning_rate": 0.0006494845360824743,
+        "epoch": 3.5187250996015935
+    },
+    {
+        "current_steps": 8853,
+        "loss": 1.244,
+        "learning_rate": 0.0006469072164948454,
+        "epoch": 3.5442231075697213
+    },
+    {
+        "current_steps": 8917,
+        "loss": 1.2948,
+        "learning_rate": 0.0006443298969072166,
+        "epoch": 3.5697211155378485
+    },
+    {
+        "current_steps": 8981,
+        "loss": 1.2063,
+        "learning_rate": 0.0006417525773195877,
+        "epoch": 3.5952191235059763
+    },
+    {
+        "current_steps": 9045,
+        "loss": 1.2656,
+        "learning_rate": 0.0006391752577319587,
+        "epoch": 3.6207171314741036
+    },
+    {
+        "current_steps": 9109,
+        "loss": 1.25,
+        "learning_rate": 0.0006365979381443298,
+        "epoch": 3.646215139442231
+    },
+    {
+        "current_steps": 9173,
+        "loss": 1.3042,
+        "learning_rate": 0.000634020618556701,
+        "epoch": 3.6717131474103586
+    },
+    {
+        "current_steps": 9237,
+        "loss": 1.2612,
+        "learning_rate": 0.0006314432989690721,
+        "epoch": 3.6972111553784863
+    },
+    {
+        "current_steps": 9301,
+        "loss": 1.2516,
+        "learning_rate": 0.0006288659793814433,
+        "epoch": 3.7227091633466136
+    },
+    {
+        "current_steps": 9365,
+        "loss": 1.2572,
+        "learning_rate": 0.0006262886597938144,
+        "epoch": 3.748207171314741
+    },
+    {
+        "current_steps": 9429,
+        "loss": 1.2525,
+        "learning_rate": 0.0006237113402061856,
+        "epoch": 3.7737051792828686
+    },
+    {
+        "current_steps": 9493,
+        "loss": 1.2509,
+        "learning_rate": 0.0006211340206185567,
+        "epoch": 3.799203187250996
+    },
+    {
+        "current_steps": 9557,
+        "loss": 1.2467,
+        "learning_rate": 0.0006185567010309279,
+        "epoch": 3.8247011952191237
+    },
+    {
+        "current_steps": 9621,
+        "loss": 1.2375,
+        "learning_rate": 0.000615979381443299,
+        "epoch": 3.850199203187251
+    },
+    {
+        "current_steps": 9685,
+        "loss": 1.2406,
+        "learning_rate": 0.0006134020618556702,
+        "epoch": 3.8756972111553782
+    },
+    {
+        "current_steps": 9749,
+        "loss": 1.2517,
+        "learning_rate": 0.0006108247422680413,
+        "epoch": 3.901195219123506
+    },
+    {
+        "current_steps": 9813,
+        "loss": 1.2533,
+        "learning_rate": 0.0006082474226804123,
+        "epoch": 3.9266932270916337
+    },
+    {
+        "current_steps": 9877,
+        "loss": 1.256,
+        "learning_rate": 0.0006056701030927834,
+        "epoch": 3.952191235059761
+    },
+    {
+        "current_steps": 9941,
+        "loss": 1.2826,
+        "learning_rate": 0.0006030927835051546,
+        "epoch": 3.9776892430278883
+    },
+    {
+        "current_steps": 9991,
+        "loss": 1.226,
+        "learning_rate": 0.0006005154639175257,
+        "epoch": 4.003187250996016
+    },
+    {
+        "current_steps": 10055,
+        "loss": 0.9512,
+        "learning_rate": 0.0005979381443298969,
+        "epoch": 4.028685258964144
+    },
+    {
+        "current_steps": 10055,
+        "loss": 0.9512,
+        "learning_rate": 0.0005979381443298969,
+        "epoch": 4.028685258964144
+    }
+]

training_graph.png ADDED Viewed

training_log.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+  "base_model_name": "meta-llama_Meta-Llama-3-8B",
+  "base_model_class": "LlamaForCausalLM",
+  "base_loaded_in_4bit": false,
+  "base_loaded_in_8bit": false,
+  "projections": "q, v",
+  "loss": 0.9512,
+  "grad_norm": 0.6213752031326294,
+  "learning_rate": 0.0005979381443298969,
+  "epoch": 4.028685258964144,
+  "current_steps": 10055,
+  "current_steps_adjusted": 10055,
+  "epoch_adjusted": 4.028685258964144,
+  "train_runtime": 3864.6216,
+  "train_samples_per_second": 25.977,
+  "train_steps_per_second": 0.101,
+  "total_flos": 4.69608070712918e+17,
+  "train_loss": 1.8759732170950008
+}

training_parameters.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "lora_name": "lora-meta-llama_Meta-Llama-3-8B-16bit-ORKL-cleaned_juergen-v3_LR_1e-3",
+  "always_override": true,
+  "save_steps": 722,
+  "micro_batch_size": 4,
+  "batch_size": 0,
+  "epochs": 10,
+  "learning_rate": "1e-3",
+  "lr_scheduler_type": "linear",
+  "lora_rank": 128,
+  "lora_alpha": 256,
+  "lora_dropout": 0.05,
+  "cutoff_len": 256,
+  "dataset": "None",
+  "eval_dataset": "None",
+  "format": "None",
+  "eval_steps": 100,
+  "raw_text_file": "orkl-cleaned-juergen",
+  "higher_rank_limit": false,
+  "warmup_steps": 128,
+  "optimizer": "adamw_torch",
+  "hard_cut_string": "\\n\\n\\n",
+  "train_only_after": "",
+  "stop_at_loss": 1,
+  "add_eos_token": false,
+  "min_chars": 3,
+  "report_to": "wandb",
+  "precize_slicing_overlap": true,
+  "add_eos_token_type": "Every Block",
+  "save_steps_under_loss": 1.8,
+  "add_bos_token": true,
+  "training_projection": "q-v",
+  "sliding_window": false,
+  "warmup_ratio": 0,
+  "grad_accumulation": 64,
+  "neft_noise_alpha": 0
+}

training_prompt.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "template_type": "raw_text"
+}