cls_zh2en / trainer_state.json

Upload 9 files

a3d5ad9 almost 3 years ago

226 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 31.44607329842932,
	"global_step": 15000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0020942408376963353,
	"learning_rate": 1.0206207261596573e-07,
	"loss": 42.81952667236328,
	"step": 1
	},
	{
	"epoch": 0.020942408376963352,
	"learning_rate": 1.0206207261596575e-06,
	"loss": 43.49555460611979,
	"step": 10
	},
	{
	"epoch": 0.041884816753926704,
	"learning_rate": 2.041241452319315e-06,
	"loss": 43.81195983886719,
	"step": 20
	},
	{
	"epoch": 0.06282722513089005,
	"learning_rate": 3.0618621784789722e-06,
	"loss": 43.1638671875,
	"step": 30
	},
	{
	"epoch": 0.08376963350785341,
	"learning_rate": 4.08248290463863e-06,
	"loss": 43.10018615722656,
	"step": 40
	},
	{
	"epoch": 0.10471204188481675,
	"learning_rate": 5.103103630798286e-06,
	"loss": 42.361767578125,
	"step": 50
	},
	{
	"epoch": 0.1256544502617801,
	"learning_rate": 6.1237243569579445e-06,
	"loss": 41.58636474609375,
	"step": 60
	},
	{
	"epoch": 0.14659685863874344,
	"learning_rate": 7.144345083117603e-06,
	"loss": 40.42512817382813,
	"step": 70
	},
	{
	"epoch": 0.16753926701570682,
	"learning_rate": 8.16496580927726e-06,
	"loss": 40.1504150390625,
	"step": 80
	},
	{
	"epoch": 0.18848167539267016,
	"learning_rate": 9.185586535436916e-06,
	"loss": 39.03293151855469,
	"step": 90
	},
	{
	"epoch": 0.2094240837696335,
	"learning_rate": 1.0206207261596573e-05,
	"loss": 38.355224609375,
	"step": 100
	},
	{
	"epoch": 0.23036649214659685,
	"learning_rate": 1.1226827987756233e-05,
	"loss": 37.3426025390625,
	"step": 110
	},
	{
	"epoch": 0.2513089005235602,
	"learning_rate": 1.2247448713915889e-05,
	"loss": 36.23554992675781,
	"step": 120
	},
	{
	"epoch": 0.27225130890052357,
	"learning_rate": 1.3268069440075545e-05,
	"loss": 35.76961975097656,
	"step": 130
	},
	{
	"epoch": 0.2931937172774869,
	"learning_rate": 1.4288690166235205e-05,
	"loss": 34.53816528320313,
	"step": 140
	},
	{
	"epoch": 0.31413612565445026,
	"learning_rate": 1.530931089239486e-05,
	"loss": 33.968804931640626,
	"step": 150
	},
	{
	"epoch": 0.33507853403141363,
	"learning_rate": 1.632993161855452e-05,
	"loss": 32.835089111328124,
	"step": 160
	},
	{
	"epoch": 0.35602094240837695,
	"learning_rate": 1.7350552344714174e-05,
	"loss": 32.344024658203125,
	"step": 170
	},
	{
	"epoch": 0.3769633507853403,
	"learning_rate": 1.8371173070873833e-05,
	"loss": 31.358078002929688,
	"step": 180
	},
	{
	"epoch": 0.39790575916230364,
	"learning_rate": 1.939179379703349e-05,
	"loss": 30.222982788085936,
	"step": 190
	},
	{
	"epoch": 0.418848167539267,
	"learning_rate": 2.0412414523193145e-05,
	"loss": 29.279229736328126,
	"step": 200
	},
	{
	"epoch": 0.4397905759162304,
	"learning_rate": 2.1433035249352804e-05,
	"loss": 28.632891845703124,
	"step": 210
	},
	{
	"epoch": 0.4607329842931937,
	"learning_rate": 2.2453655975512465e-05,
	"loss": 27.667315673828124,
	"step": 220
	},
	{
	"epoch": 0.4816753926701571,
	"learning_rate": 2.347427670167212e-05,
	"loss": 26.753375244140624,
	"step": 230
	},
	{
	"epoch": 0.5026178010471204,
	"learning_rate": 2.4494897427831778e-05,
	"loss": 26.086724853515626,
	"step": 240
	},
	{
	"epoch": 0.5235602094240838,
	"learning_rate": 2.5515518153991436e-05,
	"loss": 24.617787170410157,
	"step": 250
	},
	{
	"epoch": 0.5445026178010471,
	"learning_rate": 2.653613888015109e-05,
	"loss": 23.82097473144531,
	"step": 260
	},
	{
	"epoch": 0.5654450261780105,
	"learning_rate": 2.755675960631075e-05,
	"loss": 22.989166259765625,
	"step": 270
	},
	{
	"epoch": 0.5863874345549738,
	"learning_rate": 2.857738033247041e-05,
	"loss": 22.07659454345703,
	"step": 280
	},
	{
	"epoch": 0.6073298429319371,
	"learning_rate": 2.9598001058630065e-05,
	"loss": 21.30054168701172,
	"step": 290
	},
	{
	"epoch": 0.6282722513089005,
	"learning_rate": 3.061862178478972e-05,
	"loss": 20.448097229003906,
	"step": 300
	},
	{
	"epoch": 0.6492146596858639,
	"learning_rate": 3.163924251094938e-05,
	"loss": 19.719020080566406,
	"step": 310
	},
	{
	"epoch": 0.6701570680628273,
	"learning_rate": 3.265986323710904e-05,
	"loss": 19.040341186523438,
	"step": 320
	},
	{
	"epoch": 0.6910994764397905,
	"learning_rate": 3.3680483963268694e-05,
	"loss": 18.16093292236328,
	"step": 330
	},
	{
	"epoch": 0.7120418848167539,
	"learning_rate": 3.470110468942835e-05,
	"loss": 17.382850646972656,
	"step": 340
	},
	{
	"epoch": 0.7329842931937173,
	"learning_rate": 3.5721725415588004e-05,
	"loss": 16.651702880859375,
	"step": 350
	},
	{
	"epoch": 0.7539267015706806,
	"learning_rate": 3.6742346141747665e-05,
	"loss": 16.079180908203124,
	"step": 360
	},
	{
	"epoch": 0.774869109947644,
	"learning_rate": 3.7762966867907327e-05,
	"loss": 15.322096252441407,
	"step": 370
	},
	{
	"epoch": 0.7958115183246073,
	"learning_rate": 3.878358759406698e-05,
	"loss": 14.650254821777343,
	"step": 380
	},
	{
	"epoch": 0.8167539267015707,
	"learning_rate": 3.980420832022664e-05,
	"loss": 14.0874267578125,
	"step": 390
	},
	{
	"epoch": 0.837696335078534,
	"learning_rate": 4.082482904638629e-05,
	"loss": 13.5120849609375,
	"step": 400
	},
	{
	"epoch": 0.8586387434554974,
	"learning_rate": 4.184544977254595e-05,
	"loss": 12.803053283691407,
	"step": 410
	},
	{
	"epoch": 0.8795811518324608,
	"learning_rate": 4.286607049870561e-05,
	"loss": 12.207872009277343,
	"step": 420
	},
	{
	"epoch": 0.900523560209424,
	"learning_rate": 4.388669122486527e-05,
	"loss": 11.640280151367188,
	"step": 430
	},
	{
	"epoch": 0.9214659685863874,
	"learning_rate": 4.490731195102493e-05,
	"loss": 11.116693878173828,
	"step": 440
	},
	{
	"epoch": 0.9424083769633508,
	"learning_rate": 4.5927932677184585e-05,
	"loss": 10.586290740966797,
	"step": 450
	},
	{
	"epoch": 0.9633507853403142,
	"learning_rate": 4.694855340334424e-05,
	"loss": 10.197176361083985,
	"step": 460
	},
	{
	"epoch": 0.9842931937172775,
	"learning_rate": 4.7969174129503894e-05,
	"loss": 9.696656036376954,
	"step": 470
	},
	{
	"epoch": 0.9989528795811519,
	"eval_loss": 7.631092548370361,
	"eval_runtime": 73.7635,
	"eval_samples_per_second": 148.529,
	"step": 477
	},
	{
	"epoch": 1.006282722513089,
	"learning_rate": 4.8989794855663556e-05,
	"loss": 9.649329376220702,
	"step": 480
	},
	{
	"epoch": 1.0272251308900524,
	"learning_rate": 5.001041558182322e-05,
	"loss": 8.800138092041015,
	"step": 490
	},
	{
	"epoch": 1.0481675392670158,
	"learning_rate": 5.103103630798287e-05,
	"loss": 8.46273422241211,
	"step": 500
	},
	{
	"epoch": 1.0691099476439792,
	"learning_rate": 5.205165703414253e-05,
	"loss": 8.093246459960938,
	"step": 510
	},
	{
	"epoch": 1.0900523560209425,
	"learning_rate": 5.307227776030218e-05,
	"loss": 7.800753021240235,
	"step": 520
	},
	{
	"epoch": 1.1109947643979057,
	"learning_rate": 5.409289848646184e-05,
	"loss": 7.580593872070312,
	"step": 530
	},
	{
	"epoch": 1.131937172774869,
	"learning_rate": 5.51135192126215e-05,
	"loss": 7.297437286376953,
	"step": 540
	},
	{
	"epoch": 1.1528795811518324,
	"learning_rate": 5.613413993878116e-05,
	"loss": 7.115350341796875,
	"step": 550
	},
	{
	"epoch": 1.1738219895287958,
	"learning_rate": 5.715476066494082e-05,
	"loss": 6.890144348144531,
	"step": 560
	},
	{
	"epoch": 1.1947643979057592,
	"learning_rate": 5.817538139110047e-05,
	"loss": 6.647792053222656,
	"step": 570
	},
	{
	"epoch": 1.2157068062827225,
	"learning_rate": 5.919600211726013e-05,
	"loss": 6.418707275390625,
	"step": 580
	},
	{
	"epoch": 1.236649214659686,
	"learning_rate": 6.0216622843419785e-05,
	"loss": 6.1961822509765625,
	"step": 590
	},
	{
	"epoch": 1.2575916230366493,
	"learning_rate": 6.123724356957945e-05,
	"loss": 6.020335388183594,
	"step": 600
	},
	{
	"epoch": 1.2785340314136127,
	"learning_rate": 6.22578642957391e-05,
	"loss": 5.866229248046875,
	"step": 610
	},
	{
	"epoch": 1.2994764397905758,
	"learning_rate": 6.327848502189876e-05,
	"loss": 5.687960433959961,
	"step": 620
	},
	{
	"epoch": 1.3204188481675394,
	"learning_rate": 6.429910574805841e-05,
	"loss": 5.516669082641601,
	"step": 630
	},
	{
	"epoch": 1.3413612565445026,
	"learning_rate": 6.531972647421808e-05,
	"loss": 5.365422058105469,
	"step": 640
	},
	{
	"epoch": 1.362303664921466,
	"learning_rate": 6.634034720037773e-05,
	"loss": 5.2304027557373045,
	"step": 650
	},
	{
	"epoch": 1.3832460732984293,
	"learning_rate": 6.736096792653739e-05,
	"loss": 5.1493980407714846,
	"step": 660
	},
	{
	"epoch": 1.4041884816753927,
	"learning_rate": 6.838158865269704e-05,
	"loss": 5.069922256469726,
	"step": 670
	},
	{
	"epoch": 1.425130890052356,
	"learning_rate": 6.94022093788567e-05,
	"loss": 4.946885299682617,
	"step": 680
	},
	{
	"epoch": 1.4460732984293194,
	"learning_rate": 7.042283010501637e-05,
	"loss": 4.852196502685547,
	"step": 690
	},
	{
	"epoch": 1.4670157068062828,
	"learning_rate": 7.144345083117601e-05,
	"loss": 4.79791488647461,
	"step": 700
	},
	{
	"epoch": 1.487958115183246,
	"learning_rate": 7.246407155733568e-05,
	"loss": 4.701091766357422,
	"step": 710
	},
	{
	"epoch": 1.5089005235602095,
	"learning_rate": 7.348469228349533e-05,
	"loss": 4.629792404174805,
	"step": 720
	},
	{
	"epoch": 1.5298429319371727,
	"learning_rate": 7.450531300965498e-05,
	"loss": 4.491447067260742,
	"step": 730
	},
	{
	"epoch": 1.5507853403141363,
	"learning_rate": 7.552593373581465e-05,
	"loss": 4.365177917480469,
	"step": 740
	},
	{
	"epoch": 1.5717277486910994,
	"learning_rate": 7.654655446197431e-05,
	"loss": 4.266152572631836,
	"step": 750
	},
	{
	"epoch": 1.5926701570680628,
	"learning_rate": 7.756717518813396e-05,
	"loss": 4.203376770019531,
	"step": 760
	},
	{
	"epoch": 1.6136125654450262,
	"learning_rate": 7.858779591429362e-05,
	"loss": 4.128662872314453,
	"step": 770
	},
	{
	"epoch": 1.6345549738219896,
	"learning_rate": 7.960841664045329e-05,
	"loss": 4.131737899780274,
	"step": 780
	},
	{
	"epoch": 1.655497382198953,
	"learning_rate": 8.062903736661294e-05,
	"loss": 4.008557891845703,
	"step": 790
	},
	{
	"epoch": 1.676439790575916,
	"learning_rate": 8.164965809277258e-05,
	"loss": 3.9548309326171873,
	"step": 800
	},
	{
	"epoch": 1.6973821989528797,
	"learning_rate": 8.267027881893225e-05,
	"loss": 3.903990936279297,
	"step": 810
	},
	{
	"epoch": 1.7183246073298428,
	"learning_rate": 8.36908995450919e-05,
	"loss": 3.8517215728759764,
	"step": 820
	},
	{
	"epoch": 1.7392670157068064,
	"learning_rate": 8.471152027125156e-05,
	"loss": 3.815013122558594,
	"step": 830
	},
	{
	"epoch": 1.7602094240837696,
	"learning_rate": 8.573214099741121e-05,
	"loss": 3.762827682495117,
	"step": 840
	},
	{
	"epoch": 1.781151832460733,
	"learning_rate": 8.675276172357088e-05,
	"loss": 3.739139938354492,
	"step": 850
	},
	{
	"epoch": 1.8020942408376963,
	"learning_rate": 8.777338244973054e-05,
	"loss": 3.6771942138671876,
	"step": 860
	},
	{
	"epoch": 1.8230366492146597,
	"learning_rate": 8.879400317589019e-05,
	"loss": 3.671974945068359,
	"step": 870
	},
	{
	"epoch": 1.843979057591623,
	"learning_rate": 8.981462390204986e-05,
	"loss": 3.6025531768798826,
	"step": 880
	},
	{
	"epoch": 1.8649214659685864,
	"learning_rate": 9.083524462820951e-05,
	"loss": 3.580000305175781,
	"step": 890
	},
	{
	"epoch": 1.8858638743455498,
	"learning_rate": 9.185586535436917e-05,
	"loss": 3.570189666748047,
	"step": 900
	},
	{
	"epoch": 1.906806282722513,
	"learning_rate": 9.287648608052881e-05,
	"loss": 3.5345611572265625,
	"step": 910
	},
	{
	"epoch": 1.9277486910994766,
	"learning_rate": 9.389710680668848e-05,
	"loss": 3.4658973693847654,
	"step": 920
	},
	{
	"epoch": 1.9486910994764397,
	"learning_rate": 9.491772753284813e-05,
	"loss": 3.4885902404785156,
	"step": 930
	},
	{
	"epoch": 1.9696335078534033,
	"learning_rate": 9.593834825900779e-05,
	"loss": 3.438787078857422,
	"step": 940
	},
	{
	"epoch": 1.9905759162303664,
	"learning_rate": 9.695896898516746e-05,
	"loss": 3.434320831298828,
	"step": 950
	},
	{
	"epoch": 1.998952879581152,
	"eval_loss": 3.1282973289489746,
	"eval_runtime": 73.33,
	"eval_samples_per_second": 149.407,
	"step": 954
	},
	{
	"epoch": 2.012565445026178,
	"learning_rate": 9.797958971132711e-05,
	"loss": 3.5866859436035154,
	"step": 960
	},
	{
	"epoch": 2.033507853403141,
	"learning_rate": 9.900021043748677e-05,
	"loss": 3.4268508911132813,
	"step": 970
	},
	{
	"epoch": 2.054450261780105,
	"learning_rate": 0.00010002083116364643,
	"loss": 3.3977298736572266,
	"step": 980
	},
	{
	"epoch": 2.075392670157068,
	"learning_rate": 0.00010104145188980609,
	"loss": 3.349309539794922,
	"step": 990
	},
	{
	"epoch": 2.0963350785340316,
	"learning_rate": 0.00010206207261596574,
	"loss": 3.4084583282470704,
	"step": 1000
	},
	{
	"epoch": 2.1172774869109947,
	"learning_rate": 0.0001030826933421254,
	"loss": 3.3497646331787108,
	"step": 1010
	},
	{
	"epoch": 2.1382198952879583,
	"learning_rate": 0.00010410331406828505,
	"loss": 3.2944507598876953,
	"step": 1020
	},
	{
	"epoch": 2.1591623036649215,
	"learning_rate": 0.00010512393479444471,
	"loss": 3.312997055053711,
	"step": 1030
	},
	{
	"epoch": 2.180104712041885,
	"learning_rate": 0.00010614455552060436,
	"loss": 3.3428993225097656,
	"step": 1040
	},
	{
	"epoch": 2.201047120418848,
	"learning_rate": 0.00010716517624676403,
	"loss": 3.292295455932617,
	"step": 1050
	},
	{
	"epoch": 2.2219895287958114,
	"learning_rate": 0.00010818579697292369,
	"loss": 3.291975402832031,
	"step": 1060
	},
	{
	"epoch": 2.242931937172775,
	"learning_rate": 0.00010920641769908334,
	"loss": 3.2534629821777346,
	"step": 1070
	},
	{
	"epoch": 2.263874345549738,
	"learning_rate": 0.000110227038425243,
	"loss": 3.247083282470703,
	"step": 1080
	},
	{
	"epoch": 2.2848167539267017,
	"learning_rate": 0.00011124765915140266,
	"loss": 3.253615951538086,
	"step": 1090
	},
	{
	"epoch": 2.305759162303665,
	"learning_rate": 0.00011226827987756232,
	"loss": 3.2301055908203127,
	"step": 1100
	},
	{
	"epoch": 2.3267015706806284,
	"learning_rate": 0.00011328890060372197,
	"loss": 3.241224670410156,
	"step": 1110
	},
	{
	"epoch": 2.3476439790575916,
	"learning_rate": 0.00011430952132988164,
	"loss": 3.210051345825195,
	"step": 1120
	},
	{
	"epoch": 2.368586387434555,
	"learning_rate": 0.00011533014205604128,
	"loss": 3.225263214111328,
	"step": 1130
	},
	{
	"epoch": 2.3895287958115183,
	"learning_rate": 0.00011635076278220094,
	"loss": 3.1904216766357423,
	"step": 1140
	},
	{
	"epoch": 2.4104712041884815,
	"learning_rate": 0.00011737138350836059,
	"loss": 3.230540466308594,
	"step": 1150
	},
	{
	"epoch": 2.431413612565445,
	"learning_rate": 0.00011839200423452026,
	"loss": 3.191972351074219,
	"step": 1160
	},
	{
	"epoch": 2.4523560209424082,
	"learning_rate": 0.00011941262496067991,
	"loss": 3.191108512878418,
	"step": 1170
	},
	{
	"epoch": 2.473298429319372,
	"learning_rate": 0.00012043324568683957,
	"loss": 3.192665863037109,
	"step": 1180
	},
	{
	"epoch": 2.494240837696335,
	"learning_rate": 0.00012145386641299924,
	"loss": 3.1610179901123048,
	"step": 1190
	},
	{
	"epoch": 2.5151832460732986,
	"learning_rate": 0.0001224744871391589,
	"loss": 3.1794748306274414,
	"step": 1200
	},
	{
	"epoch": 2.5361256544502617,
	"learning_rate": 0.00012349510786531856,
	"loss": 3.2144695281982423,
	"step": 1210
	},
	{
	"epoch": 2.5570680628272253,
	"learning_rate": 0.0001245157285914782,
	"loss": 3.147447204589844,
	"step": 1220
	},
	{
	"epoch": 2.5780104712041885,
	"learning_rate": 0.00012553634931763784,
	"loss": 3.1747854232788084,
	"step": 1230
	},
	{
	"epoch": 2.5989528795811516,
	"learning_rate": 0.0001265569700437975,
	"loss": 3.137411880493164,
	"step": 1240
	},
	{
	"epoch": 2.619895287958115,
	"learning_rate": 0.00012757759076995718,
	"loss": 3.157614326477051,
	"step": 1250
	},
	{
	"epoch": 2.640837696335079,
	"learning_rate": 0.00012859821149611682,
	"loss": 3.1284500122070313,
	"step": 1260
	},
	{
	"epoch": 2.661780104712042,
	"learning_rate": 0.0001296188322222765,
	"loss": 3.168661117553711,
	"step": 1270
	},
	{
	"epoch": 2.682722513089005,
	"learning_rate": 0.00013063945294843616,
	"loss": 3.1208589553833006,
	"step": 1280
	},
	{
	"epoch": 2.7036649214659687,
	"learning_rate": 0.0001316600736745958,
	"loss": 3.177284049987793,
	"step": 1290
	},
	{
	"epoch": 2.724607329842932,
	"learning_rate": 0.00013268069440075547,
	"loss": 3.129215431213379,
	"step": 1300
	},
	{
	"epoch": 2.7455497382198955,
	"learning_rate": 0.00013370131512691514,
	"loss": 3.1385051727294924,
	"step": 1310
	},
	{
	"epoch": 2.7664921465968586,
	"learning_rate": 0.00013472193585307478,
	"loss": 3.093943977355957,
	"step": 1320
	},
	{
	"epoch": 2.7874345549738218,
	"learning_rate": 0.00013574255657923444,
	"loss": 3.125334358215332,
	"step": 1330
	},
	{
	"epoch": 2.8083769633507853,
	"learning_rate": 0.00013676317730539409,
	"loss": 3.1063247680664063,
	"step": 1340
	},
	{
	"epoch": 2.829319371727749,
	"learning_rate": 0.00013778379803155375,
	"loss": 3.153512382507324,
	"step": 1350
	},
	{
	"epoch": 2.850261780104712,
	"learning_rate": 0.0001388044187577134,
	"loss": 3.0612106323242188,
	"step": 1360
	},
	{
	"epoch": 2.8712041884816752,
	"learning_rate": 0.00013982503948387306,
	"loss": 3.0893680572509767,
	"step": 1370
	},
	{
	"epoch": 2.892146596858639,
	"learning_rate": 0.00014084566021003273,
	"loss": 3.0948190689086914,
	"step": 1380
	},
	{
	"epoch": 2.913089005235602,
	"learning_rate": 0.00014186628093619237,
	"loss": 3.052564811706543,
	"step": 1390
	},
	{
	"epoch": 2.9340314136125656,
	"learning_rate": 0.00014288690166235201,
	"loss": 3.061579132080078,
	"step": 1400
	},
	{
	"epoch": 2.9549738219895287,
	"learning_rate": 0.00014390752238851168,
	"loss": 3.0893646240234376,
	"step": 1410
	},
	{
	"epoch": 2.975916230366492,
	"learning_rate": 0.00014492814311467135,
	"loss": 3.0637126922607423,
	"step": 1420
	},
	{
	"epoch": 2.9968586387434555,
	"learning_rate": 0.000145948763840831,
	"loss": 3.063129425048828,
	"step": 1430
	},
	{
	"epoch": 2.998952879581152,
	"eval_loss": 2.8699653148651123,
	"eval_runtime": 73.0344,
	"eval_samples_per_second": 150.012,
	"step": 1431
	},
	{
	"epoch": 3.018848167539267,
	"learning_rate": 0.00014696938456699066,
	"loss": 3.175088310241699,
	"step": 1440
	},
	{
	"epoch": 3.0397905759162303,
	"learning_rate": 0.00014799000529315033,
	"loss": 3.0708381652832033,
	"step": 1450
	},
	{
	"epoch": 3.060732984293194,
	"learning_rate": 0.00014901062601930997,
	"loss": 3.043408012390137,
	"step": 1460
	},
	{
	"epoch": 3.081675392670157,
	"learning_rate": 0.00015003124674546964,
	"loss": 3.039161491394043,
	"step": 1470
	},
	{
	"epoch": 3.1026178010471206,
	"learning_rate": 0.0001510518674716293,
	"loss": 3.0207361221313476,
	"step": 1480
	},
	{
	"epoch": 3.1235602094240837,
	"learning_rate": 0.00015207248819778895,
	"loss": 3.0527109146118163,
	"step": 1490
	},
	{
	"epoch": 3.144502617801047,
	"learning_rate": 0.00015309310892394862,
	"loss": 3.045629692077637,
	"step": 1500
	},
	{
	"epoch": 3.1654450261780105,
	"learning_rate": 0.00015411372965010828,
	"loss": 3.0113618850708006,
	"step": 1510
	},
	{
	"epoch": 3.1863874345549736,
	"learning_rate": 0.00015513435037626793,
	"loss": 3.0372419357299805,
	"step": 1520
	},
	{
	"epoch": 3.2073298429319372,
	"learning_rate": 0.0001561549711024276,
	"loss": 3.0219789505004884,
	"step": 1530
	},
	{
	"epoch": 3.2282722513089004,
	"learning_rate": 0.00015717559182858723,
	"loss": 3.0140264511108397,
	"step": 1540
	},
	{
	"epoch": 3.249214659685864,
	"learning_rate": 0.0001581962125547469,
	"loss": 3.039451789855957,
	"step": 1550
	},
	{
	"epoch": 3.270157068062827,
	"learning_rate": 0.00015921683328090657,
	"loss": 3.0277042388916016,
	"step": 1560
	},
	{
	"epoch": 3.2910994764397907,
	"learning_rate": 0.0001602374540070662,
	"loss": 3.0352230072021484,
	"step": 1570
	},
	{
	"epoch": 3.312041884816754,
	"learning_rate": 0.00016125807473322588,
	"loss": 3.0115480422973633,
	"step": 1580
	},
	{
	"epoch": 3.332984293193717,
	"learning_rate": 0.00016227869545938555,
	"loss": 3.008187103271484,
	"step": 1590
	},
	{
	"epoch": 3.3539267015706806,
	"learning_rate": 0.00016329931618554516,
	"loss": 3.02030086517334,
	"step": 1600
	},
	{
	"epoch": 3.374869109947644,
	"learning_rate": 0.00016431993691170483,
	"loss": 3.0034799575805664,
	"step": 1610
	},
	{
	"epoch": 3.3958115183246074,
	"learning_rate": 0.0001653405576378645,
	"loss": 3.0058149337768554,
	"step": 1620
	},
	{
	"epoch": 3.4167539267015705,
	"learning_rate": 0.00016636117836402414,
	"loss": 2.9678651809692385,
	"step": 1630
	},
	{
	"epoch": 3.437696335078534,
	"learning_rate": 0.0001673817990901838,
	"loss": 2.999662399291992,
	"step": 1640
	},
	{
	"epoch": 3.4586387434554973,
	"learning_rate": 0.00016840241981634345,
	"loss": 2.9900545120239257,
	"step": 1650
	},
	{
	"epoch": 3.479581151832461,
	"learning_rate": 0.00016942304054250312,
	"loss": 2.967659759521484,
	"step": 1660
	},
	{
	"epoch": 3.500523560209424,
	"learning_rate": 0.0001704436612686628,
	"loss": 2.9933372497558595,
	"step": 1670
	},
	{
	"epoch": 3.521465968586387,
	"learning_rate": 0.00017146428199482243,
	"loss": 2.9620410919189455,
	"step": 1680
	},
	{
	"epoch": 3.5424083769633508,
	"learning_rate": 0.0001724849027209821,
	"loss": 2.973393440246582,
	"step": 1690
	},
	{
	"epoch": 3.5633507853403144,
	"learning_rate": 0.00017350552344714176,
	"loss": 2.9914371490478517,
	"step": 1700
	},
	{
	"epoch": 3.5842931937172775,
	"learning_rate": 0.0001745261441733014,
	"loss": 2.959955596923828,
	"step": 1710
	},
	{
	"epoch": 3.6052356020942407,
	"learning_rate": 0.00017554676489946107,
	"loss": 2.947012519836426,
	"step": 1720
	},
	{
	"epoch": 3.6261780104712042,
	"learning_rate": 0.00017656738562562074,
	"loss": 2.9780450820922852,
	"step": 1730
	},
	{
	"epoch": 3.6471204188481674,
	"learning_rate": 0.00017758800635178038,
	"loss": 2.9911376953125,
	"step": 1740
	},
	{
	"epoch": 3.668062827225131,
	"learning_rate": 0.00017860862707794005,
	"loss": 2.936799430847168,
	"step": 1750
	},
	{
	"epoch": 3.689005235602094,
	"learning_rate": 0.00017962924780409972,
	"loss": 2.9443117141723634,
	"step": 1760
	},
	{
	"epoch": 3.7099476439790577,
	"learning_rate": 0.00018064986853025936,
	"loss": 2.9714879989624023,
	"step": 1770
	},
	{
	"epoch": 3.730890052356021,
	"learning_rate": 0.00018167048925641903,
	"loss": 2.9554422378540037,
	"step": 1780
	},
	{
	"epoch": 3.7518324607329845,
	"learning_rate": 0.0001826911099825787,
	"loss": 2.971892738342285,
	"step": 1790
	},
	{
	"epoch": 3.7727748691099476,
	"learning_rate": 0.00018371173070873834,
	"loss": 2.9589488983154295,
	"step": 1800
	},
	{
	"epoch": 3.793717277486911,
	"learning_rate": 0.000184732351434898,
	"loss": 2.944401741027832,
	"step": 1810
	},
	{
	"epoch": 3.8146596858638744,
	"learning_rate": 0.00018575297216105762,
	"loss": 2.926609420776367,
	"step": 1820
	},
	{
	"epoch": 3.8356020942408375,
	"learning_rate": 0.0001867735928872173,
	"loss": 2.906996726989746,
	"step": 1830
	},
	{
	"epoch": 3.856544502617801,
	"learning_rate": 0.00018779421361337696,
	"loss": 2.9651628494262696,
	"step": 1840
	},
	{
	"epoch": 3.8774869109947643,
	"learning_rate": 0.0001888148343395366,
	"loss": 2.94600887298584,
	"step": 1850
	},
	{
	"epoch": 3.898429319371728,
	"learning_rate": 0.00018983545506569627,
	"loss": 2.915750503540039,
	"step": 1860
	},
	{
	"epoch": 3.919371727748691,
	"learning_rate": 0.00019085607579185594,
	"loss": 2.942264747619629,
	"step": 1870
	},
	{
	"epoch": 3.9403141361256546,
	"learning_rate": 0.00019187669651801558,
	"loss": 2.9150556564331054,
	"step": 1880
	},
	{
	"epoch": 3.9612565445026178,
	"learning_rate": 0.00019289731724417525,
	"loss": 2.9057634353637694,
	"step": 1890
	},
	{
	"epoch": 3.982198952879581,
	"learning_rate": 0.0001939179379703349,
	"loss": 2.934947967529297,
	"step": 1900
	},
	{
	"epoch": 3.998952879581152,
	"eval_loss": 2.7904012203216553,
	"eval_runtime": 73.0809,
	"eval_samples_per_second": 149.916,
	"step": 1908
	},
	{
	"epoch": 4.004188481675393,
	"learning_rate": 0.00019493855869649455,
	"loss": 3.0482250213623048,
	"step": 1910
	},
	{
	"epoch": 4.025130890052356,
	"learning_rate": 0.00019595917942265422,
	"loss": 2.9126008987426757,
	"step": 1920
	},
	{
	"epoch": 4.046073298429319,
	"learning_rate": 0.0001969798001488139,
	"loss": 2.903646469116211,
	"step": 1930
	},
	{
	"epoch": 4.067015706806282,
	"learning_rate": 0.00019800042087497353,
	"loss": 2.9102720260620116,
	"step": 1940
	},
	{
	"epoch": 4.0879581151832465,
	"learning_rate": 0.0001990210416011332,
	"loss": 2.9236400604248045,
	"step": 1950
	},
	{
	"epoch": 4.10890052356021,
	"learning_rate": 0.00020004166232729287,
	"loss": 2.8818483352661133,
	"step": 1960
	},
	{
	"epoch": 4.129842931937173,
	"learning_rate": 0.0002010622830534525,
	"loss": 2.9328163146972654,
	"step": 1970
	},
	{
	"epoch": 4.150785340314136,
	"learning_rate": 0.00020208290377961218,
	"loss": 2.896937370300293,
	"step": 1980
	},
	{
	"epoch": 4.171727748691099,
	"learning_rate": 0.00020310352450577185,
	"loss": 2.9203187942504885,
	"step": 1990
	},
	{
	"epoch": 4.192670157068063,
	"learning_rate": 0.0002041241452319315,
	"loss": 2.887624740600586,
	"step": 2000
	},
	{
	"epoch": 4.213612565445026,
	"learning_rate": 0.00020514476595809116,
	"loss": 2.89230899810791,
	"step": 2010
	},
	{
	"epoch": 4.234554973821989,
	"learning_rate": 0.0002061653866842508,
	"loss": 2.8896648406982424,
	"step": 2020
	},
	{
	"epoch": 4.255497382198953,
	"learning_rate": 0.00020718600741041044,
	"loss": 2.922181510925293,
	"step": 2030
	},
	{
	"epoch": 4.276439790575917,
	"learning_rate": 0.0002082066281365701,
	"loss": 2.888766860961914,
	"step": 2040
	},
	{
	"epoch": 4.29738219895288,
	"learning_rate": 0.00020922724886272975,
	"loss": 2.8884586334228515,
	"step": 2050
	},
	{
	"epoch": 4.318324607329843,
	"learning_rate": 0.00021024786958888942,
	"loss": 2.8894960403442385,
	"step": 2060
	},
	{
	"epoch": 4.339267015706806,
	"learning_rate": 0.00021126849031504908,
	"loss": 2.88952522277832,
	"step": 2070
	},
	{
	"epoch": 4.36020942408377,
	"learning_rate": 0.00021228911104120873,
	"loss": 2.8968246459960936,
	"step": 2080
	},
	{
	"epoch": 4.381151832460733,
	"learning_rate": 0.0002133097317673684,
	"loss": 2.8720794677734376,
	"step": 2090
	},
	{
	"epoch": 4.402094240837696,
	"learning_rate": 0.00021433035249352806,
	"loss": 2.9035682678222656,
	"step": 2100
	},
	{
	"epoch": 4.4230366492146596,
	"learning_rate": 0.0002153509732196877,
	"loss": 2.8975749969482423,
	"step": 2110
	},
	{
	"epoch": 4.443979057591623,
	"learning_rate": 0.00021637159394584737,
	"loss": 2.8942371368408204,
	"step": 2120
	},
	{
	"epoch": 4.464921465968587,
	"learning_rate": 0.00021739221467200704,
	"loss": 2.8582950592041017,
	"step": 2130
	},
	{
	"epoch": 4.48586387434555,
	"learning_rate": 0.00021841283539816668,
	"loss": 2.8642202377319337,
	"step": 2140
	},
	{
	"epoch": 4.506806282722513,
	"learning_rate": 0.00021943345612432635,
	"loss": 2.8771089553833007,
	"step": 2150
	},
	{
	"epoch": 4.527748691099476,
	"learning_rate": 0.000220454076850486,
	"loss": 2.8463533401489256,
	"step": 2160
	},
	{
	"epoch": 4.548691099476439,
	"learning_rate": 0.00022147469757664566,
	"loss": 2.865732765197754,
	"step": 2170
	},
	{
	"epoch": 4.569633507853403,
	"learning_rate": 0.00022249531830280533,
	"loss": 2.8657468795776366,
	"step": 2180
	},
	{
	"epoch": 4.5905759162303665,
	"learning_rate": 0.00022351593902896497,
	"loss": 2.8737346649169924,
	"step": 2190
	},
	{
	"epoch": 4.61151832460733,
	"learning_rate": 0.00022453655975512464,
	"loss": 2.906464385986328,
	"step": 2200
	},
	{
	"epoch": 4.632460732984293,
	"learning_rate": 0.0002255571804812843,
	"loss": 2.8711727142333983,
	"step": 2210
	},
	{
	"epoch": 4.653403141361257,
	"learning_rate": 0.00022657780120744395,
	"loss": 2.866417121887207,
	"step": 2220
	},
	{
	"epoch": 4.67434554973822,
	"learning_rate": 0.00022759842193360361,
	"loss": 2.873806190490723,
	"step": 2230
	},
	{
	"epoch": 4.695287958115183,
	"learning_rate": 0.00022861904265976328,
	"loss": 2.867740249633789,
	"step": 2240
	},
	{
	"epoch": 4.716230366492146,
	"learning_rate": 0.0002296396633859229,
	"loss": 2.848478317260742,
	"step": 2250
	},
	{
	"epoch": 4.73717277486911,
	"learning_rate": 0.00023066028411208256,
	"loss": 2.865742492675781,
	"step": 2260
	},
	{
	"epoch": 4.7581151832460735,
	"learning_rate": 0.00023168090483824223,
	"loss": 2.8338348388671877,
	"step": 2270
	},
	{
	"epoch": 4.779057591623037,
	"learning_rate": 0.00023270152556440187,
	"loss": 2.848302459716797,
	"step": 2280
	},
	{
	"epoch": 4.8,
	"learning_rate": 0.00023372214629056154,
	"loss": 2.847154235839844,
	"step": 2290
	},
	{
	"epoch": 4.820942408376963,
	"learning_rate": 0.00023474276701672118,
	"loss": 2.889314651489258,
	"step": 2300
	},
	{
	"epoch": 4.841884816753927,
	"learning_rate": 0.00023576338774288085,
	"loss": 2.8715303421020506,
	"step": 2310
	},
	{
	"epoch": 4.86282722513089,
	"learning_rate": 0.00023678400846904052,
	"loss": 2.8583951950073243,
	"step": 2320
	},
	{
	"epoch": 4.883769633507853,
	"learning_rate": 0.00023780462919520016,
	"loss": 2.865638542175293,
	"step": 2330
	},
	{
	"epoch": 4.9047120418848165,
	"learning_rate": 0.00023882524992135983,
	"loss": 2.8511993408203127,
	"step": 2340
	},
	{
	"epoch": 4.92565445026178,
	"learning_rate": 0.0002398458706475195,
	"loss": 2.8662994384765623,
	"step": 2350
	},
	{
	"epoch": 4.946596858638744,
	"learning_rate": 0.00024086649137367914,
	"loss": 2.829090690612793,
	"step": 2360
	},
	{
	"epoch": 4.967539267015707,
	"learning_rate": 0.0002418871120998388,
	"loss": 2.8659574508666994,
	"step": 2370
	},
	{
	"epoch": 4.98848167539267,
	"learning_rate": 0.00024290773282599848,
	"loss": 2.8302743911743162,
	"step": 2380
	},
	{
	"epoch": 4.998952879581152,
	"eval_loss": 2.730773687362671,
	"eval_runtime": 73.1511,
	"eval_samples_per_second": 149.772,
	"step": 2385
	},
	{
	"epoch": 5.010471204188482,
	"learning_rate": 0.00024392835355215812,
	"loss": 2.994700050354004,
	"step": 2390
	},
	{
	"epoch": 5.031413612565445,
	"learning_rate": 0.0002449489742783178,
	"loss": 2.8189886093139647,
	"step": 2400
	},
	{
	"epoch": 5.052356020942408,
	"learning_rate": 0.00024596959500447745,
	"loss": 2.818514823913574,
	"step": 2410
	},
	{
	"epoch": 5.0732984293193715,
	"learning_rate": 0.0002469902157306371,
	"loss": 2.8165609359741213,
	"step": 2420
	},
	{
	"epoch": 5.0942408376963355,
	"learning_rate": 0.00024801083645679674,
	"loss": 2.8114208221435546,
	"step": 2430
	},
	{
	"epoch": 5.115183246073299,
	"learning_rate": 0.0002490314571829564,
	"loss": 2.841958236694336,
	"step": 2440
	},
	{
	"epoch": 5.136125654450262,
	"learning_rate": 0.00025005207790911607,
	"loss": 2.8192333221435546,
	"step": 2450
	},
	{
	"epoch": 5.157068062827225,
	"learning_rate": 0.0002510726986352757,
	"loss": 2.842849540710449,
	"step": 2460
	},
	{
	"epoch": 5.178010471204188,
	"learning_rate": 0.00025209331936143535,
	"loss": 2.797623062133789,
	"step": 2470
	},
	{
	"epoch": 5.198952879581152,
	"learning_rate": 0.000253113940087595,
	"loss": 2.8256582260131835,
	"step": 2480
	},
	{
	"epoch": 5.219895287958115,
	"learning_rate": 0.0002541345608137547,
	"loss": 2.853096771240234,
	"step": 2490
	},
	{
	"epoch": 5.2408376963350785,
	"learning_rate": 0.00025515518153991436,
	"loss": 2.8135236740112304,
	"step": 2500
	},
	{
	"epoch": 5.261780104712042,
	"learning_rate": 0.00025617580226607403,
	"loss": 2.826374053955078,
	"step": 2510
	},
	{
	"epoch": 5.282722513089006,
	"learning_rate": 0.00025719642299223364,
	"loss": 2.8227916717529298,
	"step": 2520
	},
	{
	"epoch": 5.303664921465969,
	"learning_rate": 0.0002582170437183933,
	"loss": 2.800633430480957,
	"step": 2530
	},
	{
	"epoch": 5.324607329842932,
	"learning_rate": 0.000259237664444553,
	"loss": 2.8282939910888674,
	"step": 2540
	},
	{
	"epoch": 5.345549738219895,
	"learning_rate": 0.00026025828517071265,
	"loss": 2.789654350280762,
	"step": 2550
	},
	{
	"epoch": 5.366492146596858,
	"learning_rate": 0.0002612789058968723,
	"loss": 2.832943916320801,
	"step": 2560
	},
	{
	"epoch": 5.387434554973822,
	"learning_rate": 0.00026229952662303193,
	"loss": 2.7946260452270506,
	"step": 2570
	},
	{
	"epoch": 5.408376963350785,
	"learning_rate": 0.0002633201473491916,
	"loss": 2.8106937408447266,
	"step": 2580
	},
	{
	"epoch": 5.429319371727749,
	"learning_rate": 0.00026434076807535127,
	"loss": 2.807754135131836,
	"step": 2590
	},
	{
	"epoch": 5.450261780104712,
	"learning_rate": 0.00026536138880151093,
	"loss": 2.809930992126465,
	"step": 2600
	},
	{
	"epoch": 5.471204188481676,
	"learning_rate": 0.0002663820095276706,
	"loss": 2.824372100830078,
	"step": 2610
	},
	{
	"epoch": 5.492146596858639,
	"learning_rate": 0.00026740263025383027,
	"loss": 2.797639846801758,
	"step": 2620
	},
	{
	"epoch": 5.513089005235602,
	"learning_rate": 0.0002684232509799899,
	"loss": 2.7917612075805662,
	"step": 2630
	},
	{
	"epoch": 5.534031413612565,
	"learning_rate": 0.00026944387170614955,
	"loss": 2.818395233154297,
	"step": 2640
	},
	{
	"epoch": 5.554973821989529,
	"learning_rate": 0.0002704644924323092,
	"loss": 2.7933046340942385,
	"step": 2650
	},
	{
	"epoch": 5.575916230366492,
	"learning_rate": 0.0002714851131584689,
	"loss": 2.794571876525879,
	"step": 2660
	},
	{
	"epoch": 5.596858638743456,
	"learning_rate": 0.0002725057338846285,
	"loss": 2.8182382583618164,
	"step": 2670
	},
	{
	"epoch": 5.617801047120419,
	"learning_rate": 0.00027352635461078817,
	"loss": 2.80462703704834,
	"step": 2680
	},
	{
	"epoch": 5.638743455497382,
	"learning_rate": 0.00027454697533694784,
	"loss": 2.793869400024414,
	"step": 2690
	},
	{
	"epoch": 5.659685863874346,
	"learning_rate": 0.0002755675960631075,
	"loss": 2.7867889404296875,
	"step": 2700
	},
	{
	"epoch": 5.680628272251309,
	"learning_rate": 0.0002765882167892671,
	"loss": 2.759464073181152,
	"step": 2710
	},
	{
	"epoch": 5.701570680628272,
	"learning_rate": 0.0002776088375154268,
	"loss": 2.7763525009155274,
	"step": 2720
	},
	{
	"epoch": 5.722513089005235,
	"learning_rate": 0.00027862945824158646,
	"loss": 2.7857263565063475,
	"step": 2730
	},
	{
	"epoch": 5.7434554973821985,
	"learning_rate": 0.00027965007896774613,
	"loss": 2.793513298034668,
	"step": 2740
	},
	{
	"epoch": 5.7643979057591626,
	"learning_rate": 0.0002806706996939058,
	"loss": 2.780983543395996,
	"step": 2750
	},
	{
	"epoch": 5.785340314136126,
	"learning_rate": 0.00028169132042006546,
	"loss": 2.762991714477539,
	"step": 2760
	},
	{
	"epoch": 5.806282722513089,
	"learning_rate": 0.00028271194114622513,
	"loss": 2.7711687088012695,
	"step": 2770
	},
	{
	"epoch": 5.827225130890052,
	"learning_rate": 0.00028373256187238475,
	"loss": 2.7514936447143556,
	"step": 2780
	},
	{
	"epoch": 5.848167539267016,
	"learning_rate": 0.0002847531825985444,
	"loss": 2.7642467498779295,
	"step": 2790
	},
	{
	"epoch": 5.869109947643979,
	"learning_rate": 0.00028577380332470403,
	"loss": 2.766267776489258,
	"step": 2800
	},
	{
	"epoch": 5.890052356020942,
	"learning_rate": 0.0002867944240508637,
	"loss": 2.7898386001586912,
	"step": 2810
	},
	{
	"epoch": 5.9109947643979055,
	"learning_rate": 0.00028781504477702337,
	"loss": 2.7557825088500976,
	"step": 2820
	},
	{
	"epoch": 5.9319371727748695,
	"learning_rate": 0.00028883566550318303,
	"loss": 2.7799331665039064,
	"step": 2830
	},
	{
	"epoch": 5.952879581151833,
	"learning_rate": 0.0002898562862293427,
	"loss": 2.7844886779785156,
	"step": 2840
	},
	{
	"epoch": 5.973821989528796,
	"learning_rate": 0.0002908769069555023,
	"loss": 2.791143608093262,
	"step": 2850
	},
	{
	"epoch": 5.994764397905759,
	"learning_rate": 0.000291897527681662,
	"loss": 2.7879209518432617,
	"step": 2860
	},
	{
	"epoch": 5.998952879581152,
	"eval_loss": 2.704967737197876,
	"eval_runtime": 73.9106,
	"eval_samples_per_second": 148.233,
	"step": 2862
	},
	{
	"epoch": 6.016753926701571,
	"learning_rate": 0.00029291814840782165,
	"loss": 2.8958906173706054,
	"step": 2870
	},
	{
	"epoch": 6.037696335078534,
	"learning_rate": 0.0002939387691339813,
	"loss": 2.76577205657959,
	"step": 2880
	},
	{
	"epoch": 6.058638743455497,
	"learning_rate": 0.000294959389860141,
	"loss": 2.792632484436035,
	"step": 2890
	},
	{
	"epoch": 6.0795811518324605,
	"learning_rate": 0.00029598001058630066,
	"loss": 2.7835086822509765,
	"step": 2900
	},
	{
	"epoch": 6.100523560209424,
	"learning_rate": 0.00029700063131246027,
	"loss": 2.761422538757324,
	"step": 2910
	},
	{
	"epoch": 6.121465968586388,
	"learning_rate": 0.00029802125203861994,
	"loss": 2.763009452819824,
	"step": 2920
	},
	{
	"epoch": 6.142408376963351,
	"learning_rate": 0.0002990418727647796,
	"loss": 2.763312339782715,
	"step": 2930
	},
	{
	"epoch": 6.163350785340314,
	"learning_rate": 0.0003000624934909393,
	"loss": 2.764869499206543,
	"step": 2940
	},
	{
	"epoch": 6.184293193717277,
	"learning_rate": 0.00030108311421709894,
	"loss": 2.741547393798828,
	"step": 2950
	},
	{
	"epoch": 6.205235602094241,
	"learning_rate": 0.0003021037349432586,
	"loss": 2.7309391021728517,
	"step": 2960
	},
	{
	"epoch": 6.226178010471204,
	"learning_rate": 0.0003031243556694182,
	"loss": 2.7382484436035157,
	"step": 2970
	},
	{
	"epoch": 6.2471204188481675,
	"learning_rate": 0.0003041449763955779,
	"loss": 2.73870849609375,
	"step": 2980
	},
	{
	"epoch": 6.268062827225131,
	"learning_rate": 0.00030516559712173756,
	"loss": 2.7489850997924803,
	"step": 2990
	},
	{
	"epoch": 6.289005235602094,
	"learning_rate": 0.00030618621784789723,
	"loss": 2.720503807067871,
	"step": 3000
	},
	{
	"epoch": 6.309947643979058,
	"learning_rate": 0.0003072068385740569,
	"loss": 2.770734977722168,
	"step": 3010
	},
	{
	"epoch": 6.330890052356021,
	"learning_rate": 0.00030822745930021657,
	"loss": 2.7358495712280275,
	"step": 3020
	},
	{
	"epoch": 6.351832460732984,
	"learning_rate": 0.0003092480800263762,
	"loss": 2.7683557510375976,
	"step": 3030
	},
	{
	"epoch": 6.372774869109947,
	"learning_rate": 0.00031026870075253585,
	"loss": 2.7386125564575194,
	"step": 3040
	},
	{
	"epoch": 6.393717277486911,
	"learning_rate": 0.0003112893214786955,
	"loss": 2.730208396911621,
	"step": 3050
	},
	{
	"epoch": 6.4146596858638745,
	"learning_rate": 0.0003123099422048552,
	"loss": 2.753367042541504,
	"step": 3060
	},
	{
	"epoch": 6.435602094240838,
	"learning_rate": 0.00031333056293101486,
	"loss": 2.738628959655762,
	"step": 3070
	},
	{
	"epoch": 6.456544502617801,
	"learning_rate": 0.00031435118365717447,
	"loss": 2.7470897674560546,
	"step": 3080
	},
	{
	"epoch": 6.477486910994765,
	"learning_rate": 0.00031537180438333414,
	"loss": 2.7530258178710936,
	"step": 3090
	},
	{
	"epoch": 6.498429319371728,
	"learning_rate": 0.0003163924251094938,
	"loss": 2.7581613540649412,
	"step": 3100
	},
	{
	"epoch": 6.519371727748691,
	"learning_rate": 0.0003174130458356535,
	"loss": 2.719674301147461,
	"step": 3110
	},
	{
	"epoch": 6.540314136125654,
	"learning_rate": 0.00031843366656181314,
	"loss": 2.7147310256958006,
	"step": 3120
	},
	{
	"epoch": 6.561256544502617,
	"learning_rate": 0.0003194542872879728,
	"loss": 2.731971549987793,
	"step": 3130
	},
	{
	"epoch": 6.5821989528795815,
	"learning_rate": 0.0003204749080141324,
	"loss": 2.73608512878418,
	"step": 3140
	},
	{
	"epoch": 6.603141361256545,
	"learning_rate": 0.0003214955287402921,
	"loss": 2.7456966400146485,
	"step": 3150
	},
	{
	"epoch": 6.624083769633508,
	"learning_rate": 0.00032251614946645176,
	"loss": 2.7154998779296875,
	"step": 3160
	},
	{
	"epoch": 6.645026178010471,
	"learning_rate": 0.00032353677019261143,
	"loss": 2.737691116333008,
	"step": 3170
	},
	{
	"epoch": 6.665968586387434,
	"learning_rate": 0.0003245573909187711,
	"loss": 2.734482192993164,
	"step": 3180
	},
	{
	"epoch": 6.686910994764398,
	"learning_rate": 0.00032557801164493077,
	"loss": 2.74371395111084,
	"step": 3190
	},
	{
	"epoch": 6.707853403141361,
	"learning_rate": 0.0003265986323710903,
	"loss": 2.7436079025268554,
	"step": 3200
	},
	{
	"epoch": 6.728795811518324,
	"learning_rate": 0.00032761925309725,
	"loss": 2.7301549911499023,
	"step": 3210
	},
	{
	"epoch": 6.749738219895288,
	"learning_rate": 0.00032863987382340966,
	"loss": 2.7386409759521486,
	"step": 3220
	},
	{
	"epoch": 6.770680628272252,
	"learning_rate": 0.00032966049454956933,
	"loss": 2.718589973449707,
	"step": 3230
	},
	{
	"epoch": 6.791623036649215,
	"learning_rate": 0.000330681115275729,
	"loss": 2.7293943405151366,
	"step": 3240
	},
	{
	"epoch": 6.812565445026178,
	"learning_rate": 0.0003317017360018886,
	"loss": 2.730001449584961,
	"step": 3250
	},
	{
	"epoch": 6.833507853403141,
	"learning_rate": 0.0003327223567280483,
	"loss": 2.7539945602416993,
	"step": 3260
	},
	{
	"epoch": 6.854450261780105,
	"learning_rate": 0.00033374297745420795,
	"loss": 2.7157943725585936,
	"step": 3270
	},
	{
	"epoch": 6.875392670157068,
	"learning_rate": 0.0003347635981803676,
	"loss": 2.7142717361450197,
	"step": 3280
	},
	{
	"epoch": 6.896335078534031,
	"learning_rate": 0.0003357842189065273,
	"loss": 2.723209190368652,
	"step": 3290
	},
	{
	"epoch": 6.9172774869109945,
	"learning_rate": 0.0003368048396326869,
	"loss": 2.725255012512207,
	"step": 3300
	},
	{
	"epoch": 6.938219895287958,
	"learning_rate": 0.00033782546035884657,
	"loss": 2.7175876617431642,
	"step": 3310
	},
	{
	"epoch": 6.959162303664922,
	"learning_rate": 0.00033884608108500624,
	"loss": 2.7198652267456054,
	"step": 3320
	},
	{
	"epoch": 6.980104712041885,
	"learning_rate": 0.0003398667018111659,
	"loss": 2.719003105163574,
	"step": 3330
	},
	{
	"epoch": 6.998952879581152,
	"eval_loss": 2.657553195953369,
	"eval_runtime": 73.1108,
	"eval_samples_per_second": 149.855,
	"step": 3339
	},
	{
	"epoch": 7.002094240837696,
	"learning_rate": 0.0003408873225373256,
	"loss": 2.8445356369018553,
	"step": 3340
	},
	{
	"epoch": 7.02303664921466,
	"learning_rate": 0.00034190794326348524,
	"loss": 2.6978481292724608,
	"step": 3350
	},
	{
	"epoch": 7.043979057591623,
	"learning_rate": 0.00034292856398964486,
	"loss": 2.6844539642333984,
	"step": 3360
	},
	{
	"epoch": 7.064921465968586,
	"learning_rate": 0.0003439491847158045,
	"loss": 2.7076372146606444,
	"step": 3370
	},
	{
	"epoch": 7.0858638743455495,
	"learning_rate": 0.0003449698054419642,
	"loss": 2.7051311492919923,
	"step": 3380
	},
	{
	"epoch": 7.106806282722513,
	"learning_rate": 0.00034599042616812386,
	"loss": 2.700316619873047,
	"step": 3390
	},
	{
	"epoch": 7.127748691099477,
	"learning_rate": 0.00034701104689428353,
	"loss": 2.732998085021973,
	"step": 3400
	},
	{
	"epoch": 7.14869109947644,
	"learning_rate": 0.0003480316676204432,
	"loss": 2.7185394287109377,
	"step": 3410
	},
	{
	"epoch": 7.169633507853403,
	"learning_rate": 0.0003490522883466028,
	"loss": 2.705458068847656,
	"step": 3420
	},
	{
	"epoch": 7.190575916230366,
	"learning_rate": 0.0003500729090727625,
	"loss": 2.708370590209961,
	"step": 3430
	},
	{
	"epoch": 7.21151832460733,
	"learning_rate": 0.00035109352979892215,
	"loss": 2.7156093597412108,
	"step": 3440
	},
	{
	"epoch": 7.232460732984293,
	"learning_rate": 0.0003521141505250818,
	"loss": 2.6954971313476563,
	"step": 3450
	},
	{
	"epoch": 7.2534031413612565,
	"learning_rate": 0.0003531347712512415,
	"loss": 2.7061573028564454,
	"step": 3460
	},
	{
	"epoch": 7.27434554973822,
	"learning_rate": 0.00035415539197740115,
	"loss": 2.7047218322753905,
	"step": 3470
	},
	{
	"epoch": 7.295287958115184,
	"learning_rate": 0.00035517601270356077,
	"loss": 2.6945539474487306,
	"step": 3480
	},
	{
	"epoch": 7.316230366492147,
	"learning_rate": 0.00035619663342972044,
	"loss": 2.67620735168457,
	"step": 3490
	},
	{
	"epoch": 7.33717277486911,
	"learning_rate": 0.0003572172541558801,
	"loss": 2.6955190658569337,
	"step": 3500
	},
	{
	"epoch": 7.358115183246073,
	"learning_rate": 0.00035823787488203977,
	"loss": 2.684027671813965,
	"step": 3510
	},
	{
	"epoch": 7.379057591623036,
	"learning_rate": 0.00035925849560819944,
	"loss": 2.698904800415039,
	"step": 3520
	},
	{
	"epoch": 7.4,
	"learning_rate": 0.0003602791163343591,
	"loss": 2.695516014099121,
	"step": 3530
	},
	{
	"epoch": 7.4209424083769635,
	"learning_rate": 0.0003612997370605187,
	"loss": 2.7022026062011717,
	"step": 3540
	},
	{
	"epoch": 7.441884816753927,
	"learning_rate": 0.0003623203577866784,
	"loss": 2.703862762451172,
	"step": 3550
	},
	{
	"epoch": 7.46282722513089,
	"learning_rate": 0.00036334097851283806,
	"loss": 2.6929235458374023,
	"step": 3560
	},
	{
	"epoch": 7.483769633507853,
	"learning_rate": 0.00036436159923899773,
	"loss": 2.6659242630004885,
	"step": 3570
	},
	{
	"epoch": 7.504712041884817,
	"learning_rate": 0.0003653822199651574,
	"loss": 2.660002899169922,
	"step": 3580
	},
	{
	"epoch": 7.52565445026178,
	"learning_rate": 0.000366402840691317,
	"loss": 2.699945831298828,
	"step": 3590
	},
	{
	"epoch": 7.546596858638743,
	"learning_rate": 0.0003674234614174767,
	"loss": 2.677934455871582,
	"step": 3600
	},
	{
	"epoch": 7.5675392670157065,
	"learning_rate": 0.00036844408214363635,
	"loss": 2.6725204467773436,
	"step": 3610
	},
	{
	"epoch": 7.5884816753926705,
	"learning_rate": 0.000369464702869796,
	"loss": 2.701091003417969,
	"step": 3620
	},
	{
	"epoch": 7.609424083769634,
	"learning_rate": 0.00037048532359595563,
	"loss": 2.6974748611450194,
	"step": 3630
	},
	{
	"epoch": 7.630366492146597,
	"learning_rate": 0.00037150594432211524,
	"loss": 2.6910377502441407,
	"step": 3640
	},
	{
	"epoch": 7.65130890052356,
	"learning_rate": 0.0003725265650482749,
	"loss": 2.6975467681884764,
	"step": 3650
	},
	{
	"epoch": 7.672251308900524,
	"learning_rate": 0.0003735471857744346,
	"loss": 2.6613983154296874,
	"step": 3660
	},
	{
	"epoch": 7.693193717277487,
	"learning_rate": 0.00037456780650059425,
	"loss": 2.6739892959594727,
	"step": 3670
	},
	{
	"epoch": 7.71413612565445,
	"learning_rate": 0.0003755884272267539,
	"loss": 2.684556770324707,
	"step": 3680
	},
	{
	"epoch": 7.735078534031413,
	"learning_rate": 0.0003766090479529136,
	"loss": 2.662580680847168,
	"step": 3690
	},
	{
	"epoch": 7.756020942408377,
	"learning_rate": 0.0003776296686790732,
	"loss": 2.671764373779297,
	"step": 3700
	},
	{
	"epoch": 7.776963350785341,
	"learning_rate": 0.00037865028940523287,
	"loss": 2.687736701965332,
	"step": 3710
	},
	{
	"epoch": 7.797905759162304,
	"learning_rate": 0.00037967091013139253,
	"loss": 2.676908493041992,
	"step": 3720
	},
	{
	"epoch": 7.818848167539267,
	"learning_rate": 0.0003806915308575522,
	"loss": 2.6953929901123046,
	"step": 3730
	},
	{
	"epoch": 7.83979057591623,
	"learning_rate": 0.00038171215158371187,
	"loss": 2.7138477325439454,
	"step": 3740
	},
	{
	"epoch": 7.860732984293193,
	"learning_rate": 0.00038273277230987154,
	"loss": 2.658716583251953,
	"step": 3750
	},
	{
	"epoch": 7.881675392670157,
	"learning_rate": 0.00038375339303603115,
	"loss": 2.6610225677490233,
	"step": 3760
	},
	{
	"epoch": 7.90261780104712,
	"learning_rate": 0.0003847740137621908,
	"loss": 2.6816684722900392,
	"step": 3770
	},
	{
	"epoch": 7.923560209424084,
	"learning_rate": 0.0003857946344883505,
	"loss": 2.69453125,
	"step": 3780
	},
	{
	"epoch": 7.944502617801048,
	"learning_rate": 0.00038681525521451016,
	"loss": 2.6690832138061524,
	"step": 3790
	},
	{
	"epoch": 7.965445026178011,
	"learning_rate": 0.0003878358759406698,
	"loss": 2.6719383239746093,
	"step": 3800
	},
	{
	"epoch": 7.986387434554974,
	"learning_rate": 0.00038885649666682944,
	"loss": 2.6821807861328124,
	"step": 3810
	},
	{
	"epoch": 7.998952879581152,
	"eval_loss": 2.6321663856506348,
	"eval_runtime": 73.4258,
	"eval_samples_per_second": 149.212,
	"step": 3816
	},
	{
	"epoch": 8.008376963350786,
	"learning_rate": 0.0003898771173929891,
	"loss": 2.792423057556152,
	"step": 3820
	},
	{
	"epoch": 8.029319371727748,
	"learning_rate": 0.0003908977381191488,
	"loss": 2.639652061462402,
	"step": 3830
	},
	{
	"epoch": 8.050261780104712,
	"learning_rate": 0.00039191835884530845,
	"loss": 2.658628463745117,
	"step": 3840
	},
	{
	"epoch": 8.071204188481675,
	"learning_rate": 0.0003929389795714681,
	"loss": 2.6759145736694334,
	"step": 3850
	},
	{
	"epoch": 8.092146596858639,
	"learning_rate": 0.0003939596002976278,
	"loss": 2.7123003005981445,
	"step": 3860
	},
	{
	"epoch": 8.113089005235603,
	"learning_rate": 0.0003949802210237874,
	"loss": 2.654216766357422,
	"step": 3870
	},
	{
	"epoch": 8.134031413612565,
	"learning_rate": 0.00039600084174994706,
	"loss": 2.653605651855469,
	"step": 3880
	},
	{
	"epoch": 8.154973821989529,
	"learning_rate": 0.00039702146247610673,
	"loss": 2.6602855682373048,
	"step": 3890
	},
	{
	"epoch": 8.175916230366493,
	"learning_rate": 0.0003980420832022664,
	"loss": 2.664006805419922,
	"step": 3900
	},
	{
	"epoch": 8.196858638743455,
	"learning_rate": 0.00039906270392842607,
	"loss": 2.6484548568725588,
	"step": 3910
	},
	{
	"epoch": 8.21780104712042,
	"learning_rate": 0.00040008332465458574,
	"loss": 2.6500553131103515,
	"step": 3920
	},
	{
	"epoch": 8.238743455497382,
	"learning_rate": 0.00040110394538074535,
	"loss": 2.6387815475463867,
	"step": 3930
	},
	{
	"epoch": 8.259685863874346,
	"learning_rate": 0.000402124566106905,
	"loss": 2.666366958618164,
	"step": 3940
	},
	{
	"epoch": 8.28062827225131,
	"learning_rate": 0.0004031451868330647,
	"loss": 2.69473876953125,
	"step": 3950
	},
	{
	"epoch": 8.301570680628272,
	"learning_rate": 0.00040416580755922436,
	"loss": 2.649556350708008,
	"step": 3960
	},
	{
	"epoch": 8.322513089005236,
	"learning_rate": 0.000405186428285384,
	"loss": 2.661054801940918,
	"step": 3970
	},
	{
	"epoch": 8.343455497382198,
	"learning_rate": 0.0004062070490115437,
	"loss": 2.651872253417969,
	"step": 3980
	},
	{
	"epoch": 8.364397905759162,
	"learning_rate": 0.0004072276697377033,
	"loss": 2.657582473754883,
	"step": 3990
	},
	{
	"epoch": 8.385340314136126,
	"learning_rate": 0.000408248290463863,
	"loss": 2.647386932373047,
	"step": 4000
	},
	{
	"epoch": 8.406282722513089,
	"learning_rate": 0.00040926891119002264,
	"loss": 2.622752380371094,
	"step": 4010
	},
	{
	"epoch": 8.427225130890053,
	"learning_rate": 0.0004102895319161823,
	"loss": 2.6471187591552736,
	"step": 4020
	},
	{
	"epoch": 8.448167539267015,
	"learning_rate": 0.000411310152642342,
	"loss": 2.6503711700439454,
	"step": 4030
	},
	{
	"epoch": 8.469109947643979,
	"learning_rate": 0.0004123307733685016,
	"loss": 2.662638854980469,
	"step": 4040
	},
	{
	"epoch": 8.490052356020943,
	"learning_rate": 0.00041335139409466126,
	"loss": 2.6614749908447264,
	"step": 4050
	},
	{
	"epoch": 8.510994764397905,
	"learning_rate": 0.0004143720148208209,
	"loss": 2.651297760009766,
	"step": 4060
	},
	{
	"epoch": 8.53193717277487,
	"learning_rate": 0.00041539263554698055,
	"loss": 2.654410552978516,
	"step": 4070
	},
	{
	"epoch": 8.552879581151833,
	"learning_rate": 0.0004164132562731402,
	"loss": 2.6440593719482424,
	"step": 4080
	},
	{
	"epoch": 8.573821989528795,
	"learning_rate": 0.00041743387699929983,
	"loss": 2.6485244750976564,
	"step": 4090
	},
	{
	"epoch": 8.59476439790576,
	"learning_rate": 0.0004184544977254595,
	"loss": 2.645181655883789,
	"step": 4100
	},
	{
	"epoch": 8.615706806282722,
	"learning_rate": 0.00041947511845161916,
	"loss": 2.6527120590209963,
	"step": 4110
	},
	{
	"epoch": 8.636649214659686,
	"learning_rate": 0.00042049573917777883,
	"loss": 2.644283676147461,
	"step": 4120
	},
	{
	"epoch": 8.65759162303665,
	"learning_rate": 0.0004215163599039385,
	"loss": 2.6589195251464846,
	"step": 4130
	},
	{
	"epoch": 8.678534031413612,
	"learning_rate": 0.00042253698063009817,
	"loss": 2.638910675048828,
	"step": 4140
	},
	{
	"epoch": 8.699476439790576,
	"learning_rate": 0.0004235576013562578,
	"loss": 2.6332365036010743,
	"step": 4150
	},
	{
	"epoch": 8.72041884816754,
	"learning_rate": 0.00042457822208241745,
	"loss": 2.6593414306640626,
	"step": 4160
	},
	{
	"epoch": 8.741361256544502,
	"learning_rate": 0.0004255988428085771,
	"loss": 2.6320539474487306,
	"step": 4170
	},
	{
	"epoch": 8.762303664921467,
	"learning_rate": 0.0004266194635347368,
	"loss": 2.6423057556152343,
	"step": 4180
	},
	{
	"epoch": 8.783246073298429,
	"learning_rate": 0.00042764008426089646,
	"loss": 2.6288238525390626,
	"step": 4190
	},
	{
	"epoch": 8.804188481675393,
	"learning_rate": 0.0004286607049870561,
	"loss": 2.624134635925293,
	"step": 4200
	},
	{
	"epoch": 8.825130890052357,
	"learning_rate": 0.00042968132571321574,
	"loss": 2.6502635955810545,
	"step": 4210
	},
	{
	"epoch": 8.846073298429319,
	"learning_rate": 0.0004307019464393754,
	"loss": 2.630023384094238,
	"step": 4220
	},
	{
	"epoch": 8.867015706806283,
	"learning_rate": 0.0004317225671655351,
	"loss": 2.6346521377563477,
	"step": 4230
	},
	{
	"epoch": 8.887958115183245,
	"learning_rate": 0.00043274318789169474,
	"loss": 2.612893295288086,
	"step": 4240
	},
	{
	"epoch": 8.90890052356021,
	"learning_rate": 0.0004337638086178544,
	"loss": 2.605606460571289,
	"step": 4250
	},
	{
	"epoch": 8.929842931937173,
	"learning_rate": 0.0004347844293440141,
	"loss": 2.6086076736450194,
	"step": 4260
	},
	{
	"epoch": 8.950785340314136,
	"learning_rate": 0.0004358050500701737,
	"loss": 2.6492921829223635,
	"step": 4270
	},
	{
	"epoch": 8.9717277486911,
	"learning_rate": 0.00043682567079633336,
	"loss": 2.60416202545166,
	"step": 4280
	},
	{
	"epoch": 8.992670157068062,
	"learning_rate": 0.00043784629152249303,
	"loss": 2.639349937438965,
	"step": 4290
	},
	{
	"epoch": 8.998952879581152,
	"eval_loss": 2.6156058311462402,
	"eval_runtime": 73.0048,
	"eval_samples_per_second": 150.072,
	"step": 4293
	},
	{
	"epoch": 9.014659685863874,
	"learning_rate": 0.0004388669122486527,
	"loss": 2.7455169677734377,
	"step": 4300
	},
	{
	"epoch": 9.035602094240838,
	"learning_rate": 0.00043988753297481237,
	"loss": 2.632405471801758,
	"step": 4310
	},
	{
	"epoch": 9.0565445026178,
	"learning_rate": 0.000440908153700972,
	"loss": 2.644683074951172,
	"step": 4320
	},
	{
	"epoch": 9.077486910994764,
	"learning_rate": 0.00044192877442713165,
	"loss": 2.620805358886719,
	"step": 4330
	},
	{
	"epoch": 9.098429319371728,
	"learning_rate": 0.0004429493951532913,
	"loss": 2.6189605712890627,
	"step": 4340
	},
	{
	"epoch": 9.11937172774869,
	"learning_rate": 0.000443970015879451,
	"loss": 2.614165687561035,
	"step": 4350
	},
	{
	"epoch": 9.140314136125655,
	"learning_rate": 0.00044499063660561065,
	"loss": 2.615524673461914,
	"step": 4360
	},
	{
	"epoch": 9.161256544502617,
	"learning_rate": 0.0004460112573317703,
	"loss": 2.623036003112793,
	"step": 4370
	},
	{
	"epoch": 9.182198952879581,
	"learning_rate": 0.00044703187805792994,
	"loss": 2.636097526550293,
	"step": 4380
	},
	{
	"epoch": 9.203141361256545,
	"learning_rate": 0.0004480524987840896,
	"loss": 2.5902896881103517,
	"step": 4390
	},
	{
	"epoch": 9.224083769633507,
	"learning_rate": 0.0004490731195102493,
	"loss": 2.596613121032715,
	"step": 4400
	},
	{
	"epoch": 9.245026178010471,
	"learning_rate": 0.00045009374023640894,
	"loss": 2.6126483917236327,
	"step": 4410
	},
	{
	"epoch": 9.265968586387434,
	"learning_rate": 0.0004511143609625686,
	"loss": 2.6270191192626955,
	"step": 4420
	},
	{
	"epoch": 9.286910994764398,
	"learning_rate": 0.0004521349816887283,
	"loss": 2.603664779663086,
	"step": 4430
	},
	{
	"epoch": 9.307853403141362,
	"learning_rate": 0.0004531556024148879,
	"loss": 2.618840980529785,
	"step": 4440
	},
	{
	"epoch": 9.328795811518324,
	"learning_rate": 0.00045417622314104756,
	"loss": 2.6355594635009765,
	"step": 4450
	},
	{
	"epoch": 9.349738219895288,
	"learning_rate": 0.00045519684386720723,
	"loss": 2.6463857650756837,
	"step": 4460
	},
	{
	"epoch": 9.370680628272252,
	"learning_rate": 0.0004562174645933669,
	"loss": 2.6071035385131838,
	"step": 4470
	},
	{
	"epoch": 9.391623036649214,
	"learning_rate": 0.00045723808531952657,
	"loss": 2.6336111068725585,
	"step": 4480
	},
	{
	"epoch": 9.412565445026178,
	"learning_rate": 0.0004582587060456861,
	"loss": 2.6231353759765623,
	"step": 4490
	},
	{
	"epoch": 9.43350785340314,
	"learning_rate": 0.0004592793267718458,
	"loss": 2.6107151031494142,
	"step": 4500
	},
	{
	"epoch": 9.454450261780105,
	"learning_rate": 0.00046029994749800546,
	"loss": 2.6213560104370117,
	"step": 4510
	},
	{
	"epoch": 9.475392670157069,
	"learning_rate": 0.00046132056822416513,
	"loss": 2.584638214111328,
	"step": 4520
	},
	{
	"epoch": 9.496335078534031,
	"learning_rate": 0.0004623411889503248,
	"loss": 2.6262628555297853,
	"step": 4530
	},
	{
	"epoch": 9.517277486910995,
	"learning_rate": 0.00046336180967648447,
	"loss": 2.5897647857666017,
	"step": 4540
	},
	{
	"epoch": 9.538219895287957,
	"learning_rate": 0.0004643824304026441,
	"loss": 2.6060354232788088,
	"step": 4550
	},
	{
	"epoch": 9.559162303664921,
	"learning_rate": 0.00046540305112880375,
	"loss": 2.6086732864379885,
	"step": 4560
	},
	{
	"epoch": 9.580104712041885,
	"learning_rate": 0.0004664236718549634,
	"loss": 2.5964023590087892,
	"step": 4570
	},
	{
	"epoch": 9.601047120418848,
	"learning_rate": 0.0004674442925811231,
	"loss": 2.622255325317383,
	"step": 4580
	},
	{
	"epoch": 9.621989528795812,
	"learning_rate": 0.00046846491330728275,
	"loss": 2.5982023239135743,
	"step": 4590
	},
	{
	"epoch": 9.642931937172776,
	"learning_rate": 0.00046948553403344237,
	"loss": 2.6015974044799806,
	"step": 4600
	},
	{
	"epoch": 9.663874345549738,
	"learning_rate": 0.00047050615475960204,
	"loss": 2.617095184326172,
	"step": 4610
	},
	{
	"epoch": 9.684816753926702,
	"learning_rate": 0.0004715267754857617,
	"loss": 2.5803293228149413,
	"step": 4620
	},
	{
	"epoch": 9.705759162303664,
	"learning_rate": 0.00047254739621192137,
	"loss": 2.615343475341797,
	"step": 4630
	},
	{
	"epoch": 9.726701570680628,
	"learning_rate": 0.00047356801693808104,
	"loss": 2.5800424575805665,
	"step": 4640
	},
	{
	"epoch": 9.747643979057592,
	"learning_rate": 0.0004745886376642407,
	"loss": 2.598635673522949,
	"step": 4650
	},
	{
	"epoch": 9.768586387434555,
	"learning_rate": 0.0004756092583904003,
	"loss": 2.615553283691406,
	"step": 4660
	},
	{
	"epoch": 9.789528795811519,
	"learning_rate": 0.00047662987911656,
	"loss": 2.582602882385254,
	"step": 4670
	},
	{
	"epoch": 9.810471204188481,
	"learning_rate": 0.00047765049984271966,
	"loss": 2.5848695755004885,
	"step": 4680
	},
	{
	"epoch": 9.831413612565445,
	"learning_rate": 0.00047867112056887933,
	"loss": 2.6057199478149413,
	"step": 4690
	},
	{
	"epoch": 9.852356020942409,
	"learning_rate": 0.000479691741295039,
	"loss": 2.6193204879760743,
	"step": 4700
	},
	{
	"epoch": 9.873298429319371,
	"learning_rate": 0.00048071236202119866,
	"loss": 2.6137775421142577,
	"step": 4710
	},
	{
	"epoch": 9.894240837696335,
	"learning_rate": 0.0004817329827473583,
	"loss": 2.613667678833008,
	"step": 4720
	},
	{
	"epoch": 9.915183246073298,
	"learning_rate": 0.00048275360347351795,
	"loss": 2.599857711791992,
	"step": 4730
	},
	{
	"epoch": 9.936125654450262,
	"learning_rate": 0.0004837742241996776,
	"loss": 2.579629325866699,
	"step": 4740
	},
	{
	"epoch": 9.957068062827226,
	"learning_rate": 0.0004847948449258373,
	"loss": 2.6212156295776365,
	"step": 4750
	},
	{
	"epoch": 9.978010471204188,
	"learning_rate": 0.00048581546565199695,
	"loss": 2.5806146621704102,
	"step": 4760
	},
	{
	"epoch": 9.998952879581152,
	"learning_rate": 0.0004868360863781566,
	"loss": 2.5807775497436523,
	"step": 4770
	},
	{
	"epoch": 9.998952879581152,
	"eval_loss": 2.604253053665161,
	"eval_runtime": 74.0972,
	"eval_samples_per_second": 147.86,
	"step": 4770
	},
	{
	"epoch": 10.020942408376964,
	"learning_rate": 0.00048785670710431623,
	"loss": 2.721482849121094,
	"step": 4780
	},
	{
	"epoch": 10.041884816753926,
	"learning_rate": 0.000488877327830476,
	"loss": 2.5954622268676757,
	"step": 4790
	},
	{
	"epoch": 10.06282722513089,
	"learning_rate": 0.0004898979485566356,
	"loss": 2.6108915328979494,
	"step": 4800
	},
	{
	"epoch": 10.083769633507853,
	"learning_rate": 0.0004909185692827952,
	"loss": 2.607802391052246,
	"step": 4810
	},
	{
	"epoch": 10.104712041884817,
	"learning_rate": 0.0004919391900089549,
	"loss": 2.594425010681152,
	"step": 4820
	},
	{
	"epoch": 10.12565445026178,
	"learning_rate": 0.0004929598107351145,
	"loss": 2.6012176513671874,
	"step": 4830
	},
	{
	"epoch": 10.146596858638743,
	"learning_rate": 0.0004939804314612742,
	"loss": 2.5987337112426756,
	"step": 4840
	},
	{
	"epoch": 10.167539267015707,
	"learning_rate": 0.0004950010521874339,
	"loss": 2.5843479156494142,
	"step": 4850
	},
	{
	"epoch": 10.188481675392671,
	"learning_rate": 0.0004960216729135935,
	"loss": 2.612710380554199,
	"step": 4860
	},
	{
	"epoch": 10.209424083769633,
	"learning_rate": 0.0004970422936397532,
	"loss": 2.608279991149902,
	"step": 4870
	},
	{
	"epoch": 10.230366492146597,
	"learning_rate": 0.0004980629143659128,
	"loss": 2.599015998840332,
	"step": 4880
	},
	{
	"epoch": 10.25130890052356,
	"learning_rate": 0.0004990835350920725,
	"loss": 2.6169193267822264,
	"step": 4890
	},
	{
	"epoch": 10.272251308900524,
	"learning_rate": 0.0005001041558182321,
	"loss": 2.5874061584472656,
	"step": 4900
	},
	{
	"epoch": 10.293193717277488,
	"learning_rate": 0.0005011247765443918,
	"loss": 2.5972221374511717,
	"step": 4910
	},
	{
	"epoch": 10.31413612565445,
	"learning_rate": 0.0005021453972705514,
	"loss": 2.592855453491211,
	"step": 4920
	},
	{
	"epoch": 10.335078534031414,
	"learning_rate": 0.0005031660179967111,
	"loss": 2.5813924789428713,
	"step": 4930
	},
	{
	"epoch": 10.356020942408376,
	"learning_rate": 0.0005041866387228707,
	"loss": 2.5748531341552736,
	"step": 4940
	},
	{
	"epoch": 10.37696335078534,
	"learning_rate": 0.0005052072594490304,
	"loss": 2.5954639434814455,
	"step": 4950
	},
	{
	"epoch": 10.397905759162304,
	"learning_rate": 0.00050622788017519,
	"loss": 2.5695329666137696,
	"step": 4960
	},
	{
	"epoch": 10.418848167539267,
	"learning_rate": 0.0005072485009013497,
	"loss": 2.5873296737670897,
	"step": 4970
	},
	{
	"epoch": 10.43979057591623,
	"learning_rate": 0.0005082691216275094,
	"loss": 2.6035577774047853,
	"step": 4980
	},
	{
	"epoch": 10.460732984293193,
	"learning_rate": 0.000509289742353669,
	"loss": 2.5872554779052734,
	"step": 4990
	},
	{
	"epoch": 10.481675392670157,
	"learning_rate": 0.0005103103630798287,
	"loss": 2.548787498474121,
	"step": 5000
	},
	{
	"epoch": 10.502617801047121,
	"learning_rate": 0.0005098008169087462,
	"loss": 2.5832122802734374,
	"step": 5010
	},
	{
	"epoch": 10.523560209424083,
	"learning_rate": 0.0005092927940452339,
	"loss": 2.5651966094970704,
	"step": 5020
	},
	{
	"epoch": 10.544502617801047,
	"learning_rate": 0.0005087862869144114,
	"loss": 2.5844688415527344,
	"step": 5030
	},
	{
	"epoch": 10.565445026178011,
	"learning_rate": 0.0005082812879940277,
	"loss": 2.5721431732177735,
	"step": 5040
	},
	{
	"epoch": 10.586387434554974,
	"learning_rate": 0.0005077777898139921,
	"loss": 2.59671630859375,
	"step": 5050
	},
	{
	"epoch": 10.607329842931938,
	"learning_rate": 0.0005072757849559103,
	"loss": 2.5834468841552733,
	"step": 5060
	},
	{
	"epoch": 10.6282722513089,
	"learning_rate": 0.0005067752660526248,
	"loss": 2.566558074951172,
	"step": 5070
	},
	{
	"epoch": 10.649214659685864,
	"learning_rate": 0.0005062762257877613,
	"loss": 2.579891395568848,
	"step": 5080
	},
	{
	"epoch": 10.670157068062828,
	"learning_rate": 0.0005057786568952791,
	"loss": 2.5753833770751955,
	"step": 5090
	},
	{
	"epoch": 10.69109947643979,
	"learning_rate": 0.000505282552159027,
	"loss": 2.5887382507324217,
	"step": 5100
	},
	{
	"epoch": 10.712041884816754,
	"learning_rate": 0.000504787904412304,
	"loss": 2.578693962097168,
	"step": 5110
	},
	{
	"epoch": 10.732984293193716,
	"learning_rate": 0.000504294706537424,
	"loss": 2.5702871322631835,
	"step": 5120
	},
	{
	"epoch": 10.75392670157068,
	"learning_rate": 0.0005038029514652858,
	"loss": 2.579792594909668,
	"step": 5130
	},
	{
	"epoch": 10.774869109947645,
	"learning_rate": 0.0005033126321749477,
	"loss": 2.5686906814575194,
	"step": 5140
	},
	{
	"epoch": 10.795811518324607,
	"learning_rate": 0.000502823741693206,
	"loss": 2.5612104415893553,
	"step": 5150
	},
	{
	"epoch": 10.81675392670157,
	"learning_rate": 0.0005023362730941793,
	"loss": 2.5499547958374023,
	"step": 5160
	},
	{
	"epoch": 10.837696335078533,
	"learning_rate": 0.0005018502194988955,
	"loss": 2.5822380065917967,
	"step": 5170
	},
	{
	"epoch": 10.858638743455497,
	"learning_rate": 0.0005013655740748848,
	"loss": 2.5612071990966796,
	"step": 5180
	},
	{
	"epoch": 10.879581151832461,
	"learning_rate": 0.0005008823300357761,
	"loss": 2.5559200286865233,
	"step": 5190
	},
	{
	"epoch": 10.900523560209423,
	"learning_rate": 0.0005004004806408972,
	"loss": 2.566044807434082,
	"step": 5200
	},
	{
	"epoch": 10.921465968586388,
	"learning_rate": 0.0004999200191948814,
	"loss": 2.5504446029663086,
	"step": 5210
	},
	{
	"epoch": 10.942408376963352,
	"learning_rate": 0.0004994409390472751,
	"loss": 2.5642301559448244,
	"step": 5220
	},
	{
	"epoch": 10.963350785340314,
	"learning_rate": 0.0004989632335921523,
	"loss": 2.560255241394043,
	"step": 5230
	},
	{
	"epoch": 10.984293193717278,
	"learning_rate": 0.0004984868962677315,
	"loss": 2.5622379302978517,
	"step": 5240
	},
	{
	"epoch": 10.998952879581152,
	"eval_loss": 2.5793886184692383,
	"eval_runtime": 73.6792,
	"eval_samples_per_second": 148.699,
	"step": 5247
	},
	{
	"epoch": 11.006282722513088,
	"learning_rate": 0.0004980119205559973,
	"loss": 2.682263946533203,
	"step": 5250
	},
	{
	"epoch": 11.027225130890052,
	"learning_rate": 0.0004975382999823259,
	"loss": 2.581485557556152,
	"step": 5260
	},
	{
	"epoch": 11.048167539267016,
	"learning_rate": 0.0004970660281151141,
	"loss": 2.5775730133056642,
	"step": 5270
	},
	{
	"epoch": 11.069109947643978,
	"learning_rate": 0.0004965950985654126,
	"loss": 2.587117385864258,
	"step": 5280
	},
	{
	"epoch": 11.090052356020943,
	"learning_rate": 0.0004961255049865635,
	"loss": 2.5482534408569335,
	"step": 5290
	},
	{
	"epoch": 11.110994764397907,
	"learning_rate": 0.0004956572410738401,
	"loss": 2.5464542388916014,
	"step": 5300
	},
	{
	"epoch": 11.131937172774869,
	"learning_rate": 0.000495190300564092,
	"loss": 2.557751274108887,
	"step": 5310
	},
	{
	"epoch": 11.152879581151833,
	"learning_rate": 0.0004947246772353933,
	"loss": 2.54296932220459,
	"step": 5320
	},
	{
	"epoch": 11.173821989528795,
	"learning_rate": 0.0004942603649066942,
	"loss": 2.576173782348633,
	"step": 5330
	},
	{
	"epoch": 11.19476439790576,
	"learning_rate": 0.0004937973574374762,
	"loss": 2.535029411315918,
	"step": 5340
	},
	{
	"epoch": 11.215706806282723,
	"learning_rate": 0.0004933356487274114,
	"loss": 2.551316833496094,
	"step": 5350
	},
	{
	"epoch": 11.236649214659685,
	"learning_rate": 0.0004928752327160248,
	"loss": 2.551384925842285,
	"step": 5360
	},
	{
	"epoch": 11.25759162303665,
	"learning_rate": 0.0004924161033823598,
	"loss": 2.5437076568603514,
	"step": 5370
	},
	{
	"epoch": 11.278534031413612,
	"learning_rate": 0.0004919582547446482,
	"loss": 2.5423688888549805,
	"step": 5380
	},
	{
	"epoch": 11.299476439790576,
	"learning_rate": 0.0004915016808599824,
	"loss": 2.5350723266601562,
	"step": 5390
	},
	{
	"epoch": 11.32041884816754,
	"learning_rate": 0.0004910463758239914,
	"loss": 2.5370588302612305,
	"step": 5400
	},
	{
	"epoch": 11.341361256544502,
	"learning_rate": 0.0004905923337705201,
	"loss": 2.5458969116210937,
	"step": 5410
	},
	{
	"epoch": 11.362303664921466,
	"learning_rate": 0.0004901395488713123,
	"loss": 2.5638805389404298,
	"step": 5420
	},
	{
	"epoch": 11.38324607329843,
	"learning_rate": 0.0004896880153356963,
	"loss": 2.5516336441040037,
	"step": 5430
	},
	{
	"epoch": 11.404188481675392,
	"learning_rate": 0.000489237727410273,
	"loss": 2.559841346740723,
	"step": 5440
	},
	{
	"epoch": 11.425130890052356,
	"learning_rate": 0.0004887886793786093,
	"loss": 2.559991645812988,
	"step": 5450
	},
	{
	"epoch": 11.446073298429319,
	"learning_rate": 0.0004883408655609327,
	"loss": 2.5499288558959963,
	"step": 5460
	},
	{
	"epoch": 11.467015706806283,
	"learning_rate": 0.0004878942803138293,
	"loss": 2.544484519958496,
	"step": 5470
	},
	{
	"epoch": 11.487958115183247,
	"learning_rate": 0.0004874489180299454,
	"loss": 2.537228584289551,
	"step": 5480
	},
	{
	"epoch": 11.508900523560209,
	"learning_rate": 0.00048700477313769213,
	"loss": 2.5507528305053713,
	"step": 5490
	},
	{
	"epoch": 11.529842931937173,
	"learning_rate": 0.00048656184010095185,
	"loss": 2.5349197387695312,
	"step": 5500
	},
	{
	"epoch": 11.550785340314135,
	"learning_rate": 0.00048612011341878916,
	"loss": 2.5785711288452147,
	"step": 5510
	},
	{
	"epoch": 11.5717277486911,
	"learning_rate": 0.0004856795876251634,
	"loss": 2.5618894577026365,
	"step": 5520
	},
	{
	"epoch": 11.592670157068063,
	"learning_rate": 0.00048524025728864493,
	"loss": 2.553698921203613,
	"step": 5530
	},
	{
	"epoch": 11.613612565445026,
	"learning_rate": 0.0004848021170121335,
	"loss": 2.563484954833984,
	"step": 5540
	},
	{
	"epoch": 11.63455497382199,
	"learning_rate": 0.0004843651614325803,
	"loss": 2.5655393600463867,
	"step": 5550
	},
	{
	"epoch": 11.655497382198952,
	"learning_rate": 0.00048392938522071163,
	"loss": 2.550769233703613,
	"step": 5560
	},
	{
	"epoch": 11.676439790575916,
	"learning_rate": 0.0004834947830807563,
	"loss": 2.549762725830078,
	"step": 5570
	},
	{
	"epoch": 11.69738219895288,
	"learning_rate": 0.00048306134975017523,
	"loss": 2.5488073348999025,
	"step": 5580
	},
	{
	"epoch": 11.718324607329842,
	"learning_rate": 0.0004826290799993939,
	"loss": 2.554892158508301,
	"step": 5590
	},
	{
	"epoch": 11.739267015706806,
	"learning_rate": 0.0004821979686315372,
	"loss": 2.519801902770996,
	"step": 5600
	},
	{
	"epoch": 11.76020942408377,
	"learning_rate": 0.00048176801048216693,
	"loss": 2.541176414489746,
	"step": 5610
	},
	{
	"epoch": 11.781151832460733,
	"learning_rate": 0.0004813392004190223,
	"loss": 2.52908878326416,
	"step": 5620
	},
	{
	"epoch": 11.802094240837697,
	"learning_rate": 0.00048091153334176224,
	"loss": 2.5230037689208986,
	"step": 5630
	},
	{
	"epoch": 11.823036649214659,
	"learning_rate": 0.00048048500418171097,
	"loss": 2.5191682815551757,
	"step": 5640
	},
	{
	"epoch": 11.843979057591623,
	"learning_rate": 0.0004800596079016053,
	"loss": 2.553547668457031,
	"step": 5650
	},
	{
	"epoch": 11.864921465968587,
	"learning_rate": 0.0004796353394953452,
	"loss": 2.5445688247680662,
	"step": 5660
	},
	{
	"epoch": 11.88586387434555,
	"learning_rate": 0.0004792121939877459,
	"loss": 2.554265022277832,
	"step": 5670
	},
	{
	"epoch": 11.906806282722513,
	"learning_rate": 0.00047879016643429336,
	"loss": 2.5312326431274412,
	"step": 5680
	},
	{
	"epoch": 11.927748691099476,
	"learning_rate": 0.00047836925192090116,
	"loss": 2.54235897064209,
	"step": 5690
	},
	{
	"epoch": 11.94869109947644,
	"learning_rate": 0.0004779494455636703,
	"loss": 2.5591432571411135,
	"step": 5700
	},
	{
	"epoch": 11.969633507853404,
	"learning_rate": 0.00047753074250865145,
	"loss": 2.5049566268920898,
	"step": 5710
	},
	{
	"epoch": 11.990575916230366,
	"learning_rate": 0.00047711313793160877,
	"loss": 2.5459238052368165,
	"step": 5720
	},
	{
	"epoch": 11.998952879581152,
	"eval_loss": 2.5662965774536133,
	"eval_runtime": 74.2325,
	"eval_samples_per_second": 147.59,
	"step": 5724
	},
	{
	"epoch": 12.012565445026178,
	"learning_rate": 0.000476696627037787,
	"loss": 2.6624425888061523,
	"step": 5730
	},
	{
	"epoch": 12.033507853403142,
	"learning_rate": 0.0004762812050616797,
	"loss": 2.5242809295654296,
	"step": 5740
	},
	{
	"epoch": 12.054450261780104,
	"learning_rate": 0.0004758668672668006,
	"loss": 2.541863441467285,
	"step": 5750
	},
	{
	"epoch": 12.075392670157068,
	"learning_rate": 0.00047545360894545664,
	"loss": 2.5424705505371095,
	"step": 5760
	},
	{
	"epoch": 12.09633507853403,
	"learning_rate": 0.0004750414254185235,
	"loss": 2.5307668685913085,
	"step": 5770
	},
	{
	"epoch": 12.117277486910995,
	"learning_rate": 0.0004746303120352226,
	"loss": 2.5350624084472657,
	"step": 5780
	},
	{
	"epoch": 12.138219895287959,
	"learning_rate": 0.00047422026417290146,
	"loss": 2.5554269790649413,
	"step": 5790
	},
	{
	"epoch": 12.159162303664921,
	"learning_rate": 0.0004738112772368146,
	"loss": 2.5168834686279298,
	"step": 5800
	},
	{
	"epoch": 12.180104712041885,
	"learning_rate": 0.00047340334665990787,
	"loss": 2.531605529785156,
	"step": 5810
	},
	{
	"epoch": 12.201047120418847,
	"learning_rate": 0.0004729964679026039,
	"loss": 2.515584373474121,
	"step": 5820
	},
	{
	"epoch": 12.221989528795811,
	"learning_rate": 0.0004725906364525903,
	"loss": 2.522596549987793,
	"step": 5830
	},
	{
	"epoch": 12.242931937172775,
	"learning_rate": 0.0004721858478246089,
	"loss": 2.5171236038208007,
	"step": 5840
	},
	{
	"epoch": 12.263874345549738,
	"learning_rate": 0.0004717820975602482,
	"loss": 2.529332160949707,
	"step": 5850
	},
	{
	"epoch": 12.284816753926702,
	"learning_rate": 0.0004713793812277367,
	"loss": 2.5047964096069335,
	"step": 5860
	},
	{
	"epoch": 12.305759162303666,
	"learning_rate": 0.00047097769442173856,
	"loss": 2.518666458129883,
	"step": 5870
	},
	{
	"epoch": 12.326701570680628,
	"learning_rate": 0.00047057703276315164,
	"loss": 2.5095588684082033,
	"step": 5880
	},
	{
	"epoch": 12.347643979057592,
	"learning_rate": 0.0004701773918989065,
	"loss": 2.5557069778442383,
	"step": 5890
	},
	{
	"epoch": 12.368586387434554,
	"learning_rate": 0.00046977876750176805,
	"loss": 2.5204561233520506,
	"step": 5900
	},
	{
	"epoch": 12.389528795811518,
	"learning_rate": 0.0004693811552701385,
	"loss": 2.5440658569335937,
	"step": 5910
	},
	{
	"epoch": 12.410471204188482,
	"learning_rate": 0.0004689845509278626,
	"loss": 2.5195499420166017,
	"step": 5920
	},
	{
	"epoch": 12.431413612565445,
	"learning_rate": 0.00046858895022403474,
	"loss": 2.506319999694824,
	"step": 5930
	},
	{
	"epoch": 12.452356020942409,
	"learning_rate": 0.000468194348932807,
	"loss": 2.507068061828613,
	"step": 5940
	},
	{
	"epoch": 12.473298429319371,
	"learning_rate": 0.00046780074285319984,
	"loss": 2.559153938293457,
	"step": 5950
	},
	{
	"epoch": 12.494240837696335,
	"learning_rate": 0.0004674081278089144,
	"loss": 2.5483341217041016,
	"step": 5960
	},
	{
	"epoch": 12.515183246073299,
	"learning_rate": 0.00046701649964814616,
	"loss": 2.523490333557129,
	"step": 5970
	},
	{
	"epoch": 12.536125654450261,
	"learning_rate": 0.0004666258542434007,
	"loss": 2.511086654663086,
	"step": 5980
	},
	{
	"epoch": 12.557068062827225,
	"learning_rate": 0.000466236187491311,
	"loss": 2.525220489501953,
	"step": 5990
	},
	{
	"epoch": 12.578010471204188,
	"learning_rate": 0.00046584749531245617,
	"loss": 2.5341968536376953,
	"step": 6000
	},
	{
	"epoch": 12.598952879581152,
	"learning_rate": 0.0004654597736511823,
	"loss": 2.517439842224121,
	"step": 6010
	},
	{
	"epoch": 12.619895287958116,
	"learning_rate": 0.0004650730184754247,
	"loss": 2.535861778259277,
	"step": 6020
	},
	{
	"epoch": 12.640837696335078,
	"learning_rate": 0.0004646872257765318,
	"loss": 2.5128170013427735,
	"step": 6030
	},
	{
	"epoch": 12.661780104712042,
	"learning_rate": 0.00046430239156909045,
	"loss": 2.5013412475585937,
	"step": 6040
	},
	{
	"epoch": 12.682722513089006,
	"learning_rate": 0.00046391851189075343,
	"loss": 2.492375373840332,
	"step": 6050
	},
	{
	"epoch": 12.703664921465968,
	"learning_rate": 0.00046353558280206746,
	"loss": 2.533987045288086,
	"step": 6060
	},
	{
	"epoch": 12.724607329842932,
	"learning_rate": 0.00046315360038630404,
	"loss": 2.5339818954467774,
	"step": 6070
	},
	{
	"epoch": 12.745549738219895,
	"learning_rate": 0.0004627725607492909,
	"loss": 2.5307100296020506,
	"step": 6080
	},
	{
	"epoch": 12.766492146596859,
	"learning_rate": 0.00046239246001924503,
	"loss": 2.5334211349487306,
	"step": 6090
	},
	{
	"epoch": 12.787434554973823,
	"learning_rate": 0.000462013294346608,
	"loss": 2.524607849121094,
	"step": 6100
	},
	{
	"epoch": 12.808376963350785,
	"learning_rate": 0.00046163505990388167,
	"loss": 2.5250701904296875,
	"step": 6110
	},
	{
	"epoch": 12.829319371727749,
	"learning_rate": 0.00046125775288546623,
	"loss": 2.514480400085449,
	"step": 6120
	},
	{
	"epoch": 12.850261780104713,
	"learning_rate": 0.00046088136950749937,
	"loss": 2.506093215942383,
	"step": 6130
	},
	{
	"epoch": 12.871204188481675,
	"learning_rate": 0.0004605059060076967,
	"loss": 2.5329927444458007,
	"step": 6140
	},
	{
	"epoch": 12.89214659685864,
	"learning_rate": 0.0004601313586451939,
	"loss": 2.5250947952270506,
	"step": 6150
	},
	{
	"epoch": 12.913089005235602,
	"learning_rate": 0.00045975772370039034,
	"loss": 2.535073471069336,
	"step": 6160
	},
	{
	"epoch": 12.934031413612566,
	"learning_rate": 0.0004593849974747937,
	"loss": 2.524639892578125,
	"step": 6170
	},
	{
	"epoch": 12.95497382198953,
	"learning_rate": 0.0004590131762908664,
	"loss": 2.509628486633301,
	"step": 6180
	},
	{
	"epoch": 12.975916230366492,
	"learning_rate": 0.00045864225649187287,
	"loss": 2.5401321411132813,
	"step": 6190
	},
	{
	"epoch": 12.996858638743456,
	"learning_rate": 0.000458272234441729,
	"loss": 2.512648582458496,
	"step": 6200
	},
	{
	"epoch": 12.998952879581152,
	"eval_loss": 2.558600902557373,
	"eval_runtime": 73.5975,
	"eval_samples_per_second": 148.864,
	"step": 6201
	},
	{
	"epoch": 13.018848167539266,
	"learning_rate": 0.00045790310652485205,
	"loss": 2.6353900909423826,
	"step": 6210
	},
	{
	"epoch": 13.03979057591623,
	"learning_rate": 0.0004575348691460124,
	"loss": 2.519637870788574,
	"step": 6220
	},
	{
	"epoch": 13.060732984293194,
	"learning_rate": 0.00045716751873018654,
	"loss": 2.515974426269531,
	"step": 6230
	},
	{
	"epoch": 13.081675392670157,
	"learning_rate": 0.00045680105172241103,
	"loss": 2.5275392532348633,
	"step": 6240
	},
	{
	"epoch": 13.10261780104712,
	"learning_rate": 0.0004564354645876384,
	"loss": 2.518478012084961,
	"step": 6250
	},
	{
	"epoch": 13.123560209424085,
	"learning_rate": 0.00045607075381059363,
	"loss": 2.506203460693359,
	"step": 6260
	},
	{
	"epoch": 13.144502617801047,
	"learning_rate": 0.00045570691589563234,
	"loss": 2.501953125,
	"step": 6270
	},
	{
	"epoch": 13.165445026178011,
	"learning_rate": 0.0004553439473666,
	"loss": 2.536935234069824,
	"step": 6280
	},
	{
	"epoch": 13.186387434554973,
	"learning_rate": 0.0004549818447666924,
	"loss": 2.500376892089844,
	"step": 6290
	},
	{
	"epoch": 13.207329842931937,
	"learning_rate": 0.00045462060465831743,
	"loss": 2.507547950744629,
	"step": 6300
	},
	{
	"epoch": 13.228272251308901,
	"learning_rate": 0.0004542602236229581,
	"loss": 2.50396842956543,
	"step": 6310
	},
	{
	"epoch": 13.249214659685864,
	"learning_rate": 0.00045390069826103653,
	"loss": 2.4975730895996096,
	"step": 6320
	},
	{
	"epoch": 13.270157068062828,
	"learning_rate": 0.00045354202519177925,
	"loss": 2.5031005859375,
	"step": 6330
	},
	{
	"epoch": 13.29109947643979,
	"learning_rate": 0.0004531842010530839,
	"loss": 2.5102792739868165,
	"step": 6340
	},
	{
	"epoch": 13.312041884816754,
	"learning_rate": 0.0004528272225013865,
	"loss": 2.510196876525879,
	"step": 6350
	},
	{
	"epoch": 13.332984293193718,
	"learning_rate": 0.00045247108621153056,
	"loss": 2.529274559020996,
	"step": 6360
	},
	{
	"epoch": 13.35392670157068,
	"learning_rate": 0.0004521157888766368,
	"loss": 2.5169746398925783,
	"step": 6370
	},
	{
	"epoch": 13.374869109947644,
	"learning_rate": 0.00045176132720797443,
	"loss": 2.4974170684814454,
	"step": 6380
	},
	{
	"epoch": 13.395811518324606,
	"learning_rate": 0.0004514076979348328,
	"loss": 2.4937871932983398,
	"step": 6390
	},
	{
	"epoch": 13.41675392670157,
	"learning_rate": 0.0004510548978043951,
	"loss": 2.4988937377929688,
	"step": 6400
	},
	{
	"epoch": 13.437696335078535,
	"learning_rate": 0.00045070292358161265,
	"loss": 2.5192642211914062,
	"step": 6410
	},
	{
	"epoch": 13.458638743455497,
	"learning_rate": 0.0004503517720490801,
	"loss": 2.515308380126953,
	"step": 6420
	},
	{
	"epoch": 13.47958115183246,
	"learning_rate": 0.000450001440006912,
	"loss": 2.4873653411865235,
	"step": 6430
	},
	{
	"epoch": 13.500523560209425,
	"learning_rate": 0.00044965192427262043,
	"loss": 2.4860763549804688,
	"step": 6440
	},
	{
	"epoch": 13.521465968586387,
	"learning_rate": 0.0004493032216809934,
	"loss": 2.4914045333862305,
	"step": 6450
	},
	{
	"epoch": 13.542408376963351,
	"learning_rate": 0.00044895532908397455,
	"loss": 2.505444145202637,
	"step": 6460
	},
	{
	"epoch": 13.563350785340313,
	"learning_rate": 0.00044860824335054384,
	"loss": 2.484037971496582,
	"step": 6470
	},
	{
	"epoch": 13.584293193717278,
	"learning_rate": 0.00044826196136659916,
	"loss": 2.4801618576049806,
	"step": 6480
	},
	{
	"epoch": 13.605235602094242,
	"learning_rate": 0.00044791648003483884,
	"loss": 2.497146415710449,
	"step": 6490
	},
	{
	"epoch": 13.626178010471204,
	"learning_rate": 0.0004475717962746455,
	"loss": 2.510635757446289,
	"step": 6500
	},
	{
	"epoch": 13.647120418848168,
	"learning_rate": 0.0004472279070219706,
	"loss": 2.5058326721191406,
	"step": 6510
	},
	{
	"epoch": 13.66806282722513,
	"learning_rate": 0.00044688480922922,
	"loss": 2.490641975402832,
	"step": 6520
	},
	{
	"epoch": 13.689005235602094,
	"learning_rate": 0.00044654249986514057,
	"loss": 2.4954011917114256,
	"step": 6530
	},
	{
	"epoch": 13.709947643979058,
	"learning_rate": 0.0004462009759147076,
	"loss": 2.496523857116699,
	"step": 6540
	},
	{
	"epoch": 13.73089005235602,
	"learning_rate": 0.0004458602343790135,
	"loss": 2.4896028518676756,
	"step": 6550
	},
	{
	"epoch": 13.751832460732984,
	"learning_rate": 0.00044552027227515704,
	"loss": 2.490574836730957,
	"step": 6560
	},
	{
	"epoch": 13.772774869109949,
	"learning_rate": 0.00044518108663613355,
	"loss": 2.4956533432006838,
	"step": 6570
	},
	{
	"epoch": 13.79371727748691,
	"learning_rate": 0.00044484267451072644,
	"loss": 2.5057823181152346,
	"step": 6580
	},
	{
	"epoch": 13.814659685863875,
	"learning_rate": 0.0004445050329633992,
	"loss": 2.493949127197266,
	"step": 6590
	},
	{
	"epoch": 13.835602094240837,
	"learning_rate": 0.0004441681590741884,
	"loss": 2.514782524108887,
	"step": 6600
	},
	{
	"epoch": 13.856544502617801,
	"learning_rate": 0.0004438320499385977,
	"loss": 2.463920783996582,
	"step": 6610
	},
	{
	"epoch": 13.877486910994765,
	"learning_rate": 0.00044349670266749286,
	"loss": 2.494730567932129,
	"step": 6620
	},
	{
	"epoch": 13.898429319371727,
	"learning_rate": 0.0004431621143869969,
	"loss": 2.4927881240844725,
	"step": 6630
	},
	{
	"epoch": 13.919371727748691,
	"learning_rate": 0.00044282828223838727,
	"loss": 2.5001829147338865,
	"step": 6640
	},
	{
	"epoch": 13.940314136125654,
	"learning_rate": 0.0004424952033779929,
	"loss": 2.485161018371582,
	"step": 6650
	},
	{
	"epoch": 13.961256544502618,
	"learning_rate": 0.00044216287497709253,
	"loss": 2.4990121841430666,
	"step": 6660
	},
	{
	"epoch": 13.982198952879582,
	"learning_rate": 0.0004418312942218139,
	"loss": 2.478795051574707,
	"step": 6670
	},
	{
	"epoch": 13.998952879581152,
	"eval_loss": 2.551051616668701,
	"eval_runtime": 73.8418,
	"eval_samples_per_second": 148.371,
	"step": 6678
	},
	{
	"epoch": 14.004188481675392,
	"learning_rate": 0.0004415004583130336,
	"loss": 2.631510925292969,
	"step": 6680
	},
	{
	"epoch": 14.025130890052356,
	"learning_rate": 0.0004411703644662778,
	"loss": 2.46261043548584,
	"step": 6690
	},
	{
	"epoch": 14.04607329842932,
	"learning_rate": 0.00044084100991162385,
	"loss": 2.488113212585449,
	"step": 6700
	},
	{
	"epoch": 14.067015706806282,
	"learning_rate": 0.00044051239189360286,
	"loss": 2.4580398559570313,
	"step": 6710
	},
	{
	"epoch": 14.087958115183246,
	"learning_rate": 0.00044018450767110235,
	"loss": 2.482432174682617,
	"step": 6720
	},
	{
	"epoch": 14.108900523560209,
	"learning_rate": 0.0004398573545172709,
	"loss": 2.4827293395996093,
	"step": 6730
	},
	{
	"epoch": 14.129842931937173,
	"learning_rate": 0.0004395309297194223,
	"loss": 2.472520637512207,
	"step": 6740
	},
	{
	"epoch": 14.150785340314137,
	"learning_rate": 0.0004392052305789416,
	"loss": 2.47951602935791,
	"step": 6750
	},
	{
	"epoch": 14.171727748691099,
	"learning_rate": 0.0004388802544111908,
	"loss": 2.4616981506347657,
	"step": 6760
	},
	{
	"epoch": 14.192670157068063,
	"learning_rate": 0.0004385559985454165,
	"loss": 2.4829242706298826,
	"step": 6770
	},
	{
	"epoch": 14.213612565445025,
	"learning_rate": 0.0004382324603246575,
	"loss": 2.478873634338379,
	"step": 6780
	},
	{
	"epoch": 14.23455497382199,
	"learning_rate": 0.0004379096371056532,
	"loss": 2.4993722915649412,
	"step": 6790
	},
	{
	"epoch": 14.255497382198953,
	"learning_rate": 0.000437587526258753,
	"loss": 2.474994659423828,
	"step": 6800
	},
	{
	"epoch": 14.276439790575916,
	"learning_rate": 0.0004372661251678265,
	"loss": 2.495197296142578,
	"step": 6810
	},
	{
	"epoch": 14.29738219895288,
	"learning_rate": 0.00043694543123017407,
	"loss": 2.476504325866699,
	"step": 6820
	},
	{
	"epoch": 14.318324607329842,
	"learning_rate": 0.0004366254418564382,
	"loss": 2.5161060333251952,
	"step": 6830
	},
	{
	"epoch": 14.339267015706806,
	"learning_rate": 0.0004363061544705161,
	"loss": 2.4868789672851563,
	"step": 6840
	},
	{
	"epoch": 14.36020942408377,
	"learning_rate": 0.0004359875665094723,
	"loss": 2.4974212646484375,
	"step": 6850
	},
	{
	"epoch": 14.381151832460732,
	"learning_rate": 0.00043566967542345227,
	"loss": 2.4662216186523436,
	"step": 6860
	},
	{
	"epoch": 14.402094240837696,
	"learning_rate": 0.00043535247867559673,
	"loss": 2.469373321533203,
	"step": 6870
	},
	{
	"epoch": 14.42303664921466,
	"learning_rate": 0.00043503597374195665,
	"loss": 2.483184242248535,
	"step": 6880
	},
	{
	"epoch": 14.443979057591623,
	"learning_rate": 0.0004347201581114088,
	"loss": 2.4689809799194338,
	"step": 6890
	},
	{
	"epoch": 14.464921465968587,
	"learning_rate": 0.0004344050292855724,
	"loss": 2.439427375793457,
	"step": 6900
	},
	{
	"epoch": 14.485863874345549,
	"learning_rate": 0.00043409058477872554,
	"loss": 2.47011775970459,
	"step": 6910
	},
	{
	"epoch": 14.506806282722513,
	"learning_rate": 0.00043377682211772343,
	"loss": 2.4866916656494142,
	"step": 6920
	},
	{
	"epoch": 14.527748691099477,
	"learning_rate": 0.0004334637388419161,
	"loss": 2.4834897994995115,
	"step": 6930
	},
	{
	"epoch": 14.54869109947644,
	"learning_rate": 0.0004331513325030681,
	"loss": 2.5011289596557615,
	"step": 6940
	},
	{
	"epoch": 14.569633507853403,
	"learning_rate": 0.0004328396006652773,
	"loss": 2.478676986694336,
	"step": 6950
	},
	{
	"epoch": 14.590575916230367,
	"learning_rate": 0.00043252854090489564,
	"loss": 2.4692920684814452,
	"step": 6960
	},
	{
	"epoch": 14.61151832460733,
	"learning_rate": 0.00043221815081044985,
	"loss": 2.492611122131348,
	"step": 6970
	},
	{
	"epoch": 14.632460732984294,
	"learning_rate": 0.00043190842798256285,
	"loss": 2.4726083755493162,
	"step": 6980
	},
	{
	"epoch": 14.653403141361256,
	"learning_rate": 0.00043159937003387584,
	"loss": 2.491672706604004,
	"step": 6990
	},
	{
	"epoch": 14.67434554973822,
	"learning_rate": 0.00043129097458897135,
	"loss": 2.474324417114258,
	"step": 7000
	},
	{
	"epoch": 14.695287958115184,
	"learning_rate": 0.000430983239284296,
	"loss": 2.4726449966430666,
	"step": 7010
	},
	{
	"epoch": 14.716230366492146,
	"learning_rate": 0.0004306761617680849,
	"loss": 2.456452178955078,
	"step": 7020
	},
	{
	"epoch": 14.73717277486911,
	"learning_rate": 0.00043036973970028583,
	"loss": 2.4777704238891602,
	"step": 7030
	},
	{
	"epoch": 14.758115183246073,
	"learning_rate": 0.00043006397075248464,
	"loss": 2.492514801025391,
	"step": 7040
	},
	{
	"epoch": 14.779057591623037,
	"learning_rate": 0.00042975885260783056,
	"loss": 2.464923095703125,
	"step": 7050
	},
	{
	"epoch": 14.8,
	"learning_rate": 0.00042945438296096303,
	"loss": 2.4520200729370116,
	"step": 7060
	},
	{
	"epoch": 14.820942408376963,
	"learning_rate": 0.0004291505595179379,
	"loss": 2.461465072631836,
	"step": 7070
	},
	{
	"epoch": 14.841884816753927,
	"learning_rate": 0.0004288473799961553,
	"loss": 2.474461555480957,
	"step": 7080
	},
	{
	"epoch": 14.86282722513089,
	"learning_rate": 0.0004285448421242875,
	"loss": 2.474432945251465,
	"step": 7090
	},
	{
	"epoch": 14.883769633507853,
	"learning_rate": 0.00042824294364220724,
	"loss": 2.506844329833984,
	"step": 7100
	},
	{
	"epoch": 14.904712041884817,
	"learning_rate": 0.0004279416823009172,
	"loss": 2.466670036315918,
	"step": 7110
	},
	{
	"epoch": 14.92565445026178,
	"learning_rate": 0.0004276410558624791,
	"loss": 2.4866743087768555,
	"step": 7120
	},
	{
	"epoch": 14.946596858638744,
	"learning_rate": 0.0004273410620999446,
	"loss": 2.4524404525756838,
	"step": 7130
	},
	{
	"epoch": 14.967539267015706,
	"learning_rate": 0.0004270416987972853,
	"loss": 2.4684980392456053,
	"step": 7140
	},
	{
	"epoch": 14.98848167539267,
	"learning_rate": 0.00042674296374932424,
	"loss": 2.469831848144531,
	"step": 7150
	},
	{
	"epoch": 14.998952879581152,
	"eval_loss": 2.5442276000976562,
	"eval_runtime": 73.9909,
	"eval_samples_per_second": 148.072,
	"step": 7155
	},
	{
	"epoch": 15.010471204188482,
	"learning_rate": 0.0004264448547616681,
	"loss": 2.5812490463256834,
	"step": 7160
	},
	{
	"epoch": 15.031413612565444,
	"learning_rate": 0.00042614736965063864,
	"loss": 2.4873594284057616,
	"step": 7170
	},
	{
	"epoch": 15.052356020942408,
	"learning_rate": 0.0004258505062432064,
	"loss": 2.4659671783447266,
	"step": 7180
	},
	{
	"epoch": 15.073298429319372,
	"learning_rate": 0.0004255542623769234,
	"loss": 2.4558393478393556,
	"step": 7190
	},
	{
	"epoch": 15.094240837696335,
	"learning_rate": 0.00042525863589985727,
	"loss": 2.4745227813720705,
	"step": 7200
	},
	{
	"epoch": 15.115183246073299,
	"learning_rate": 0.00042496362467052564,
	"loss": 2.4763622283935547,
	"step": 7210
	},
	{
	"epoch": 15.136125654450261,
	"learning_rate": 0.00042466922655783073,
	"loss": 2.4713407516479493,
	"step": 7220
	},
	{
	"epoch": 15.157068062827225,
	"learning_rate": 0.00042437543944099504,
	"loss": 2.4634868621826174,
	"step": 7230
	},
	{
	"epoch": 15.178010471204189,
	"learning_rate": 0.00042408226120949674,
	"loss": 2.476248931884766,
	"step": 7240
	},
	{
	"epoch": 15.198952879581151,
	"learning_rate": 0.00042378968976300647,
	"loss": 2.4730270385742186,
	"step": 7250
	},
	{
	"epoch": 15.219895287958115,
	"learning_rate": 0.00042349772301132377,
	"loss": 2.476571273803711,
	"step": 7260
	},
	{
	"epoch": 15.24083769633508,
	"learning_rate": 0.0004232063588743146,
	"loss": 2.4510690689086916,
	"step": 7270
	},
	{
	"epoch": 15.261780104712042,
	"learning_rate": 0.00042291559528184904,
	"loss": 2.465399742126465,
	"step": 7280
	},
	{
	"epoch": 15.282722513089006,
	"learning_rate": 0.0004226254301737393,
	"loss": 2.4773502349853516,
	"step": 7290
	},
	{
	"epoch": 15.303664921465968,
	"learning_rate": 0.0004223358614996787,
	"loss": 2.43621711730957,
	"step": 7300
	},
	{
	"epoch": 15.324607329842932,
	"learning_rate": 0.00042204688721918075,
	"loss": 2.456114959716797,
	"step": 7310
	},
	{
	"epoch": 15.345549738219896,
	"learning_rate": 0.0004217585053015187,
	"loss": 2.468073844909668,
	"step": 7320
	},
	{
	"epoch": 15.366492146596858,
	"learning_rate": 0.0004214707137256656,
	"loss": 2.471833419799805,
	"step": 7330
	},
	{
	"epoch": 15.387434554973822,
	"learning_rate": 0.0004211835104802349,
	"loss": 2.499461364746094,
	"step": 7340
	},
	{
	"epoch": 15.408376963350785,
	"learning_rate": 0.00042089689356342115,
	"loss": 2.4492721557617188,
	"step": 7350
	},
	{
	"epoch": 15.429319371727749,
	"learning_rate": 0.0004206108609829418,
	"loss": 2.4671262741088866,
	"step": 7360
	},
	{
	"epoch": 15.450261780104713,
	"learning_rate": 0.00042032541075597875,
	"loss": 2.465005111694336,
	"step": 7370
	},
	{
	"epoch": 15.471204188481675,
	"learning_rate": 0.0004200405409091207,
	"loss": 2.4648488998413085,
	"step": 7380
	},
	{
	"epoch": 15.492146596858639,
	"learning_rate": 0.00041975624947830593,
	"loss": 2.463612174987793,
	"step": 7390
	},
	{
	"epoch": 15.513089005235603,
	"learning_rate": 0.00041947253450876515,
	"loss": 2.4697538375854493,
	"step": 7400
	},
	{
	"epoch": 15.534031413612565,
	"learning_rate": 0.00041918939405496546,
	"loss": 2.45694637298584,
	"step": 7410
	},
	{
	"epoch": 15.55497382198953,
	"learning_rate": 0.00041890682618055396,
	"loss": 2.4443153381347655,
	"step": 7420
	},
	{
	"epoch": 15.575916230366492,
	"learning_rate": 0.0004186248289583023,
	"loss": 2.445983123779297,
	"step": 7430
	},
	{
	"epoch": 15.596858638743456,
	"learning_rate": 0.00041834340047005144,
	"loss": 2.489885711669922,
	"step": 7440
	},
	{
	"epoch": 15.61780104712042,
	"learning_rate": 0.0004180625388066569,
	"loss": 2.4711660385131835,
	"step": 7450
	},
	{
	"epoch": 15.638743455497382,
	"learning_rate": 0.00041778224206793433,
	"loss": 2.4884315490722657,
	"step": 7460
	},
	{
	"epoch": 15.659685863874346,
	"learning_rate": 0.00041750250836260536,
	"loss": 2.477284240722656,
	"step": 7470
	},
	{
	"epoch": 15.680628272251308,
	"learning_rate": 0.0004172233358082443,
	"loss": 2.475067901611328,
	"step": 7480
	},
	{
	"epoch": 15.701570680628272,
	"learning_rate": 0.00041694472253122467,
	"loss": 2.482602119445801,
	"step": 7490
	},
	{
	"epoch": 15.722513089005236,
	"learning_rate": 0.00041666666666666664,
	"loss": 2.442608642578125,
	"step": 7500
	},
	{
	"epoch": 15.743455497382199,
	"learning_rate": 0.0004163891663583843,
	"loss": 2.468288040161133,
	"step": 7510
	},
	{
	"epoch": 15.764397905759163,
	"learning_rate": 0.00041611221975883396,
	"loss": 2.4465059280395507,
	"step": 7520
	},
	{
	"epoch": 15.785340314136125,
	"learning_rate": 0.00041583582502906203,
	"loss": 2.4614633560180663,
	"step": 7530
	},
	{
	"epoch": 15.806282722513089,
	"learning_rate": 0.0004155599803386543,
	"loss": 2.4629968643188476,
	"step": 7540
	},
	{
	"epoch": 15.827225130890053,
	"learning_rate": 0.0004152846838656846,
	"loss": 2.454400062561035,
	"step": 7550
	},
	{
	"epoch": 15.848167539267015,
	"learning_rate": 0.00041500993379666443,
	"loss": 2.467230224609375,
	"step": 7560
	},
	{
	"epoch": 15.86910994764398,
	"learning_rate": 0.0004147357283264927,
	"loss": 2.442008209228516,
	"step": 7570
	},
	{
	"epoch": 15.890052356020943,
	"learning_rate": 0.000414462065658406,
	"loss": 2.4506603240966798,
	"step": 7580
	},
	{
	"epoch": 15.910994764397905,
	"learning_rate": 0.0004141889440039292,
	"loss": 2.4443122863769533,
	"step": 7590
	},
	{
	"epoch": 15.93193717277487,
	"learning_rate": 0.00041391636158282614,
	"loss": 2.4457521438598633,
	"step": 7600
	},
	{
	"epoch": 15.952879581151832,
	"learning_rate": 0.00041364431662305114,
	"loss": 2.457781982421875,
	"step": 7610
	},
	{
	"epoch": 15.973821989528796,
	"learning_rate": 0.0004133728073607005,
	"loss": 2.440464210510254,
	"step": 7620
	},
	{
	"epoch": 15.99476439790576,
	"learning_rate": 0.00041310183203996446,
	"loss": 2.4534429550170898,
	"step": 7630
	},
	{
	"epoch": 15.998952879581152,
	"eval_loss": 2.5449907779693604,
	"eval_runtime": 73.6337,
	"eval_samples_per_second": 148.791,
	"step": 7632
	},
	{
	"epoch": 16.016753926701572,
	"learning_rate": 0.0004128313889130795,
	"loss": 2.5835424423217774,
	"step": 7640
	},
	{
	"epoch": 16.037696335078532,
	"learning_rate": 0.0004125614762402809,
	"loss": 2.458993148803711,
	"step": 7650
	},
	{
	"epoch": 16.058638743455496,
	"learning_rate": 0.00041229209228975627,
	"loss": 2.471218299865723,
	"step": 7660
	},
	{
	"epoch": 16.07958115183246,
	"learning_rate": 0.000412023235337598,
	"loss": 2.464751052856445,
	"step": 7670
	},
	{
	"epoch": 16.100523560209425,
	"learning_rate": 0.00041175490366775766,
	"loss": 2.4599708557128905,
	"step": 7680
	},
	{
	"epoch": 16.12146596858639,
	"learning_rate": 0.0004114870955719997,
	"loss": 2.4355844497680663,
	"step": 7690
	},
	{
	"epoch": 16.14240837696335,
	"learning_rate": 0.00041121980934985563,
	"loss": 2.4272241592407227,
	"step": 7700
	},
	{
	"epoch": 16.163350785340313,
	"learning_rate": 0.000410953043308579,
	"loss": 2.4612340927124023,
	"step": 7710
	},
	{
	"epoch": 16.184293193717277,
	"learning_rate": 0.0004106867957631001,
	"loss": 2.465089797973633,
	"step": 7720
	},
	{
	"epoch": 16.20523560209424,
	"learning_rate": 0.00041042106503598165,
	"loss": 2.451694297790527,
	"step": 7730
	},
	{
	"epoch": 16.226178010471205,
	"learning_rate": 0.0004101558494573738,
	"loss": 2.464099884033203,
	"step": 7740
	},
	{
	"epoch": 16.24712041884817,
	"learning_rate": 0.0004098911473649706,
	"loss": 2.448426055908203,
	"step": 7750
	},
	{
	"epoch": 16.26806282722513,
	"learning_rate": 0.0004096269571039658,
	"loss": 2.455006217956543,
	"step": 7760
	},
	{
	"epoch": 16.289005235602094,
	"learning_rate": 0.00040936327702701005,
	"loss": 2.453194808959961,
	"step": 7770
	},
	{
	"epoch": 16.309947643979058,
	"learning_rate": 0.00040910010549416687,
	"loss": 2.4759195327758787,
	"step": 7780
	},
	{
	"epoch": 16.330890052356022,
	"learning_rate": 0.0004088374408728706,
	"loss": 2.4628747940063476,
	"step": 7790
	},
	{
	"epoch": 16.351832460732986,
	"learning_rate": 0.0004085752815378834,
	"loss": 2.446619415283203,
	"step": 7800
	},
	{
	"epoch": 16.372774869109946,
	"learning_rate": 0.0004083136258712532,
	"loss": 2.4754364013671877,
	"step": 7810
	},
	{
	"epoch": 16.39371727748691,
	"learning_rate": 0.0004080524722622717,
	"loss": 2.4566783905029297,
	"step": 7820
	},
	{
	"epoch": 16.414659685863874,
	"learning_rate": 0.00040779181910743294,
	"loss": 2.426336479187012,
	"step": 7830
	},
	{
	"epoch": 16.43560209424084,
	"learning_rate": 0.0004075316648103914,
	"loss": 2.460182762145996,
	"step": 7840
	},
	{
	"epoch": 16.456544502617803,
	"learning_rate": 0.0004072720077819216,
	"loss": 2.454692268371582,
	"step": 7850
	},
	{
	"epoch": 16.477486910994763,
	"learning_rate": 0.0004070128464398768,
	"loss": 2.4589263916015627,
	"step": 7860
	},
	{
	"epoch": 16.498429319371727,
	"learning_rate": 0.0004067541792091489,
	"loss": 2.472345161437988,
	"step": 7870
	},
	{
	"epoch": 16.51937172774869,
	"learning_rate": 0.0004064960045216279,
	"loss": 2.427416229248047,
	"step": 7880
	},
	{
	"epoch": 16.540314136125655,
	"learning_rate": 0.0004062383208161624,
	"loss": 2.454151725769043,
	"step": 7890
	},
	{
	"epoch": 16.56125654450262,
	"learning_rate": 0.0004059811265385193,
	"loss": 2.4490371704101563,
	"step": 7900
	},
	{
	"epoch": 16.58219895287958,
	"learning_rate": 0.00040572442014134516,
	"loss": 2.479467010498047,
	"step": 7910
	},
	{
	"epoch": 16.603141361256544,
	"learning_rate": 0.00040546820008412654,
	"loss": 2.4391218185424806,
	"step": 7920
	},
	{
	"epoch": 16.624083769633508,
	"learning_rate": 0.0004052124648331515,
	"loss": 2.455718421936035,
	"step": 7930
	},
	{
	"epoch": 16.645026178010472,
	"learning_rate": 0.00040495721286147086,
	"loss": 2.4620994567871093,
	"step": 7940
	},
	{
	"epoch": 16.665968586387436,
	"learning_rate": 0.00040470244264886006,
	"loss": 2.448670196533203,
	"step": 7950
	},
	{
	"epoch": 16.686910994764396,
	"learning_rate": 0.00040444815268178097,
	"loss": 2.426989936828613,
	"step": 7960
	},
	{
	"epoch": 16.70785340314136,
	"learning_rate": 0.00040419434145334414,
	"loss": 2.447972869873047,
	"step": 7970
	},
	{
	"epoch": 16.728795811518324,
	"learning_rate": 0.00040394100746327154,
	"loss": 2.457029342651367,
	"step": 7980
	},
	{
	"epoch": 16.74973821989529,
	"learning_rate": 0.0004036881492178589,
	"loss": 2.4539730072021486,
	"step": 7990
	},
	{
	"epoch": 16.770680628272252,
	"learning_rate": 0.00040343576522993926,
	"loss": 2.4607629776000977,
	"step": 8000
	},
	{
	"epoch": 16.791623036649213,
	"learning_rate": 0.00040318385401884554,
	"loss": 2.43496036529541,
	"step": 8010
	},
	{
	"epoch": 16.812565445026177,
	"learning_rate": 0.00040293241411037484,
	"loss": 2.423869323730469,
	"step": 8020
	},
	{
	"epoch": 16.83350785340314,
	"learning_rate": 0.00040268144403675154,
	"loss": 2.4423187255859373,
	"step": 8030
	},
	{
	"epoch": 16.854450261780105,
	"learning_rate": 0.0004024309423365915,
	"loss": 2.4698711395263673,
	"step": 8040
	},
	{
	"epoch": 16.87539267015707,
	"learning_rate": 0.0004021809075548668,
	"loss": 2.423082160949707,
	"step": 8050
	},
	{
	"epoch": 16.89633507853403,
	"learning_rate": 0.0004019313382428694,
	"loss": 2.443895149230957,
	"step": 8060
	},
	{
	"epoch": 16.917277486910994,
	"learning_rate": 0.00040168223295817656,
	"loss": 2.455313301086426,
	"step": 8070
	},
	{
	"epoch": 16.938219895287958,
	"learning_rate": 0.00040143359026461554,
	"loss": 2.415020751953125,
	"step": 8080
	},
	{
	"epoch": 16.95916230366492,
	"learning_rate": 0.000401185408732229,
	"loss": 2.462967109680176,
	"step": 8090
	},
	{
	"epoch": 16.980104712041886,
	"learning_rate": 0.0004009376869372401,
	"loss": 2.416962242126465,
	"step": 8100
	},
	{
	"epoch": 16.99895287958115,
	"eval_loss": 2.5404856204986572,
	"eval_runtime": 73.757,
	"eval_samples_per_second": 148.542,
	"step": 8109
	},
	{
	"epoch": 17.002094240837696,
	"learning_rate": 0.00040069042346201864,
	"loss": 2.549093818664551,
	"step": 8110
	},
	{
	"epoch": 17.02303664921466,
	"learning_rate": 0.00040044361689504655,
	"loss": 2.452895736694336,
	"step": 8120
	},
	{
	"epoch": 17.043979057591624,
	"learning_rate": 0.0004001972658308847,
	"loss": 2.460617446899414,
	"step": 8130
	},
	{
	"epoch": 17.064921465968588,
	"learning_rate": 0.0003999513688701383,
	"loss": 2.4506912231445312,
	"step": 8140
	},
	{
	"epoch": 17.08586387434555,
	"learning_rate": 0.00039970592461942457,
	"loss": 2.440316581726074,
	"step": 8150
	},
	{
	"epoch": 17.106806282722513,
	"learning_rate": 0.00039946093169133874,
	"loss": 2.4249364852905275,
	"step": 8160
	},
	{
	"epoch": 17.127748691099477,
	"learning_rate": 0.0003992163887044217,
	"loss": 2.4489822387695312,
	"step": 8170
	},
	{
	"epoch": 17.14869109947644,
	"learning_rate": 0.0003989722942831268,
	"loss": 2.455015754699707,
	"step": 8180
	},
	{
	"epoch": 17.169633507853405,
	"learning_rate": 0.0003987286470577879,
	"loss": 2.4564001083374025,
	"step": 8190
	},
	{
	"epoch": 17.190575916230365,
	"learning_rate": 0.0003984854456645864,
	"loss": 2.4481569290161134,
	"step": 8200
	},
	{
	"epoch": 17.21151832460733,
	"learning_rate": 0.0003982426887455199,
	"loss": 2.4090858459472657,
	"step": 8210
	},
	{
	"epoch": 17.232460732984293,
	"learning_rate": 0.00039800037494836985,
	"loss": 2.4279315948486326,
	"step": 8220
	},
	{
	"epoch": 17.253403141361257,
	"learning_rate": 0.00039775850292667005,
	"loss": 2.4328563690185545,
	"step": 8230
	},
	{
	"epoch": 17.27434554973822,
	"learning_rate": 0.0003975170713396753,
	"loss": 2.426299476623535,
	"step": 8240
	},
	{
	"epoch": 17.295287958115182,
	"learning_rate": 0.0003972760788523301,
	"loss": 2.424925994873047,
	"step": 8250
	},
	{
	"epoch": 17.316230366492146,
	"learning_rate": 0.0003970355241352378,
	"loss": 2.4173357009887697,
	"step": 8260
	},
	{
	"epoch": 17.33717277486911,
	"learning_rate": 0.00039679540586462953,
	"loss": 2.4525693893432616,
	"step": 8270
	},
	{
	"epoch": 17.358115183246074,
	"learning_rate": 0.00039655572272233384,
	"loss": 2.473075103759766,
	"step": 8280
	},
	{
	"epoch": 17.379057591623038,
	"learning_rate": 0.0003963164733957462,
	"loss": 2.422397232055664,
	"step": 8290
	},
	{
	"epoch": 17.4,
	"learning_rate": 0.00039607765657779864,
	"loss": 2.441000556945801,
	"step": 8300
	},
	{
	"epoch": 17.420942408376963,
	"learning_rate": 0.0003958392709669304,
	"loss": 2.4337257385253905,
	"step": 8310
	},
	{
	"epoch": 17.441884816753927,
	"learning_rate": 0.00039560131526705723,
	"loss": 2.4255434036254884,
	"step": 8320
	},
	{
	"epoch": 17.46282722513089,
	"learning_rate": 0.0003953637881875425,
	"loss": 2.4355316162109375,
	"step": 8330
	},
	{
	"epoch": 17.483769633507855,
	"learning_rate": 0.0003951266884431675,
	"loss": 2.428698921203613,
	"step": 8340
	},
	{
	"epoch": 17.504712041884815,
	"learning_rate": 0.00039489001475410214,
	"loss": 2.4530813217163088,
	"step": 8350
	},
	{
	"epoch": 17.52565445026178,
	"learning_rate": 0.00039465376584587626,
	"loss": 2.4496335983276367,
	"step": 8360
	},
	{
	"epoch": 17.546596858638743,
	"learning_rate": 0.00039441794044935054,
	"loss": 2.425421142578125,
	"step": 8370
	},
	{
	"epoch": 17.567539267015707,
	"learning_rate": 0.00039418253730068797,
	"loss": 2.4285154342651367,
	"step": 8380
	},
	{
	"epoch": 17.58848167539267,
	"learning_rate": 0.0003939475551413253,
	"loss": 2.4037647247314453,
	"step": 8390
	},
	{
	"epoch": 17.609424083769632,
	"learning_rate": 0.000393712992717945,
	"loss": 2.423297119140625,
	"step": 8400
	},
	{
	"epoch": 17.630366492146596,
	"learning_rate": 0.0003934788487824469,
	"loss": 2.47174186706543,
	"step": 8410
	},
	{
	"epoch": 17.65130890052356,
	"learning_rate": 0.0003932451220919205,
	"loss": 2.441014289855957,
	"step": 8420
	},
	{
	"epoch": 17.672251308900524,
	"learning_rate": 0.0003930118114086172,
	"loss": 2.4317821502685546,
	"step": 8430
	},
	{
	"epoch": 17.693193717277488,
	"learning_rate": 0.00039277891549992266,
	"loss": 2.4377744674682615,
	"step": 8440
	},
	{
	"epoch": 17.71413612565445,
	"learning_rate": 0.0003925464331383298,
	"loss": 2.4461442947387697,
	"step": 8450
	},
	{
	"epoch": 17.735078534031413,
	"learning_rate": 0.00039231436310141113,
	"loss": 2.466485595703125,
	"step": 8460
	},
	{
	"epoch": 17.756020942408377,
	"learning_rate": 0.00039208270417179214,
	"loss": 2.4318614959716798,
	"step": 8470
	},
	{
	"epoch": 17.77696335078534,
	"learning_rate": 0.0003918514551371243,
	"loss": 2.431291389465332,
	"step": 8480
	},
	{
	"epoch": 17.797905759162305,
	"learning_rate": 0.0003916206147900585,
	"loss": 2.43109130859375,
	"step": 8490
	},
	{
	"epoch": 17.81884816753927,
	"learning_rate": 0.00039139018192821845,
	"loss": 2.4323259353637696,
	"step": 8500
	},
	{
	"epoch": 17.83979057591623,
	"learning_rate": 0.00039116015535417445,
	"loss": 2.439468193054199,
	"step": 8510
	},
	{
	"epoch": 17.860732984293193,
	"learning_rate": 0.00039093053387541745,
	"loss": 2.4567943572998048,
	"step": 8520
	},
	{
	"epoch": 17.881675392670157,
	"learning_rate": 0.00039070131630433274,
	"loss": 2.4346736907958983,
	"step": 8530
	},
	{
	"epoch": 17.90261780104712,
	"learning_rate": 0.00039047250145817424,
	"loss": 2.441089630126953,
	"step": 8540
	},
	{
	"epoch": 17.923560209424085,
	"learning_rate": 0.00039024408815903914,
	"loss": 2.4277088165283205,
	"step": 8550
	},
	{
	"epoch": 17.944502617801046,
	"learning_rate": 0.0003900160752338421,
	"loss": 2.4228445053100587,
	"step": 8560
	},
	{
	"epoch": 17.96544502617801,
	"learning_rate": 0.00038978846151429,
	"loss": 2.399433708190918,
	"step": 8570
	},
	{
	"epoch": 17.986387434554974,
	"learning_rate": 0.0003895612458368572,
	"loss": 2.4009246826171875,
	"step": 8580
	},
	{
	"epoch": 17.99895287958115,
	"eval_loss": 2.5318360328674316,
	"eval_runtime": 74.0596,
	"eval_samples_per_second": 147.935,
	"step": 8586
	},
	{
	"epoch": 18.008376963350784,
	"learning_rate": 0.00038933442704275974,
	"loss": 2.537807655334473,
	"step": 8590
	},
	{
	"epoch": 18.02931937172775,
	"learning_rate": 0.0003891080039779314,
	"loss": 2.446313667297363,
	"step": 8600
	},
	{
	"epoch": 18.050261780104712,
	"learning_rate": 0.0003888819754929986,
	"loss": 2.4345209121704103,
	"step": 8610
	},
	{
	"epoch": 18.071204188481676,
	"learning_rate": 0.0003886563404432558,
	"loss": 2.437006187438965,
	"step": 8620
	},
	{
	"epoch": 18.09214659685864,
	"learning_rate": 0.0003884310976886414,
	"loss": 2.420798110961914,
	"step": 8630
	},
	{
	"epoch": 18.1130890052356,
	"learning_rate": 0.0003882062460937135,
	"loss": 2.4323537826538084,
	"step": 8640
	},
	{
	"epoch": 18.134031413612565,
	"learning_rate": 0.0003879817845276255,
	"loss": 2.442038345336914,
	"step": 8650
	},
	{
	"epoch": 18.15497382198953,
	"learning_rate": 0.0003877577118641029,
	"loss": 2.433667755126953,
	"step": 8660
	},
	{
	"epoch": 18.175916230366493,
	"learning_rate": 0.00038753402698141903,
	"loss": 2.424707221984863,
	"step": 8670
	},
	{
	"epoch": 18.196858638743457,
	"learning_rate": 0.0003873107287623715,
	"loss": 2.4348966598510744,
	"step": 8680
	},
	{
	"epoch": 18.217801047120417,
	"learning_rate": 0.00038708781609425905,
	"loss": 2.404917907714844,
	"step": 8690
	},
	{
	"epoch": 18.23874345549738,
	"learning_rate": 0.000386865287868858,
	"loss": 2.4346105575561525,
	"step": 8700
	},
	{
	"epoch": 18.259685863874346,
	"learning_rate": 0.0003866431429823993,
	"loss": 2.442304992675781,
	"step": 8710
	},
	{
	"epoch": 18.28062827225131,
	"learning_rate": 0.00038642138033554525,
	"loss": 2.42406005859375,
	"step": 8720
	},
	{
	"epoch": 18.301570680628274,
	"learning_rate": 0.00038619999883336703,
	"loss": 2.440979766845703,
	"step": 8730
	},
	{
	"epoch": 18.322513089005234,
	"learning_rate": 0.0003859789973853217,
	"loss": 2.440751075744629,
	"step": 8740
	},
	{
	"epoch": 18.343455497382198,
	"learning_rate": 0.0003857583749052298,
	"loss": 2.4363412857055664,
	"step": 8750
	},
	{
	"epoch": 18.364397905759162,
	"learning_rate": 0.0003855381303112527,
	"loss": 2.4235382080078125,
	"step": 8760
	},
	{
	"epoch": 18.385340314136126,
	"learning_rate": 0.0003853182625258708,
	"loss": 2.4238630294799806,
	"step": 8770
	},
	{
	"epoch": 18.40628272251309,
	"learning_rate": 0.0003850987704758608,
	"loss": 2.426643943786621,
	"step": 8780
	},
	{
	"epoch": 18.42722513089005,
	"learning_rate": 0.00038487965309227413,
	"loss": 2.438970947265625,
	"step": 8790
	},
	{
	"epoch": 18.448167539267015,
	"learning_rate": 0.0003846609093104148,
	"loss": 2.423859786987305,
	"step": 8800
	},
	{
	"epoch": 18.46910994764398,
	"learning_rate": 0.00038444253806981784,
	"loss": 2.4040243148803713,
	"step": 8810
	},
	{
	"epoch": 18.490052356020943,
	"learning_rate": 0.00038422453831422784,
	"loss": 2.420393371582031,
	"step": 8820
	},
	{
	"epoch": 18.510994764397907,
	"learning_rate": 0.0003840069089915771,
	"loss": 2.427932929992676,
	"step": 8830
	},
	{
	"epoch": 18.531937172774867,
	"learning_rate": 0.00038378964905396454,
	"loss": 2.419098663330078,
	"step": 8840
	},
	{
	"epoch": 18.55287958115183,
	"learning_rate": 0.00038357275745763475,
	"loss": 2.4184850692749023,
	"step": 8850
	},
	{
	"epoch": 18.573821989528795,
	"learning_rate": 0.0003833562331629563,
	"loss": 2.402060127258301,
	"step": 8860
	},
	{
	"epoch": 18.59476439790576,
	"learning_rate": 0.0003831400751344014,
	"loss": 2.403904914855957,
	"step": 8870
	},
	{
	"epoch": 18.615706806282724,
	"learning_rate": 0.00038292428234052486,
	"loss": 2.4094032287597655,
	"step": 8880
	},
	{
	"epoch": 18.636649214659684,
	"learning_rate": 0.0003827088537539434,
	"loss": 2.3887189865112304,
	"step": 8890
	},
	{
	"epoch": 18.657591623036648,
	"learning_rate": 0.00038249378835131535,
	"loss": 2.4003849029541016,
	"step": 8900
	},
	{
	"epoch": 18.678534031413612,
	"learning_rate": 0.0003822790851133196,
	"loss": 2.4100620269775392,
	"step": 8910
	},
	{
	"epoch": 18.699476439790576,
	"learning_rate": 0.00038206474302463617,
	"loss": 2.4087665557861326,
	"step": 8920
	},
	{
	"epoch": 18.72041884816754,
	"learning_rate": 0.00038185076107392544,
	"loss": 2.4067865371704102,
	"step": 8930
	},
	{
	"epoch": 18.741361256544504,
	"learning_rate": 0.0003816371382538082,
	"loss": 2.3902347564697264,
	"step": 8940
	},
	{
	"epoch": 18.762303664921465,
	"learning_rate": 0.0003814238735608459,
	"loss": 2.4000757217407225,
	"step": 8950
	},
	{
	"epoch": 18.78324607329843,
	"learning_rate": 0.0003812109659955207,
	"loss": 2.4148767471313475,
	"step": 8960
	},
	{
	"epoch": 18.804188481675393,
	"learning_rate": 0.00038099841456221617,
	"loss": 2.414336395263672,
	"step": 8970
	},
	{
	"epoch": 18.825130890052357,
	"learning_rate": 0.0003807862182691969,
	"loss": 2.440867042541504,
	"step": 8980
	},
	{
	"epoch": 18.84607329842932,
	"learning_rate": 0.00038057437612859003,
	"loss": 2.4532596588134767,
	"step": 8990
	},
	{
	"epoch": 18.86701570680628,
	"learning_rate": 0.0003803628871563653,
	"loss": 2.4020782470703126,
	"step": 9000
	},
	{
	"epoch": 18.887958115183245,
	"learning_rate": 0.0003801517503723161,
	"loss": 2.430096435546875,
	"step": 9010
	},
	{
	"epoch": 18.90890052356021,
	"learning_rate": 0.00037994096480004037,
	"loss": 2.419812774658203,
	"step": 9020
	},
	{
	"epoch": 18.929842931937173,
	"learning_rate": 0.0003797305294669214,
	"loss": 2.4075344085693358,
	"step": 9030
	},
	{
	"epoch": 18.950785340314138,
	"learning_rate": 0.00037952044340410954,
	"loss": 2.4337480545043944,
	"step": 9040
	},
	{
	"epoch": 18.971727748691098,
	"learning_rate": 0.00037931070564650276,
	"loss": 2.4088159561157227,
	"step": 9050
	},
	{
	"epoch": 18.992670157068062,
	"learning_rate": 0.0003791013152327286,
	"loss": 2.4013919830322266,
	"step": 9060
	},
	{
	"epoch": 18.99895287958115,
	"eval_loss": 2.529340982437134,
	"eval_runtime": 73.527,
	"eval_samples_per_second": 149.007,
	"step": 9063
	},
	{
	"epoch": 19.014659685863876,
	"learning_rate": 0.00037889227120512545,
	"loss": 2.5226316452026367,
	"step": 9070
	},
	{
	"epoch": 19.035602094240836,
	"learning_rate": 0.0003786835726097239,
	"loss": 2.4024560928344725,
	"step": 9080
	},
	{
	"epoch": 19.0565445026178,
	"learning_rate": 0.00037847521849622895,
	"loss": 2.4342859268188475,
	"step": 9090
	},
	{
	"epoch": 19.077486910994764,
	"learning_rate": 0.0003782672079180015,
	"loss": 2.4292444229125976,
	"step": 9100
	},
	{
	"epoch": 19.09842931937173,
	"learning_rate": 0.0003780595399320404,
	"loss": 2.4289926528930663,
	"step": 9110
	},
	{
	"epoch": 19.119371727748693,
	"learning_rate": 0.00037785221359896444,
	"loss": 2.440321159362793,
	"step": 9120
	},
	{
	"epoch": 19.140314136125653,
	"learning_rate": 0.00037764522798299443,
	"loss": 2.4353168487548826,
	"step": 9130
	},
	{
	"epoch": 19.161256544502617,
	"learning_rate": 0.0003774385821519358,
	"loss": 2.389999008178711,
	"step": 9140
	},
	{
	"epoch": 19.18219895287958,
	"learning_rate": 0.0003772322751771605,
	"loss": 2.4299448013305662,
	"step": 9150
	},
	{
	"epoch": 19.203141361256545,
	"learning_rate": 0.00037702630613358986,
	"loss": 2.4094564437866213,
	"step": 9160
	},
	{
	"epoch": 19.22408376963351,
	"learning_rate": 0.0003768206740996769,
	"loss": 2.416705322265625,
	"step": 9170
	},
	{
	"epoch": 19.24502617801047,
	"learning_rate": 0.00037661537815738915,
	"loss": 2.4174514770507813,
	"step": 9180
	},
	{
	"epoch": 19.265968586387434,
	"learning_rate": 0.00037641041739219143,
	"loss": 2.4112581253051757,
	"step": 9190
	},
	{
	"epoch": 19.286910994764398,
	"learning_rate": 0.00037620579089302876,
	"loss": 2.4125255584716796,
	"step": 9200
	},
	{
	"epoch": 19.307853403141362,
	"learning_rate": 0.0003760014977523091,
	"loss": 2.41434268951416,
	"step": 9210
	},
	{
	"epoch": 19.328795811518326,
	"learning_rate": 0.00037579753706588697,
	"loss": 2.419674301147461,
	"step": 9220
	},
	{
	"epoch": 19.349738219895286,
	"learning_rate": 0.00037559390793304604,
	"loss": 2.3896152496337892,
	"step": 9230
	},
	{
	"epoch": 19.37068062827225,
	"learning_rate": 0.00037539060945648286,
	"loss": 2.4006847381591796,
	"step": 9240
	},
	{
	"epoch": 19.391623036649214,
	"learning_rate": 0.00037518764074229014,
	"loss": 2.4157575607299804,
	"step": 9250
	},
	{
	"epoch": 19.41256544502618,
	"learning_rate": 0.00037498500089994,
	"loss": 2.398466873168945,
	"step": 9260
	},
	{
	"epoch": 19.433507853403142,
	"learning_rate": 0.00037478268904226795,
	"loss": 2.4136272430419923,
	"step": 9270
	},
	{
	"epoch": 19.454450261780103,
	"learning_rate": 0.00037458070428545635,
	"loss": 2.412180709838867,
	"step": 9280
	},
	{
	"epoch": 19.475392670157067,
	"learning_rate": 0.00037437904574901817,
	"loss": 2.417103385925293,
	"step": 9290
	},
	{
	"epoch": 19.49633507853403,
	"learning_rate": 0.00037417771255578104,
	"loss": 2.3830541610717773,
	"step": 9300
	},
	{
	"epoch": 19.517277486910995,
	"learning_rate": 0.00037397670383187097,
	"loss": 2.4057411193847655,
	"step": 9310
	},
	{
	"epoch": 19.53821989528796,
	"learning_rate": 0.0003737760187066967,
	"loss": 2.429146957397461,
	"step": 9320
	},
	{
	"epoch": 19.559162303664923,
	"learning_rate": 0.00037357565631293365,
	"loss": 2.4229619979858397,
	"step": 9330
	},
	{
	"epoch": 19.580104712041884,
	"learning_rate": 0.00037337561578650833,
	"loss": 2.4030439376831056,
	"step": 9340
	},
	{
	"epoch": 19.601047120418848,
	"learning_rate": 0.00037317589626658255,
	"loss": 2.4122753143310547,
	"step": 9350
	},
	{
	"epoch": 19.62198952879581,
	"learning_rate": 0.0003729764968955379,
	"loss": 2.420066070556641,
	"step": 9360
	},
	{
	"epoch": 19.642931937172776,
	"learning_rate": 0.00037277741681896045,
	"loss": 2.4116867065429686,
	"step": 9370
	},
	{
	"epoch": 19.66387434554974,
	"learning_rate": 0.0003725786551856251,
	"loss": 2.4222272872924804,
	"step": 9380
	},
	{
	"epoch": 19.6848167539267,
	"learning_rate": 0.0003723802111474804,
	"loss": 2.398889350891113,
	"step": 9390
	},
	{
	"epoch": 19.705759162303664,
	"learning_rate": 0.0003721820838596335,
	"loss": 2.3947797775268556,
	"step": 9400
	},
	{
	"epoch": 19.72670157068063,
	"learning_rate": 0.00037198427248033485,
	"loss": 2.39971981048584,
	"step": 9410
	},
	{
	"epoch": 19.747643979057592,
	"learning_rate": 0.00037178677617096337,
	"loss": 2.3918169021606444,
	"step": 9420
	},
	{
	"epoch": 19.768586387434556,
	"learning_rate": 0.0003715895940960111,
	"loss": 2.393696975708008,
	"step": 9430
	},
	{
	"epoch": 19.789528795811517,
	"learning_rate": 0.000371392725423069,
	"loss": 2.403204345703125,
	"step": 9440
	},
	{
	"epoch": 19.81047120418848,
	"learning_rate": 0.00037119616932281165,
	"loss": 2.3984851837158203,
	"step": 9450
	},
	{
	"epoch": 19.831413612565445,
	"learning_rate": 0.00037099992496898276,
	"loss": 2.442034149169922,
	"step": 9460
	},
	{
	"epoch": 19.85235602094241,
	"learning_rate": 0.00037080399153838065,
	"loss": 2.3905046463012694,
	"step": 9470
	},
	{
	"epoch": 19.873298429319373,
	"learning_rate": 0.00037060836821084373,
	"loss": 2.4114078521728515,
	"step": 9480
	},
	{
	"epoch": 19.894240837696334,
	"learning_rate": 0.00037041305416923604,
	"loss": 2.393054962158203,
	"step": 9490
	},
	{
	"epoch": 19.915183246073298,
	"learning_rate": 0.0003702180485994327,
	"loss": 2.388008689880371,
	"step": 9500
	},
	{
	"epoch": 19.93612565445026,
	"learning_rate": 0.00037002335069030614,
	"loss": 2.4009252548217774,
	"step": 9510
	},
	{
	"epoch": 19.957068062827226,
	"learning_rate": 0.0003698289596337116,
	"loss": 2.3996566772460937,
	"step": 9520
	},
	{
	"epoch": 19.97801047120419,
	"learning_rate": 0.00036963487462447303,
	"loss": 2.3795480728149414,
	"step": 9530
	},
	{
	"epoch": 19.99895287958115,
	"learning_rate": 0.0003694410948603691,
	"loss": 2.4031463623046876,
	"step": 9540
	},
	{
	"epoch": 19.99895287958115,
	"eval_loss": 2.5357587337493896,
	"eval_runtime": 73.9758,
	"eval_samples_per_second": 148.102,
	"step": 9540
	},
	{
	"epoch": 20.020942408376964,
	"learning_rate": 0.00036924761954211944,
	"loss": 2.5228919982910156,
	"step": 9550
	},
	{
	"epoch": 20.041884816753928,
	"learning_rate": 0.0003690544478733707,
	"loss": 2.3785959243774415,
	"step": 9560
	},
	{
	"epoch": 20.06282722513089,
	"learning_rate": 0.0003688615790606828,
	"loss": 2.4037866592407227,
	"step": 9570
	},
	{
	"epoch": 20.083769633507853,
	"learning_rate": 0.000368669012313515,
	"loss": 2.3924365997314454,
	"step": 9580
	},
	{
	"epoch": 20.104712041884817,
	"learning_rate": 0.0003684767468442126,
	"loss": 2.4029878616333007,
	"step": 9590
	},
	{
	"epoch": 20.12565445026178,
	"learning_rate": 0.0003682847818679935,
	"loss": 2.387605094909668,
	"step": 9600
	},
	{
	"epoch": 20.146596858638745,
	"learning_rate": 0.0003680931166029342,
	"loss": 2.417312431335449,
	"step": 9610
	},
	{
	"epoch": 20.167539267015705,
	"learning_rate": 0.000367901750269957,
	"loss": 2.381046485900879,
	"step": 9620
	},
	{
	"epoch": 20.18848167539267,
	"learning_rate": 0.00036771068209281657,
	"loss": 2.376552963256836,
	"step": 9630
	},
	{
	"epoch": 20.209424083769633,
	"learning_rate": 0.0003675199112980863,
	"loss": 2.4089908599853516,
	"step": 9640
	},
	{
	"epoch": 20.230366492146597,
	"learning_rate": 0.0003673294371151458,
	"loss": 2.401862907409668,
	"step": 9650
	},
	{
	"epoch": 20.25130890052356,
	"learning_rate": 0.0003671392587761674,
	"loss": 2.406145477294922,
	"step": 9660
	},
	{
	"epoch": 20.272251308900522,
	"learning_rate": 0.0003669493755161031,
	"loss": 2.414588737487793,
	"step": 9670
	},
	{
	"epoch": 20.293193717277486,
	"learning_rate": 0.00036675978657267204,
	"loss": 2.4057403564453126,
	"step": 9680
	},
	{
	"epoch": 20.31413612565445,
	"learning_rate": 0.00036657049118634733,
	"loss": 2.404916000366211,
	"step": 9690
	},
	{
	"epoch": 20.335078534031414,
	"learning_rate": 0.0003663814886003432,
	"loss": 2.4110477447509764,
	"step": 9700
	},
	{
	"epoch": 20.356020942408378,
	"learning_rate": 0.00036619277806060276,
	"loss": 2.402661895751953,
	"step": 9710
	},
	{
	"epoch": 20.376963350785342,
	"learning_rate": 0.0003660043588157846,
	"loss": 2.404218864440918,
	"step": 9720
	},
	{
	"epoch": 20.397905759162303,
	"learning_rate": 0.00036581623011725114,
	"loss": 2.4069591522216798,
	"step": 9730
	},
	{
	"epoch": 20.418848167539267,
	"learning_rate": 0.0003656283912190554,
	"loss": 2.4185781478881836,
	"step": 9740
	},
	{
	"epoch": 20.43979057591623,
	"learning_rate": 0.00036544084137792883,
	"loss": 2.3999982833862306,
	"step": 9750
	},
	{
	"epoch": 20.460732984293195,
	"learning_rate": 0.00036525357985326903,
	"loss": 2.3702335357666016,
	"step": 9760
	},
	{
	"epoch": 20.48167539267016,
	"learning_rate": 0.0003650666059071275,
	"loss": 2.3878076553344725,
	"step": 9770
	},
	{
	"epoch": 20.50261780104712,
	"learning_rate": 0.00036487991880419725,
	"loss": 2.3818979263305664,
	"step": 9780
	},
	{
	"epoch": 20.523560209424083,
	"learning_rate": 0.00036469351781180073,
	"loss": 2.363344192504883,
	"step": 9790
	},
	{
	"epoch": 20.544502617801047,
	"learning_rate": 0.00036450740219987765,
	"loss": 2.3810457229614257,
	"step": 9800
	},
	{
	"epoch": 20.56544502617801,
	"learning_rate": 0.0003643215712409734,
	"loss": 2.411943054199219,
	"step": 9810
	},
	{
	"epoch": 20.586387434554975,
	"learning_rate": 0.00036413602421022653,
	"loss": 2.4092056274414064,
	"step": 9820
	},
	{
	"epoch": 20.607329842931936,
	"learning_rate": 0.0003639507603853572,
	"loss": 2.3944089889526365,
	"step": 9830
	},
	{
	"epoch": 20.6282722513089,
	"learning_rate": 0.00036376577904665525,
	"loss": 2.3668121337890624,
	"step": 9840
	},
	{
	"epoch": 20.649214659685864,
	"learning_rate": 0.00036358107947696876,
	"loss": 2.391695022583008,
	"step": 9850
	},
	{
	"epoch": 20.670157068062828,
	"learning_rate": 0.0003633966609616919,
	"loss": 2.380820083618164,
	"step": 9860
	},
	{
	"epoch": 20.691099476439792,
	"learning_rate": 0.00036321252278875344,
	"loss": 2.372467041015625,
	"step": 9870
	},
	{
	"epoch": 20.712041884816752,
	"learning_rate": 0.00036302866424860566,
	"loss": 2.3973648071289064,
	"step": 9880
	},
	{
	"epoch": 20.732984293193716,
	"learning_rate": 0.00036284508463421217,
	"loss": 2.3995847702026367,
	"step": 9890
	},
	{
	"epoch": 20.75392670157068,
	"learning_rate": 0.0003626617832410371,
	"loss": 2.3931917190551757,
	"step": 9900
	},
	{
	"epoch": 20.774869109947645,
	"learning_rate": 0.00036247875936703335,
	"loss": 2.4107311248779295,
	"step": 9910
	},
	{
	"epoch": 20.79581151832461,
	"learning_rate": 0.00036229601231263145,
	"loss": 2.367414855957031,
	"step": 9920
	},
	{
	"epoch": 20.81675392670157,
	"learning_rate": 0.0003621135413807282,
	"loss": 2.405007171630859,
	"step": 9930
	},
	{
	"epoch": 20.837696335078533,
	"learning_rate": 0.0003619313458766758,
	"loss": 2.364247512817383,
	"step": 9940
	},
	{
	"epoch": 20.858638743455497,
	"learning_rate": 0.0003617494251082704,
	"loss": 2.3823482513427736,
	"step": 9950
	},
	{
	"epoch": 20.87958115183246,
	"learning_rate": 0.0003615677783857413,
	"loss": 2.393014144897461,
	"step": 9960
	},
	{
	"epoch": 20.900523560209425,
	"learning_rate": 0.0003613864050217397,
	"loss": 2.3839509963989256,
	"step": 9970
	},
	{
	"epoch": 20.921465968586386,
	"learning_rate": 0.0003612053043313283,
	"loss": 2.378824806213379,
	"step": 9980
	},
	{
	"epoch": 20.94240837696335,
	"learning_rate": 0.0003610244756319697,
	"loss": 2.3893613815307617,
	"step": 9990
	},
	{
	"epoch": 20.963350785340314,
	"learning_rate": 0.00036084391824351607,
	"loss": 2.37738151550293,
	"step": 10000
	},
	{
	"epoch": 20.984293193717278,
	"learning_rate": 0.00036066363148819854,
	"loss": 2.389986038208008,
	"step": 10010
	},
	{
	"epoch": 20.99895287958115,
	"eval_loss": 2.5336103439331055,
	"eval_runtime": 73.4935,
	"eval_samples_per_second": 149.074,
	"step": 10017
	},
	{
	"epoch": 21.006282722513088,
	"learning_rate": 0.000360483614690616,
	"loss": 2.528822135925293,
	"step": 10020
	},
	{
	"epoch": 21.027225130890052,
	"learning_rate": 0.00036030386717772494,
	"loss": 2.3780399322509767,
	"step": 10030
	},
	{
	"epoch": 21.048167539267016,
	"learning_rate": 0.0003601243882788286,
	"loss": 2.3978437423706054,
	"step": 10040
	},
	{
	"epoch": 21.06910994764398,
	"learning_rate": 0.0003599451773255667,
	"loss": 2.382208061218262,
	"step": 10050
	},
	{
	"epoch": 21.09005235602094,
	"learning_rate": 0.00035976623365190465,
	"loss": 2.375508499145508,
	"step": 10060
	},
	{
	"epoch": 21.110994764397905,
	"learning_rate": 0.0003595875565941235,
	"loss": 2.422568511962891,
	"step": 10070
	},
	{
	"epoch": 21.13193717277487,
	"learning_rate": 0.00035940914549080944,
	"loss": 2.4112144470214845,
	"step": 10080
	},
	{
	"epoch": 21.152879581151833,
	"learning_rate": 0.0003592309996828435,
	"loss": 2.400478172302246,
	"step": 10090
	},
	{
	"epoch": 21.173821989528797,
	"learning_rate": 0.0003590531185133913,
	"loss": 2.403495216369629,
	"step": 10100
	},
	{
	"epoch": 21.194764397905757,
	"learning_rate": 0.0003588755013278929,
	"loss": 2.375596046447754,
	"step": 10110
	},
	{
	"epoch": 21.21570680628272,
	"learning_rate": 0.00035869814747405306,
	"loss": 2.3807771682739256,
	"step": 10120
	},
	{
	"epoch": 21.236649214659685,
	"learning_rate": 0.00035852105630183027,
	"loss": 2.40921630859375,
	"step": 10130
	},
	{
	"epoch": 21.25759162303665,
	"learning_rate": 0.0003583442271634278,
	"loss": 2.398925018310547,
	"step": 10140
	},
	{
	"epoch": 21.278534031413614,
	"learning_rate": 0.000358167659413283,
	"loss": 2.373432731628418,
	"step": 10150
	},
	{
	"epoch": 21.299476439790578,
	"learning_rate": 0.00035799135240805765,
	"loss": 2.4216379165649413,
	"step": 10160
	},
	{
	"epoch": 21.320418848167538,
	"learning_rate": 0.0003578153055066282,
	"loss": 2.3817609786987304,
	"step": 10170
	},
	{
	"epoch": 21.341361256544502,
	"learning_rate": 0.00035763951807007597,
	"loss": 2.4331357955932615,
	"step": 10180
	},
	{
	"epoch": 21.362303664921466,
	"learning_rate": 0.0003574639894616771,
	"loss": 2.4034128189086914,
	"step": 10190
	},
	{
	"epoch": 21.38324607329843,
	"learning_rate": 0.0003572887190468934,
	"loss": 2.3663650512695313,
	"step": 10200
	},
	{
	"epoch": 21.404188481675394,
	"learning_rate": 0.00035711370619336214,
	"loss": 2.3921630859375,
	"step": 10210
	},
	{
	"epoch": 21.425130890052355,
	"learning_rate": 0.00035693895027088694,
	"loss": 2.3804367065429686,
	"step": 10220
	},
	{
	"epoch": 21.44607329842932,
	"learning_rate": 0.00035676445065142793,
	"loss": 2.4022769927978516,
	"step": 10230
	},
	{
	"epoch": 21.467015706806283,
	"learning_rate": 0.0003565902067090925,
	"loss": 2.3611806869506835,
	"step": 10240
	},
	{
	"epoch": 21.487958115183247,
	"learning_rate": 0.0003564162178201257,
	"loss": 2.383506202697754,
	"step": 10250
	},
	{
	"epoch": 21.50890052356021,
	"learning_rate": 0.0003562424833629007,
	"loss": 2.385580062866211,
	"step": 10260
	},
	{
	"epoch": 21.52984293193717,
	"learning_rate": 0.0003560690027179101,
	"loss": 2.3934825897216796,
	"step": 10270
	},
	{
	"epoch": 21.550785340314135,
	"learning_rate": 0.00035589577526775603,
	"loss": 2.385503387451172,
	"step": 10280
	},
	{
	"epoch": 21.5717277486911,
	"learning_rate": 0.000355722800397141,
	"loss": 2.344258499145508,
	"step": 10290
	},
	{
	"epoch": 21.592670157068063,
	"learning_rate": 0.00035555007749285897,
	"loss": 2.4048336029052733,
	"step": 10300
	},
	{
	"epoch": 21.613612565445028,
	"learning_rate": 0.00035537760594378607,
	"loss": 2.3891706466674805,
	"step": 10310
	},
	{
	"epoch": 21.634554973821988,
	"learning_rate": 0.00035520538514087155,
	"loss": 2.397173309326172,
	"step": 10320
	},
	{
	"epoch": 21.655497382198952,
	"learning_rate": 0.0003550334144771289,
	"loss": 2.3752115249633787,
	"step": 10330
	},
	{
	"epoch": 21.676439790575916,
	"learning_rate": 0.00035486169334762637,
	"loss": 2.3773225784301757,
	"step": 10340
	},
	{
	"epoch": 21.69738219895288,
	"learning_rate": 0.00035469022114947857,
	"loss": 2.410744476318359,
	"step": 10350
	},
	{
	"epoch": 21.718324607329844,
	"learning_rate": 0.00035451899728183736,
	"loss": 2.4002202987670898,
	"step": 10360
	},
	{
	"epoch": 21.739267015706805,
	"learning_rate": 0.00035434802114588305,
	"loss": 2.371893119812012,
	"step": 10370
	},
	{
	"epoch": 21.76020942408377,
	"learning_rate": 0.00035417729214481556,
	"loss": 2.412856674194336,
	"step": 10380
	},
	{
	"epoch": 21.781151832460733,
	"learning_rate": 0.0003540068096838456,
	"loss": 2.414295959472656,
	"step": 10390
	},
	{
	"epoch": 21.802094240837697,
	"learning_rate": 0.0003538365731701862,
	"loss": 2.3874536514282227,
	"step": 10400
	},
	{
	"epoch": 21.82303664921466,
	"learning_rate": 0.0003536665820130437,
	"loss": 2.408889389038086,
	"step": 10410
	},
	{
	"epoch": 21.843979057591625,
	"learning_rate": 0.00035349683562360966,
	"loss": 2.4029043197631834,
	"step": 10420
	},
	{
	"epoch": 21.864921465968585,
	"learning_rate": 0.0003533273334150517,
	"loss": 2.3872053146362306,
	"step": 10430
	},
	{
	"epoch": 21.88586387434555,
	"learning_rate": 0.0003531580748025054,
	"loss": 2.373563766479492,
	"step": 10440
	},
	{
	"epoch": 21.906806282722513,
	"learning_rate": 0.00035298905920306563,
	"loss": 2.3822809219360352,
	"step": 10450
	},
	{
	"epoch": 21.927748691099477,
	"learning_rate": 0.00035282028603577823,
	"loss": 2.4076284408569335,
	"step": 10460
	},
	{
	"epoch": 21.94869109947644,
	"learning_rate": 0.0003526517547216315,
	"loss": 2.3945655822753906,
	"step": 10470
	},
	{
	"epoch": 21.969633507853402,
	"learning_rate": 0.000352483464683548,
	"loss": 2.360683059692383,
	"step": 10480
	},
	{
	"epoch": 21.990575916230366,
	"learning_rate": 0.0003523154153463761,
	"loss": 2.371842956542969,
	"step": 10490
	},
	{
	"epoch": 21.99895287958115,
	"eval_loss": 2.536722183227539,
	"eval_runtime": 79.9983,
	"eval_samples_per_second": 136.953,
	"step": 10494
	},
	{
	"epoch": 22.012565445026176,
	"learning_rate": 0.00035214760613688187,
	"loss": 2.498021697998047,
	"step": 10500
	},
	{
	"epoch": 22.03350785340314,
	"learning_rate": 0.0003519800364837407,
	"loss": 2.377554702758789,
	"step": 10510
	},
	{
	"epoch": 22.054450261780104,
	"learning_rate": 0.0003518127058175293,
	"loss": 2.380527687072754,
	"step": 10520
	},
	{
	"epoch": 22.07539267015707,
	"learning_rate": 0.00035164561357071755,
	"loss": 2.3838827133178713,
	"step": 10530
	},
	{
	"epoch": 22.096335078534032,
	"learning_rate": 0.0003514787591776602,
	"loss": 2.3740776062011717,
	"step": 10540
	},
	{
	"epoch": 22.117277486910996,
	"learning_rate": 0.0003513121420745892,
	"loss": 2.374008560180664,
	"step": 10550
	},
	{
	"epoch": 22.138219895287957,
	"learning_rate": 0.0003511457616996052,
	"loss": 2.373431587219238,
	"step": 10560
	},
	{
	"epoch": 22.15916230366492,
	"learning_rate": 0.0003509796174926703,
	"loss": 2.403927803039551,
	"step": 10570
	},
	{
	"epoch": 22.180104712041885,
	"learning_rate": 0.00035081370889559934,
	"loss": 2.4006370544433593,
	"step": 10580
	},
	{
	"epoch": 22.20104712041885,
	"learning_rate": 0.0003506480353520526,
	"loss": 2.3758676528930662,
	"step": 10590
	},
	{
	"epoch": 22.221989528795813,
	"learning_rate": 0.0003504825963075276,
	"loss": 2.417715644836426,
	"step": 10600
	},
	{
	"epoch": 22.242931937172774,
	"learning_rate": 0.00035031739120935175,
	"loss": 2.3941156387329103,
	"step": 10610
	},
	{
	"epoch": 22.263874345549738,
	"learning_rate": 0.0003501524195066741,
	"loss": 2.3949649810791014,
	"step": 10620
	},
	{
	"epoch": 22.2848167539267,
	"learning_rate": 0.0003499876806504578,
	"loss": 2.4047883987426757,
	"step": 10630
	},
	{
	"epoch": 22.305759162303666,
	"learning_rate": 0.00034982317409347263,
	"loss": 2.3971155166625975,
	"step": 10640
	},
	{
	"epoch": 22.32670157068063,
	"learning_rate": 0.00034965889929028707,
	"loss": 2.404866027832031,
	"step": 10650
	},
	{
	"epoch": 22.34764397905759,
	"learning_rate": 0.000349494855697261,
	"loss": 2.3915122985839843,
	"step": 10660
	},
	{
	"epoch": 22.368586387434554,
	"learning_rate": 0.0003493310427725377,
	"loss": 2.39025936126709,
	"step": 10670
	},
	{
	"epoch": 22.38952879581152,
	"learning_rate": 0.0003491674599760369,
	"loss": 2.399850273132324,
	"step": 10680
	},
	{
	"epoch": 22.410471204188482,
	"learning_rate": 0.0003490041067694469,
	"loss": 2.3945247650146486,
	"step": 10690
	},
	{
	"epoch": 22.431413612565446,
	"learning_rate": 0.00034884098261621724,
	"loss": 2.397679901123047,
	"step": 10700
	},
	{
	"epoch": 22.452356020942407,
	"learning_rate": 0.00034867808698155125,
	"loss": 2.355159568786621,
	"step": 10710
	},
	{
	"epoch": 22.47329842931937,
	"learning_rate": 0.0003485154193323988,
	"loss": 2.3898927688598635,
	"step": 10720
	},
	{
	"epoch": 22.494240837696335,
	"learning_rate": 0.00034835297913744903,
	"loss": 2.367123031616211,
	"step": 10730
	},
	{
	"epoch": 22.5151832460733,
	"learning_rate": 0.0003481907658671227,
	"loss": 2.3852542877197265,
	"step": 10740
	},
	{
	"epoch": 22.536125654450263,
	"learning_rate": 0.0003480287789935653,
	"loss": 2.4065229415893556,
	"step": 10750
	},
	{
	"epoch": 22.557068062827224,
	"learning_rate": 0.00034786701799063976,
	"loss": 2.3588846206665037,
	"step": 10760
	},
	{
	"epoch": 22.578010471204188,
	"learning_rate": 0.00034770548233391924,
	"loss": 2.390997123718262,
	"step": 10770
	},
	{
	"epoch": 22.59895287958115,
	"learning_rate": 0.0003475441715006799,
	"loss": 2.3878786087036135,
	"step": 10780
	},
	{
	"epoch": 22.619895287958116,
	"learning_rate": 0.0003473830849698938,
	"loss": 2.398370552062988,
	"step": 10790
	},
	{
	"epoch": 22.64083769633508,
	"learning_rate": 0.0003472222222222222,
	"loss": 2.3805349349975584,
	"step": 10800
	},
	{
	"epoch": 22.66178010471204,
	"learning_rate": 0.00034706158274000796,
	"loss": 2.3977741241455077,
	"step": 10810
	},
	{
	"epoch": 22.682722513089004,
	"learning_rate": 0.00034690116600726885,
	"loss": 2.387373924255371,
	"step": 10820
	},
	{
	"epoch": 22.70366492146597,
	"learning_rate": 0.0003467409715096907,
	"loss": 2.3700994491577148,
	"step": 10830
	},
	{
	"epoch": 22.724607329842932,
	"learning_rate": 0.00034658099873462027,
	"loss": 2.3671117782592774,
	"step": 10840
	},
	{
	"epoch": 22.745549738219896,
	"learning_rate": 0.0003464212471710583,
	"loss": 2.377743148803711,
	"step": 10850
	},
	{
	"epoch": 22.76649214659686,
	"learning_rate": 0.0003462617163096529,
	"loss": 2.386002540588379,
	"step": 10860
	},
	{
	"epoch": 22.78743455497382,
	"learning_rate": 0.00034610240564269265,
	"loss": 2.3687204360961913,
	"step": 10870
	},
	{
	"epoch": 22.808376963350785,
	"learning_rate": 0.0003459433146640997,
	"loss": 2.3671218872070314,
	"step": 10880
	},
	{
	"epoch": 22.82931937172775,
	"learning_rate": 0.00034578444286942307,
	"loss": 2.3793460845947267,
	"step": 10890
	},
	{
	"epoch": 22.850261780104713,
	"learning_rate": 0.00034562578975583187,
	"loss": 2.374790382385254,
	"step": 10900
	},
	{
	"epoch": 22.871204188481677,
	"learning_rate": 0.00034546735482210894,
	"loss": 2.356049728393555,
	"step": 10910
	},
	{
	"epoch": 22.892146596858638,
	"learning_rate": 0.0003453091375686437,
	"loss": 2.361851119995117,
	"step": 10920
	},
	{
	"epoch": 22.9130890052356,
	"learning_rate": 0.00034515113749742586,
	"loss": 2.3911083221435545,
	"step": 10930
	},
	{
	"epoch": 22.934031413612566,
	"learning_rate": 0.00034499335411203894,
	"loss": 2.353407096862793,
	"step": 10940
	},
	{
	"epoch": 22.95497382198953,
	"learning_rate": 0.00034483578691765326,
	"loss": 2.3763240814208983,
	"step": 10950
	},
	{
	"epoch": 22.975916230366494,
	"learning_rate": 0.00034467843542102,
	"loss": 2.3745288848876953,
	"step": 10960
	},
	{
	"epoch": 22.996858638743454,
	"learning_rate": 0.0003445212991304641,
	"loss": 2.367890167236328,
	"step": 10970
	},
	{
	"epoch": 22.99895287958115,
	"eval_loss": 2.542264461517334,
	"eval_runtime": 74.647,
	"eval_samples_per_second": 146.771,
	"step": 10971
	},
	{
	"epoch": 23.018848167539268,
	"learning_rate": 0.00034436437755587827,
	"loss": 2.4732553482055666,
	"step": 10980
	},
	{
	"epoch": 23.039790575916232,
	"learning_rate": 0.00034420767020871656,
	"loss": 2.3789663314819336,
	"step": 10990
	},
	{
	"epoch": 23.060732984293193,
	"learning_rate": 0.00034405117660198765,
	"loss": 2.387537384033203,
	"step": 11000
	},
	{
	"epoch": 23.081675392670157,
	"learning_rate": 0.00034389489625024885,
	"loss": 2.3760297775268553,
	"step": 11010
	},
	{
	"epoch": 23.10261780104712,
	"learning_rate": 0.00034373882866959936,
	"loss": 2.3746875762939452,
	"step": 11020
	},
	{
	"epoch": 23.123560209424085,
	"learning_rate": 0.0003435829733776745,
	"loss": 2.4071685791015627,
	"step": 11030
	},
	{
	"epoch": 23.14450261780105,
	"learning_rate": 0.00034342732989363903,
	"loss": 2.3595859527587892,
	"step": 11040
	},
	{
	"epoch": 23.16544502617801,
	"learning_rate": 0.0003432718977381811,
	"loss": 2.356878662109375,
	"step": 11050
	},
	{
	"epoch": 23.186387434554973,
	"learning_rate": 0.0003431166764335058,
	"loss": 2.3806716918945314,
	"step": 11060
	},
	{
	"epoch": 23.207329842931937,
	"learning_rate": 0.0003429616655033297,
	"loss": 2.365432929992676,
	"step": 11070
	},
	{
	"epoch": 23.2282722513089,
	"learning_rate": 0.00034280686447287373,
	"loss": 2.3477930068969726,
	"step": 11080
	},
	{
	"epoch": 23.249214659685865,
	"learning_rate": 0.00034265227286885776,
	"loss": 2.359480094909668,
	"step": 11090
	},
	{
	"epoch": 23.270157068062826,
	"learning_rate": 0.00034249789021949435,
	"loss": 2.3736724853515625,
	"step": 11100
	},
	{
	"epoch": 23.29109947643979,
	"learning_rate": 0.0003423437160544826,
	"loss": 2.3853965759277345,
	"step": 11110
	},
	{
	"epoch": 23.312041884816754,
	"learning_rate": 0.0003421897499050022,
	"loss": 2.3594213485717774,
	"step": 11120
	},
	{
	"epoch": 23.332984293193718,
	"learning_rate": 0.0003420359913037075,
	"loss": 2.3540416717529298,
	"step": 11130
	},
	{
	"epoch": 23.353926701570682,
	"learning_rate": 0.0003418824397847216,
	"loss": 2.371465301513672,
	"step": 11140
	},
	{
	"epoch": 23.374869109947642,
	"learning_rate": 0.00034172909488363007,
	"loss": 2.360518455505371,
	"step": 11150
	},
	{
	"epoch": 23.395811518324606,
	"learning_rate": 0.00034157595613747545,
	"loss": 2.347417640686035,
	"step": 11160
	},
	{
	"epoch": 23.41675392670157,
	"learning_rate": 0.00034142302308475133,
	"loss": 2.388157081604004,
	"step": 11170
	},
	{
	"epoch": 23.437696335078535,
	"learning_rate": 0.0003412702952653962,
	"loss": 2.348739433288574,
	"step": 11180
	},
	{
	"epoch": 23.4586387434555,
	"learning_rate": 0.00034111777222078796,
	"loss": 2.3871492385864257,
	"step": 11190
	},
	{
	"epoch": 23.47958115183246,
	"learning_rate": 0.00034096545349373804,
	"loss": 2.3624570846557615,
	"step": 11200
	},
	{
	"epoch": 23.500523560209423,
	"learning_rate": 0.0003408133386284857,
	"loss": 2.337727165222168,
	"step": 11210
	},
	{
	"epoch": 23.521465968586387,
	"learning_rate": 0.0003406614271706919,
	"loss": 2.3544214248657225,
	"step": 11220
	},
	{
	"epoch": 23.54240837696335,
	"learning_rate": 0.0003405097186674344,
	"loss": 2.3601694107055664,
	"step": 11230
	},
	{
	"epoch": 23.563350785340315,
	"learning_rate": 0.00034035821266720136,
	"loss": 2.3869655609130858,
	"step": 11240
	},
	{
	"epoch": 23.58429319371728,
	"learning_rate": 0.0003402069087198858,
	"loss": 2.3417810440063476,
	"step": 11250
	},
	{
	"epoch": 23.60523560209424,
	"learning_rate": 0.00034005580637678053,
	"loss": 2.3512496948242188,
	"step": 11260
	},
	{
	"epoch": 23.626178010471204,
	"learning_rate": 0.00033990490519057183,
	"loss": 2.3688682556152343,
	"step": 11270
	},
	{
	"epoch": 23.647120418848168,
	"learning_rate": 0.0003397542047153345,
	"loss": 2.3577795028686523,
	"step": 11280
	},
	{
	"epoch": 23.668062827225132,
	"learning_rate": 0.0003396037045065257,
	"loss": 2.380731201171875,
	"step": 11290
	},
	{
	"epoch": 23.689005235602096,
	"learning_rate": 0.0003394534041209802,
	"loss": 2.349542427062988,
	"step": 11300
	},
	{
	"epoch": 23.709947643979056,
	"learning_rate": 0.0003393033031169043,
	"loss": 2.3590700149536135,
	"step": 11310
	},
	{
	"epoch": 23.73089005235602,
	"learning_rate": 0.0003391534010538705,
	"loss": 2.392327880859375,
	"step": 11320
	},
	{
	"epoch": 23.751832460732984,
	"learning_rate": 0.00033900369749281225,
	"loss": 2.3760391235351563,
	"step": 11330
	},
	{
	"epoch": 23.77277486910995,
	"learning_rate": 0.00033885419199601845,
	"loss": 2.355258560180664,
	"step": 11340
	},
	{
	"epoch": 23.793717277486913,
	"learning_rate": 0.000338704884127128,
	"loss": 2.369922065734863,
	"step": 11350
	},
	{
	"epoch": 23.814659685863873,
	"learning_rate": 0.00033855577345112453,
	"loss": 2.410330390930176,
	"step": 11360
	},
	{
	"epoch": 23.835602094240837,
	"learning_rate": 0.0003384068595343312,
	"loss": 2.374154472351074,
	"step": 11370
	},
	{
	"epoch": 23.8565445026178,
	"learning_rate": 0.00033825814194440504,
	"loss": 2.360888671875,
	"step": 11380
	},
	{
	"epoch": 23.877486910994765,
	"learning_rate": 0.0003381096202503321,
	"loss": 2.372193145751953,
	"step": 11390
	},
	{
	"epoch": 23.89842931937173,
	"learning_rate": 0.00033796129402242193,
	"loss": 2.3628297805786134,
	"step": 11400
	},
	{
	"epoch": 23.91937172774869,
	"learning_rate": 0.0003378131628323024,
	"loss": 2.365167999267578,
	"step": 11410
	},
	{
	"epoch": 23.940314136125654,
	"learning_rate": 0.0003376652262529146,
	"loss": 2.385006332397461,
	"step": 11420
	},
	{
	"epoch": 23.961256544502618,
	"learning_rate": 0.00033751748385850753,
	"loss": 2.3524898529052733,
	"step": 11430
	},
	{
	"epoch": 23.982198952879582,
	"learning_rate": 0.00033736993522463316,
	"loss": 2.374051094055176,
	"step": 11440
	},
	{
	"epoch": 23.99895287958115,
	"eval_loss": 2.532155990600586,
	"eval_runtime": 73.6953,
	"eval_samples_per_second": 148.666,
	"step": 11448
	},
	{
	"epoch": 24.004188481675392,
	"learning_rate": 0.00033722257992814113,
	"loss": 2.4828319549560547,
	"step": 11450
	},
	{
	"epoch": 24.025130890052356,
	"learning_rate": 0.0003370754175471737,
	"loss": 2.360254669189453,
	"step": 11460
	},
	{
	"epoch": 24.04607329842932,
	"learning_rate": 0.0003369284476611607,
	"loss": 2.349439811706543,
	"step": 11470
	},
	{
	"epoch": 24.067015706806284,
	"learning_rate": 0.00033678166985081433,
	"loss": 2.36633415222168,
	"step": 11480
	},
	{
	"epoch": 24.087958115183245,
	"learning_rate": 0.0003366350836981245,
	"loss": 2.365359306335449,
	"step": 11490
	},
	{
	"epoch": 24.10890052356021,
	"learning_rate": 0.0003364886887863534,
	"loss": 2.362344169616699,
	"step": 11500
	},
	{
	"epoch": 24.129842931937173,
	"learning_rate": 0.0003363424847000309,
	"loss": 2.357081985473633,
	"step": 11510
	},
	{
	"epoch": 24.150785340314137,
	"learning_rate": 0.0003361964710249494,
	"loss": 2.3507287979125975,
	"step": 11520
	},
	{
	"epoch": 24.1717277486911,
	"learning_rate": 0.00033605064734815865,
	"loss": 2.3537702560424805,
	"step": 11530
	},
	{
	"epoch": 24.19267015706806,
	"learning_rate": 0.0003359050132579615,
	"loss": 2.37689151763916,
	"step": 11540
	},
	{
	"epoch": 24.213612565445025,
	"learning_rate": 0.00033575956834390843,
	"loss": 2.348763847351074,
	"step": 11550
	},
	{
	"epoch": 24.23455497382199,
	"learning_rate": 0.00033561431219679297,
	"loss": 2.3715591430664062,
	"step": 11560
	},
	{
	"epoch": 24.255497382198953,
	"learning_rate": 0.00033546924440864666,
	"loss": 2.3734716415405273,
	"step": 11570
	},
	{
	"epoch": 24.276439790575917,
	"learning_rate": 0.0003353243645727346,
	"loss": 2.3519350051879884,
	"step": 11580
	},
	{
	"epoch": 24.297382198952878,
	"learning_rate": 0.0003351796722835502,
	"loss": 2.355198287963867,
	"step": 11590
	},
	{
	"epoch": 24.318324607329842,
	"learning_rate": 0.00033503516713681087,
	"loss": 2.3704608917236327,
	"step": 11600
	},
	{
	"epoch": 24.339267015706806,
	"learning_rate": 0.00033489084872945283,
	"loss": 2.3960491180419923,
	"step": 11610
	},
	{
	"epoch": 24.36020942408377,
	"learning_rate": 0.0003347467166596268,
	"loss": 2.3748762130737306,
	"step": 11620
	},
	{
	"epoch": 24.381151832460734,
	"learning_rate": 0.0003346027705266929,
	"loss": 2.358123016357422,
	"step": 11630
	},
	{
	"epoch": 24.402094240837695,
	"learning_rate": 0.0003344590099312164,
	"loss": 2.345402717590332,
	"step": 11640
	},
	{
	"epoch": 24.42303664921466,
	"learning_rate": 0.00033431543447496275,
	"loss": 2.331704330444336,
	"step": 11650
	},
	{
	"epoch": 24.443979057591623,
	"learning_rate": 0.000334172043760893,
	"loss": 2.377284812927246,
	"step": 11660
	},
	{
	"epoch": 24.464921465968587,
	"learning_rate": 0.0003340288373931593,
	"loss": 2.354692268371582,
	"step": 11670
	},
	{
	"epoch": 24.48586387434555,
	"learning_rate": 0.0003338858149771002,
	"loss": 2.3740156173706053,
	"step": 11680
	},
	{
	"epoch": 24.506806282722515,
	"learning_rate": 0.0003337429761192361,
	"loss": 2.367665672302246,
	"step": 11690
	},
	{
	"epoch": 24.527748691099475,
	"learning_rate": 0.00033360032042726483,
	"loss": 2.362037467956543,
	"step": 11700
	},
	{
	"epoch": 24.54869109947644,
	"learning_rate": 0.000333457847510057,
	"loss": 2.371419334411621,
	"step": 11710
	},
	{
	"epoch": 24.569633507853403,
	"learning_rate": 0.0003333155569776514,
	"loss": 2.33715934753418,
	"step": 11720
	},
	{
	"epoch": 24.590575916230367,
	"learning_rate": 0.00033317344844125064,
	"loss": 2.3361494064331056,
	"step": 11730
	},
	{
	"epoch": 24.61151832460733,
	"learning_rate": 0.00033303152151321696,
	"loss": 2.346495819091797,
	"step": 11740
	},
	{
	"epoch": 24.632460732984292,
	"learning_rate": 0.00033288977580706714,
	"loss": 2.3827404022216796,
	"step": 11750
	},
	{
	"epoch": 24.653403141361256,
	"learning_rate": 0.0003327482109374687,
	"loss": 2.3554365158081056,
	"step": 11760
	},
	{
	"epoch": 24.67434554973822,
	"learning_rate": 0.00033260682652023517,
	"loss": 2.3607540130615234,
	"step": 11770
	},
	{
	"epoch": 24.695287958115184,
	"learning_rate": 0.0003324656221723217,
	"loss": 2.3806394577026366,
	"step": 11780
	},
	{
	"epoch": 24.716230366492148,
	"learning_rate": 0.000332324597511821,
	"loss": 2.3277612686157227,
	"step": 11790
	},
	{
	"epoch": 24.73717277486911,
	"learning_rate": 0.00033218375215795864,
	"loss": 2.3573076248168947,
	"step": 11800
	},
	{
	"epoch": 24.758115183246073,
	"learning_rate": 0.00033204308573108897,
	"loss": 2.3293807983398436,
	"step": 11810
	},
	{
	"epoch": 24.779057591623037,
	"learning_rate": 0.00033190259785269066,
	"loss": 2.3627220153808595,
	"step": 11820
	},
	{
	"epoch": 24.8,
	"learning_rate": 0.0003317622881453626,
	"loss": 2.3504779815673826,
	"step": 11830
	},
	{
	"epoch": 24.820942408376965,
	"learning_rate": 0.0003316221562328194,
	"loss": 2.3526493072509767,
	"step": 11840
	},
	{
	"epoch": 24.841884816753925,
	"learning_rate": 0.0003314822017398875,
	"loss": 2.367503547668457,
	"step": 11850
	},
	{
	"epoch": 24.86282722513089,
	"learning_rate": 0.00033134242429250053,
	"loss": 2.364429473876953,
	"step": 11860
	},
	{
	"epoch": 24.883769633507853,
	"learning_rate": 0.00033120282351769556,
	"loss": 2.3418235778808594,
	"step": 11870
	},
	{
	"epoch": 24.904712041884817,
	"learning_rate": 0.0003310633990436084,
	"loss": 2.361065483093262,
	"step": 11880
	},
	{
	"epoch": 24.92565445026178,
	"learning_rate": 0.00033092415049947006,
	"loss": 2.3631685256958006,
	"step": 11890
	},
	{
	"epoch": 24.946596858638742,
	"learning_rate": 0.00033078507751560195,
	"loss": 2.346321868896484,
	"step": 11900
	},
	{
	"epoch": 24.967539267015706,
	"learning_rate": 0.00033064617972341235,
	"loss": 2.3589923858642576,
	"step": 11910
	},
	{
	"epoch": 24.98848167539267,
	"learning_rate": 0.0003305074567553919,
	"loss": 2.3485301971435546,
	"step": 11920
	},
	{
	"epoch": 24.99895287958115,
	"eval_loss": 2.5436818599700928,
	"eval_runtime": 73.6581,
	"eval_samples_per_second": 148.741,
	"step": 11925
	},
	{
	"epoch": 25.01047120418848,
	"learning_rate": 0.0003303689082451096,
	"loss": 2.483962059020996,
	"step": 11930
	},
	{
	"epoch": 25.031413612565444,
	"learning_rate": 0.00033023053382720904,
	"loss": 2.352615547180176,
	"step": 11940
	},
	{
	"epoch": 25.05235602094241,
	"learning_rate": 0.0003300923331374039,
	"loss": 2.379102325439453,
	"step": 11950
	},
	{
	"epoch": 25.073298429319372,
	"learning_rate": 0.00032995430581247417,
	"loss": 2.3579853057861326,
	"step": 11960
	},
	{
	"epoch": 25.094240837696336,
	"learning_rate": 0.0003298164514902622,
	"loss": 2.3461565017700194,
	"step": 11970
	},
	{
	"epoch": 25.115183246073297,
	"learning_rate": 0.0003296787698096686,
	"loss": 2.328052520751953,
	"step": 11980
	},
	{
	"epoch": 25.13612565445026,
	"learning_rate": 0.0003295412604106482,
	"loss": 2.337063026428223,
	"step": 11990
	},
	{
	"epoch": 25.157068062827225,
	"learning_rate": 0.00032940392293420614,
	"loss": 2.3367223739624023,
	"step": 12000
	},
	{
	"epoch": 25.17801047120419,
	"learning_rate": 0.00032926675702239425,
	"loss": 2.365107536315918,
	"step": 12010
	},
	{
	"epoch": 25.198952879581153,
	"learning_rate": 0.00032912976231830646,
	"loss": 2.3596302032470704,
	"step": 12020
	},
	{
	"epoch": 25.219895287958114,
	"learning_rate": 0.0003289929384660757,
	"loss": 2.336884307861328,
	"step": 12030
	},
	{
	"epoch": 25.240837696335078,
	"learning_rate": 0.0003288562851108693,
	"loss": 2.3663518905639647,
	"step": 12040
	},
	{
	"epoch": 25.26178010471204,
	"learning_rate": 0.0003287198018988856,
	"loss": 2.3383811950683593,
	"step": 12050
	},
	{
	"epoch": 25.282722513089006,
	"learning_rate": 0.00032858348847734985,
	"loss": 2.3640661239624023,
	"step": 12060
	},
	{
	"epoch": 25.30366492146597,
	"learning_rate": 0.00032844734449451055,
	"loss": 2.3613861083984373,
	"step": 12070
	},
	{
	"epoch": 25.324607329842934,
	"learning_rate": 0.00032831136959963553,
	"loss": 2.3227806091308594,
	"step": 12080
	},
	{
	"epoch": 25.345549738219894,
	"learning_rate": 0.00032817556344300823,
	"loss": 2.328192710876465,
	"step": 12090
	},
	{
	"epoch": 25.36649214659686,
	"learning_rate": 0.0003280399256759237,
	"loss": 2.3461523056030273,
	"step": 12100
	},
	{
	"epoch": 25.387434554973822,
	"learning_rate": 0.0003279044559506852,
	"loss": 2.3762447357177736,
	"step": 12110
	},
	{
	"epoch": 25.408376963350786,
	"learning_rate": 0.0003277691539206003,
	"loss": 2.325837326049805,
	"step": 12120
	},
	{
	"epoch": 25.42931937172775,
	"learning_rate": 0.0003276340192399769,
	"loss": 2.3660905838012694,
	"step": 12130
	},
	{
	"epoch": 25.45026178010471,
	"learning_rate": 0.00032749905156412,
	"loss": 2.360948181152344,
	"step": 12140
	},
	{
	"epoch": 25.471204188481675,
	"learning_rate": 0.0003273642505493275,
	"loss": 2.3165866851806642,
	"step": 12150
	},
	{
	"epoch": 25.49214659685864,
	"learning_rate": 0.0003272296158528871,
	"loss": 2.3487401962280274,
	"step": 12160
	},
	{
	"epoch": 25.513089005235603,
	"learning_rate": 0.000327095147133072,
	"loss": 2.351056671142578,
	"step": 12170
	},
	{
	"epoch": 25.534031413612567,
	"learning_rate": 0.00032696084404913777,
	"loss": 2.3396501541137695,
	"step": 12180
	},
	{
	"epoch": 25.554973821989527,
	"learning_rate": 0.00032682670626131837,
	"loss": 2.3343048095703125,
	"step": 12190
	},
	{
	"epoch": 25.57591623036649,
	"learning_rate": 0.0003266927334308229,
	"loss": 2.3392221450805666,
	"step": 12200
	},
	{
	"epoch": 25.596858638743456,
	"learning_rate": 0.0003265589252198317,
	"loss": 2.339245414733887,
	"step": 12210
	},
	{
	"epoch": 25.61780104712042,
	"learning_rate": 0.0003264252812914928,
	"loss": 2.343129539489746,
	"step": 12220
	},
	{
	"epoch": 25.638743455497384,
	"learning_rate": 0.0003262918013099186,
	"loss": 2.344712829589844,
	"step": 12230
	},
	{
	"epoch": 25.659685863874344,
	"learning_rate": 0.00032615848494018204,
	"loss": 2.364294242858887,
	"step": 12240
	},
	{
	"epoch": 25.680628272251308,
	"learning_rate": 0.0003260253318483131,
	"loss": 2.3588529586791993,
	"step": 12250
	},
	{
	"epoch": 25.701570680628272,
	"learning_rate": 0.0003258923417012957,
	"loss": 2.3558927536010743,
	"step": 12260
	},
	{
	"epoch": 25.722513089005236,
	"learning_rate": 0.00032575951416706354,
	"loss": 2.370713996887207,
	"step": 12270
	},
	{
	"epoch": 25.7434554973822,
	"learning_rate": 0.0003256268489144972,
	"loss": 2.3426084518432617,
	"step": 12280
	},
	{
	"epoch": 25.76439790575916,
	"learning_rate": 0.0003254943456134202,
	"loss": 2.3299545288085937,
	"step": 12290
	},
	{
	"epoch": 25.785340314136125,
	"learning_rate": 0.0003253620039345959,
	"loss": 2.343545913696289,
	"step": 12300
	},
	{
	"epoch": 25.80628272251309,
	"learning_rate": 0.0003252298235497241,
	"loss": 2.3348289489746095,
	"step": 12310
	},
	{
	"epoch": 25.827225130890053,
	"learning_rate": 0.0003250978041314371,
	"loss": 2.3712085723876952,
	"step": 12320
	},
	{
	"epoch": 25.848167539267017,
	"learning_rate": 0.000324965945353297,
	"loss": 2.347680854797363,
	"step": 12330
	},
	{
	"epoch": 25.869109947643977,
	"learning_rate": 0.0003248342468897917,
	"loss": 2.342079925537109,
	"step": 12340
	},
	{
	"epoch": 25.89005235602094,
	"learning_rate": 0.00032470270841633195,
	"loss": 2.376851272583008,
	"step": 12350
	},
	{
	"epoch": 25.910994764397905,
	"learning_rate": 0.00032457132960924783,
	"loss": 2.3613746643066404,
	"step": 12360
	},
	{
	"epoch": 25.93193717277487,
	"learning_rate": 0.00032444011014578535,
	"loss": 2.3406829833984375,
	"step": 12370
	},
	{
	"epoch": 25.952879581151834,
	"learning_rate": 0.00032430904970410314,
	"loss": 2.328056526184082,
	"step": 12380
	},
	{
	"epoch": 25.973821989528794,
	"learning_rate": 0.0003241781479632693,
	"loss": 2.3438344955444337,
	"step": 12390
	},
	{
	"epoch": 25.994764397905758,
	"learning_rate": 0.0003240474046032579,
	"loss": 2.349610137939453,
	"step": 12400
	},
	{
	"epoch": 25.99895287958115,
	"eval_loss": 2.533395767211914,
	"eval_runtime": 73.6578,
	"eval_samples_per_second": 148.742,
	"step": 12402
	},
	{
	"epoch": 26.016753926701572,
	"learning_rate": 0.00032391681930494566,
	"loss": 2.4640811920166015,
	"step": 12410
	},
	{
	"epoch": 26.037696335078532,
	"learning_rate": 0.000323786391750109,
	"loss": 2.3338626861572265,
	"step": 12420
	},
	{
	"epoch": 26.058638743455496,
	"learning_rate": 0.0003236561216214202,
	"loss": 2.342071533203125,
	"step": 12430
	},
	{
	"epoch": 26.07958115183246,
	"learning_rate": 0.000323526008602445,
	"loss": 2.374074172973633,
	"step": 12440
	},
	{
	"epoch": 26.100523560209425,
	"learning_rate": 0.0003233960523776387,
	"loss": 2.3421449661254883,
	"step": 12450
	},
	{
	"epoch": 26.12146596858639,
	"learning_rate": 0.0003232662526323429,
	"loss": 2.3614429473876952,
	"step": 12460
	},
	{
	"epoch": 26.14240837696335,
	"learning_rate": 0.0003231366090527828,
	"loss": 2.319747543334961,
	"step": 12470
	},
	{
	"epoch": 26.163350785340313,
	"learning_rate": 0.00032300712132606366,
	"loss": 2.3622182846069335,
	"step": 12480
	},
	{
	"epoch": 26.184293193717277,
	"learning_rate": 0.0003228777891401678,
	"loss": 2.359231185913086,
	"step": 12490
	},
	{
	"epoch": 26.20523560209424,
	"learning_rate": 0.0003227486121839514,
	"loss": 2.355366516113281,
	"step": 12500
	},
	{
	"epoch": 26.226178010471205,
	"learning_rate": 0.00032261959014714107,
	"loss": 2.3299293518066406,
	"step": 12510
	},
	{
	"epoch": 26.24712041884817,
	"learning_rate": 0.0003224907227203312,
	"loss": 2.3555164337158203,
	"step": 12520
	},
	{
	"epoch": 26.26806282722513,
	"learning_rate": 0.0003223620095949806,
	"loss": 2.314861869812012,
	"step": 12530
	},
	{
	"epoch": 26.289005235602094,
	"learning_rate": 0.00032223345046340936,
	"loss": 2.3362022399902345,
	"step": 12540
	},
	{
	"epoch": 26.309947643979058,
	"learning_rate": 0.00032210504501879576,
	"loss": 2.3406482696533204,
	"step": 12550
	},
	{
	"epoch": 26.330890052356022,
	"learning_rate": 0.0003219767929551733,
	"loss": 2.30753231048584,
	"step": 12560
	},
	{
	"epoch": 26.351832460732986,
	"learning_rate": 0.00032184869396742754,
	"loss": 2.351367950439453,
	"step": 12570
	},
	{
	"epoch": 26.372774869109946,
	"learning_rate": 0.00032172074775129323,
	"loss": 2.3465883255004885,
	"step": 12580
	},
	{
	"epoch": 26.39371727748691,
	"learning_rate": 0.00032159295400335114,
	"loss": 2.3782730102539062,
	"step": 12590
	},
	{
	"epoch": 26.414659685863874,
	"learning_rate": 0.00032146531242102476,
	"loss": 2.3480430603027345,
	"step": 12600
	},
	{
	"epoch": 26.43560209424084,
	"learning_rate": 0.0003213378227025779,
	"loss": 2.370161437988281,
	"step": 12610
	},
	{
	"epoch": 26.456544502617803,
	"learning_rate": 0.00032121048454711114,
	"loss": 2.3542537689208984,
	"step": 12620
	},
	{
	"epoch": 26.477486910994763,
	"learning_rate": 0.00032108329765455926,
	"loss": 2.3564731597900392,
	"step": 12630
	},
	{
	"epoch": 26.498429319371727,
	"learning_rate": 0.00032095626172568784,
	"loss": 2.333011817932129,
	"step": 12640
	},
	{
	"epoch": 26.51937172774869,
	"learning_rate": 0.00032082937646209084,
	"loss": 2.3433643341064454,
	"step": 12650
	},
	{
	"epoch": 26.540314136125655,
	"learning_rate": 0.0003207026415661871,
	"loss": 2.3346595764160156,
	"step": 12660
	},
	{
	"epoch": 26.56125654450262,
	"learning_rate": 0.0003205760567412178,
	"loss": 2.339708709716797,
	"step": 12670
	},
	{
	"epoch": 26.58219895287958,
	"learning_rate": 0.00032044962169124335,
	"loss": 2.3501649856567384,
	"step": 12680
	},
	{
	"epoch": 26.603141361256544,
	"learning_rate": 0.0003203233361211406,
	"loss": 2.3222862243652345,
	"step": 12690
	},
	{
	"epoch": 26.624083769633508,
	"learning_rate": 0.00032019719973659996,
	"loss": 2.3362213134765626,
	"step": 12700
	},
	{
	"epoch": 26.645026178010472,
	"learning_rate": 0.00032007121224412224,
	"loss": 2.311092567443848,
	"step": 12710
	},
	{
	"epoch": 26.665968586387436,
	"learning_rate": 0.0003199453733510162,
	"loss": 2.332124137878418,
	"step": 12720
	},
	{
	"epoch": 26.686910994764396,
	"learning_rate": 0.00031981968276539543,
	"loss": 2.3406246185302733,
	"step": 12730
	},
	{
	"epoch": 26.70785340314136,
	"learning_rate": 0.0003196941401961754,
	"loss": 2.3419260025024413,
	"step": 12740
	},
	{
	"epoch": 26.728795811518324,
	"learning_rate": 0.000319568745353071,
	"loss": 2.344953727722168,
	"step": 12750
	},
	{
	"epoch": 26.74973821989529,
	"learning_rate": 0.0003194434979465935,
	"loss": 2.3517208099365234,
	"step": 12760
	},
	{
	"epoch": 26.770680628272252,
	"learning_rate": 0.0003193183976880476,
	"loss": 2.3811822891235352,
	"step": 12770
	},
	{
	"epoch": 26.791623036649213,
	"learning_rate": 0.00031919344428952895,
	"loss": 2.3604736328125,
	"step": 12780
	},
	{
	"epoch": 26.812565445026177,
	"learning_rate": 0.0003190686374639211,
	"loss": 2.3444387435913088,
	"step": 12790
	},
	{
	"epoch": 26.83350785340314,
	"learning_rate": 0.00031894397692489295,
	"loss": 2.340729331970215,
	"step": 12800
	},
	{
	"epoch": 26.854450261780105,
	"learning_rate": 0.0003188194623868958,
	"loss": 2.340890121459961,
	"step": 12810
	},
	{
	"epoch": 26.87539267015707,
	"learning_rate": 0.00031869509356516063,
	"loss": 2.3352834701538088,
	"step": 12820
	},
	{
	"epoch": 26.89633507853403,
	"learning_rate": 0.00031857087017569556,
	"loss": 2.3224008560180662,
	"step": 12830
	},
	{
	"epoch": 26.917277486910994,
	"learning_rate": 0.0003184467919352828,
	"loss": 2.3237512588500975,
	"step": 12840
	},
	{
	"epoch": 26.938219895287958,
	"learning_rate": 0.0003183228585614763,
	"loss": 2.3366432189941406,
	"step": 12850
	},
	{
	"epoch": 26.95916230366492,
	"learning_rate": 0.0003181990697725988,
	"loss": 2.3389394760131834,
	"step": 12860
	},
	{
	"epoch": 26.980104712041886,
	"learning_rate": 0.0003180754252877392,
	"loss": 2.2963605880737306,
	"step": 12870
	},
	{
	"epoch": 26.99895287958115,
	"eval_loss": 2.5350682735443115,
	"eval_runtime": 73.272,
	"eval_samples_per_second": 149.525,
	"step": 12879
	},
	{
	"epoch": 27.002094240837696,
	"learning_rate": 0.0003179519248267498,
	"loss": 2.4346525192260744,
	"step": 12880
	},
	{
	"epoch": 27.02303664921466,
	"learning_rate": 0.000317828568110244,
	"loss": 2.3435186386108398,
	"step": 12890
	},
	{
	"epoch": 27.043979057591624,
	"learning_rate": 0.000317705354859593,
	"loss": 2.351651191711426,
	"step": 12900
	},
	{
	"epoch": 27.064921465968588,
	"learning_rate": 0.0003175822847969239,
	"loss": 2.3490814208984374,
	"step": 12910
	},
	{
	"epoch": 27.08586387434555,
	"learning_rate": 0.00031745935764511645,
	"loss": 2.3329612731933596,
	"step": 12920
	},
	{
	"epoch": 27.106806282722513,
	"learning_rate": 0.0003173365731278007,
	"loss": 2.321672248840332,
	"step": 12930
	},
	{
	"epoch": 27.127748691099477,
	"learning_rate": 0.00031721393096935445,
	"loss": 2.3357425689697267,
	"step": 12940
	},
	{
	"epoch": 27.14869109947644,
	"learning_rate": 0.00031709143089490063,
	"loss": 2.3383440017700194,
	"step": 12950
	},
	{
	"epoch": 27.169633507853405,
	"learning_rate": 0.00031696907263030445,
	"loss": 2.3266096115112305,
	"step": 12960
	},
	{
	"epoch": 27.190575916230365,
	"learning_rate": 0.00031684685590217115,
	"loss": 2.3512828826904295,
	"step": 12970
	},
	{
	"epoch": 27.21151832460733,
	"learning_rate": 0.00031672478043784336,
	"loss": 2.329998016357422,
	"step": 12980
	},
	{
	"epoch": 27.232460732984293,
	"learning_rate": 0.0003166028459653984,
	"loss": 2.353693962097168,
	"step": 12990
	},
	{
	"epoch": 27.253403141361257,
	"learning_rate": 0.0003164810522136458,
	"loss": 2.3388673782348635,
	"step": 13000
	},
	{
	"epoch": 27.27434554973822,
	"learning_rate": 0.0003163593989121249,
	"loss": 2.34061222076416,
	"step": 13010
	},
	{
	"epoch": 27.295287958115182,
	"learning_rate": 0.0003162378857911022,
	"loss": 2.3279703140258787,
	"step": 13020
	},
	{
	"epoch": 27.316230366492146,
	"learning_rate": 0.00031611651258156884,
	"loss": 2.3643896102905275,
	"step": 13030
	},
	{
	"epoch": 27.33717277486911,
	"learning_rate": 0.0003159952790152381,
	"loss": 2.326703643798828,
	"step": 13040
	},
	{
	"epoch": 27.358115183246074,
	"learning_rate": 0.0003158741848245431,
	"loss": 2.3338809967041017,
	"step": 13050
	},
	{
	"epoch": 27.379057591623038,
	"learning_rate": 0.0003157532297426339,
	"loss": 2.318799591064453,
	"step": 13060
	},
	{
	"epoch": 27.4,
	"learning_rate": 0.00031563241350337546,
	"loss": 2.3162815093994142,
	"step": 13070
	},
	{
	"epoch": 27.420942408376963,
	"learning_rate": 0.00031551173584134514,
	"loss": 2.354751968383789,
	"step": 13080
	},
	{
	"epoch": 27.441884816753927,
	"learning_rate": 0.0003153911964918298,
	"loss": 2.3353591918945313,
	"step": 13090
	},
	{
	"epoch": 27.46282722513089,
	"learning_rate": 0.0003152707951908239,
	"loss": 2.3257909774780274,
	"step": 13100
	},
	{
	"epoch": 27.483769633507855,
	"learning_rate": 0.0003151505316750269,
	"loss": 2.336490821838379,
	"step": 13110
	},
	{
	"epoch": 27.504712041884815,
	"learning_rate": 0.0003150304056818405,
	"loss": 2.32800350189209,
	"step": 13120
	},
	{
	"epoch": 27.52565445026178,
	"learning_rate": 0.00031491041694936697,
	"loss": 2.3223346710205077,
	"step": 13130
	},
	{
	"epoch": 27.546596858638743,
	"learning_rate": 0.000314790565216406,
	"loss": 2.348642921447754,
	"step": 13140
	},
	{
	"epoch": 27.567539267015707,
	"learning_rate": 0.0003146708502224526,
	"loss": 2.3384424209594727,
	"step": 13150
	},
	{
	"epoch": 27.58848167539267,
	"learning_rate": 0.0003145512717076948,
	"loss": 2.301900863647461,
	"step": 13160
	},
	{
	"epoch": 27.609424083769632,
	"learning_rate": 0.00031443182941301147,
	"loss": 2.3309160232543946,
	"step": 13170
	},
	{
	"epoch": 27.630366492146596,
	"learning_rate": 0.0003143125230799694,
	"loss": 2.358192253112793,
	"step": 13180
	},
	{
	"epoch": 27.65130890052356,
	"learning_rate": 0.00031419335245082134,
	"loss": 2.347599220275879,
	"step": 13190
	},
	{
	"epoch": 27.672251308900524,
	"learning_rate": 0.00031407431726850375,
	"loss": 2.330830764770508,
	"step": 13200
	},
	{
	"epoch": 27.693193717277488,
	"learning_rate": 0.00031395541727663413,
	"loss": 2.33847599029541,
	"step": 13210
	},
	{
	"epoch": 27.71413612565445,
	"learning_rate": 0.0003138366522195088,
	"loss": 2.3454364776611327,
	"step": 13220
	},
	{
	"epoch": 27.735078534031413,
	"learning_rate": 0.0003137180218421011,
	"loss": 2.3458301544189455,
	"step": 13230
	},
	{
	"epoch": 27.756020942408377,
	"learning_rate": 0.0003135995258900582,
	"loss": 2.2951147079467775,
	"step": 13240
	},
	{
	"epoch": 27.77696335078534,
	"learning_rate": 0.0003134811641096994,
	"loss": 2.324018096923828,
	"step": 13250
	},
	{
	"epoch": 27.797905759162305,
	"learning_rate": 0.00031336293624801393,
	"loss": 2.320078468322754,
	"step": 13260
	},
	{
	"epoch": 27.81884816753927,
	"learning_rate": 0.00031324484205265824,
	"loss": 2.3213479995727537,
	"step": 13270
	},
	{
	"epoch": 27.83979057591623,
	"learning_rate": 0.000313126881271954,
	"loss": 2.352939224243164,
	"step": 13280
	},
	{
	"epoch": 27.860732984293193,
	"learning_rate": 0.0003130090536548859,
	"loss": 2.3275819778442384,
	"step": 13290
	},
	{
	"epoch": 27.881675392670157,
	"learning_rate": 0.00031289135895109924,
	"loss": 2.341213607788086,
	"step": 13300
	},
	{
	"epoch": 27.90261780104712,
	"learning_rate": 0.00031277379691089786,
	"loss": 2.352794647216797,
	"step": 13310
	},
	{
	"epoch": 27.923560209424085,
	"learning_rate": 0.00031265636728524174,
	"loss": 2.329135513305664,
	"step": 13320
	},
	{
	"epoch": 27.944502617801046,
	"learning_rate": 0.000312539069825745,
	"loss": 2.3414382934570312,
	"step": 13330
	},
	{
	"epoch": 27.96544502617801,
	"learning_rate": 0.00031242190428467325,
	"loss": 2.3638214111328124,
	"step": 13340
	},
	{
	"epoch": 27.986387434554974,
	"learning_rate": 0.0003123048704149423,
	"loss": 2.326797294616699,
	"step": 13350
	},
	{
	"epoch": 27.99895287958115,
	"eval_loss": 2.532017469406128,
	"eval_runtime": 73.734,
	"eval_samples_per_second": 148.588,
	"step": 13356
	},
	{
	"epoch": 28.008376963350784,
	"learning_rate": 0.0003121879679701147,
	"loss": 2.463714599609375,
	"step": 13360
	},
	{
	"epoch": 28.02931937172775,
	"learning_rate": 0.00031207119670439884,
	"loss": 2.3355535507202148,
	"step": 13370
	},
	{
	"epoch": 28.050261780104712,
	"learning_rate": 0.00031195455637264574,
	"loss": 2.3194732666015625,
	"step": 13380
	},
	{
	"epoch": 28.071204188481676,
	"learning_rate": 0.00031183804673034756,
	"loss": 2.3297607421875,
	"step": 13390
	},
	{
	"epoch": 28.09214659685864,
	"learning_rate": 0.0003117216675336353,
	"loss": 2.33233642578125,
	"step": 13400
	},
	{
	"epoch": 28.1130890052356,
	"learning_rate": 0.00031160541853927627,
	"loss": 2.3335954666137697,
	"step": 13410
	},
	{
	"epoch": 28.134031413612565,
	"learning_rate": 0.0003114892995046725,
	"loss": 2.3236547470092774,
	"step": 13420
	},
	{
	"epoch": 28.15497382198953,
	"learning_rate": 0.00031137331018785835,
	"loss": 2.3411203384399415,
	"step": 13430
	},
	{
	"epoch": 28.175916230366493,
	"learning_rate": 0.00031125745034749834,
	"loss": 2.343415451049805,
	"step": 13440
	},
	{
	"epoch": 28.196858638743457,
	"learning_rate": 0.00031114171974288516,
	"loss": 2.305185890197754,
	"step": 13450
	},
	{
	"epoch": 28.217801047120417,
	"learning_rate": 0.00031102611813393753,
	"loss": 2.3106929779052736,
	"step": 13460
	},
	{
	"epoch": 28.23874345549738,
	"learning_rate": 0.0003109106452811981,
	"loss": 2.342930221557617,
	"step": 13470
	},
	{
	"epoch": 28.259685863874346,
	"learning_rate": 0.00031079530094583135,
	"loss": 2.3201034545898436,
	"step": 13480
	},
	{
	"epoch": 28.28062827225131,
	"learning_rate": 0.0003106800848896216,
	"loss": 2.353871154785156,
	"step": 13490
	},
	{
	"epoch": 28.301570680628274,
	"learning_rate": 0.0003105649968749708,
	"loss": 2.3587244033813475,
	"step": 13500
	},
	{
	"epoch": 28.322513089005234,
	"learning_rate": 0.0003104500366648965,
	"loss": 2.334798812866211,
	"step": 13510
	},
	{
	"epoch": 28.343455497382198,
	"learning_rate": 0.0003103352040230302,
	"loss": 2.3387428283691407,
	"step": 13520
	},
	{
	"epoch": 28.364397905759162,
	"learning_rate": 0.00031022049871361445,
	"loss": 2.35083065032959,
	"step": 13530
	},
	{
	"epoch": 28.385340314136126,
	"learning_rate": 0.0003101059205015017,
	"loss": 2.329609680175781,
	"step": 13540
	},
	{
	"epoch": 28.40628272251309,
	"learning_rate": 0.0003099914691521518,
	"loss": 2.3420963287353516,
	"step": 13550
	},
	{
	"epoch": 28.42722513089005,
	"learning_rate": 0.00030987714443163,
	"loss": 2.3433679580688476,
	"step": 13560
	},
	{
	"epoch": 28.448167539267015,
	"learning_rate": 0.00030976294610660516,
	"loss": 2.3441110610961915,
	"step": 13570
	},
	{
	"epoch": 28.46910994764398,
	"learning_rate": 0.00030964887394434754,
	"loss": 2.338638687133789,
	"step": 13580
	},
	{
	"epoch": 28.490052356020943,
	"learning_rate": 0.000309534927712727,
	"loss": 2.3203834533691405,
	"step": 13590
	},
	{
	"epoch": 28.510994764397907,
	"learning_rate": 0.0003094211071802107,
	"loss": 2.3022727966308594,
	"step": 13600
	},
	{
	"epoch": 28.531937172774867,
	"learning_rate": 0.00030930741211586155,
	"loss": 2.3490713119506834,
	"step": 13610
	},
	{
	"epoch": 28.55287958115183,
	"learning_rate": 0.0003091938422893358,
	"loss": 2.3286787033081056,
	"step": 13620
	},
	{
	"epoch": 28.573821989528795,
	"learning_rate": 0.00030908039747088155,
	"loss": 2.305118942260742,
	"step": 13630
	},
	{
	"epoch": 28.59476439790576,
	"learning_rate": 0.00030896707743133635,
	"loss": 2.3220989227294924,
	"step": 13640
	},
	{
	"epoch": 28.615706806282724,
	"learning_rate": 0.0003088538819421255,
	"loss": 2.3236154556274413,
	"step": 13650
	},
	{
	"epoch": 28.636649214659684,
	"learning_rate": 0.00030874081077526003,
	"loss": 2.323534393310547,
	"step": 13660
	},
	{
	"epoch": 28.657591623036648,
	"learning_rate": 0.00030862786370333505,
	"loss": 2.3269046783447265,
	"step": 13670
	},
	{
	"epoch": 28.678534031413612,
	"learning_rate": 0.00030851504049952727,
	"loss": 2.3261356353759766,
	"step": 13680
	},
	{
	"epoch": 28.699476439790576,
	"learning_rate": 0.00030840234093759347,
	"loss": 2.3454893112182615,
	"step": 13690
	},
	{
	"epoch": 28.72041884816754,
	"learning_rate": 0.0003082897647918688,
	"loss": 2.3275333404541017,
	"step": 13700
	},
	{
	"epoch": 28.741361256544504,
	"learning_rate": 0.0003081773118372642,
	"loss": 2.3333641052246095,
	"step": 13710
	},
	{
	"epoch": 28.762303664921465,
	"learning_rate": 0.00030806498184926523,
	"loss": 2.3693473815917967,
	"step": 13720
	},
	{
	"epoch": 28.78324607329843,
	"learning_rate": 0.0003079527746039298,
	"loss": 2.3141483306884765,
	"step": 13730
	},
	{
	"epoch": 28.804188481675393,
	"learning_rate": 0.00030784068987788624,
	"loss": 2.353886032104492,
	"step": 13740
	},
	{
	"epoch": 28.825130890052357,
	"learning_rate": 0.00030772872744833183,
	"loss": 2.3143518447875975,
	"step": 13750
	},
	{
	"epoch": 28.84607329842932,
	"learning_rate": 0.00030761688709303036,
	"loss": 2.317976379394531,
	"step": 13760
	},
	{
	"epoch": 28.86701570680628,
	"learning_rate": 0.0003075051685903109,
	"loss": 2.331821060180664,
	"step": 13770
	},
	{
	"epoch": 28.887958115183245,
	"learning_rate": 0.00030739357171906536,
	"loss": 2.3297216415405275,
	"step": 13780
	},
	{
	"epoch": 28.90890052356021,
	"learning_rate": 0.0003072820962587471,
	"loss": 2.3354673385620117,
	"step": 13790
	},
	{
	"epoch": 28.929842931937173,
	"learning_rate": 0.00030717074198936904,
	"loss": 2.308320999145508,
	"step": 13800
	},
	{
	"epoch": 28.950785340314138,
	"learning_rate": 0.0003070595086915015,
	"loss": 2.312677192687988,
	"step": 13810
	},
	{
	"epoch": 28.971727748691098,
	"learning_rate": 0.00030694839614627076,
	"loss": 2.3000450134277344,
	"step": 13820
	},
	{
	"epoch": 28.992670157068062,
	"learning_rate": 0.0003068374041353571,
	"loss": 2.333408737182617,
	"step": 13830
	},
	{
	"epoch": 28.99895287958115,
	"eval_loss": 2.541404962539673,
	"eval_runtime": 73.9823,
	"eval_samples_per_second": 148.09,
	"step": 13833
	},
	{
	"epoch": 29.014659685863876,
	"learning_rate": 0.000306726532440993,
	"loss": 2.4384193420410156,
	"step": 13840
	},
	{
	"epoch": 29.035602094240836,
	"learning_rate": 0.0003066157808459613,
	"loss": 2.3120851516723633,
	"step": 13850
	},
	{
	"epoch": 29.0565445026178,
	"learning_rate": 0.0003065051491335936,
	"loss": 2.333901596069336,
	"step": 13860
	},
	{
	"epoch": 29.077486910994764,
	"learning_rate": 0.0003063946370877681,
	"loss": 2.311614227294922,
	"step": 13870
	},
	{
	"epoch": 29.09842931937173,
	"learning_rate": 0.0003062842444929085,
	"loss": 2.328507423400879,
	"step": 13880
	},
	{
	"epoch": 29.119371727748693,
	"learning_rate": 0.00030617397113398125,
	"loss": 2.3186750411987305,
	"step": 13890
	},
	{
	"epoch": 29.140314136125653,
	"learning_rate": 0.00030606381679649483,
	"loss": 2.3101566314697264,
	"step": 13900
	},
	{
	"epoch": 29.161256544502617,
	"learning_rate": 0.00030595378126649727,
	"loss": 2.3323139190673827,
	"step": 13910
	},
	{
	"epoch": 29.18219895287958,
	"learning_rate": 0.0003058438643305747,
	"loss": 2.3120336532592773,
	"step": 13920
	},
	{
	"epoch": 29.203141361256545,
	"learning_rate": 0.00030573406577584955,
	"loss": 2.3213123321533202,
	"step": 13930
	},
	{
	"epoch": 29.22408376963351,
	"learning_rate": 0.000305624385389979,
	"loss": 2.3158872604370115,
	"step": 13940
	},
	{
	"epoch": 29.24502617801047,
	"learning_rate": 0.0003055148229611527,
	"loss": 2.3301626205444337,
	"step": 13950
	},
	{
	"epoch": 29.265968586387434,
	"learning_rate": 0.00030540537827809176,
	"loss": 2.2979711532592773,
	"step": 13960
	},
	{
	"epoch": 29.286910994764398,
	"learning_rate": 0.0003052960511300467,
	"loss": 2.337363433837891,
	"step": 13970
	},
	{
	"epoch": 29.307853403141362,
	"learning_rate": 0.0003051868413067956,
	"loss": 2.3084648132324217,
	"step": 13980
	},
	{
	"epoch": 29.328795811518326,
	"learning_rate": 0.00030507774859864277,
	"loss": 2.3315618515014647,
	"step": 13990
	},
	{
	"epoch": 29.349738219895286,
	"learning_rate": 0.0003049687727964166,
	"loss": 2.342039680480957,
	"step": 14000
	},
	{
	"epoch": 29.37068062827225,
	"learning_rate": 0.00030485991369146834,
	"loss": 2.327268600463867,
	"step": 14010
	},
	{
	"epoch": 29.391623036649214,
	"learning_rate": 0.00030475117107567015,
	"loss": 2.311885643005371,
	"step": 14020
	},
	{
	"epoch": 29.41256544502618,
	"learning_rate": 0.0003046425447414135,
	"loss": 2.297453498840332,
	"step": 14030
	},
	{
	"epoch": 29.433507853403142,
	"learning_rate": 0.0003045340344816073,
	"loss": 2.295667839050293,
	"step": 14040
	},
	{
	"epoch": 29.454450261780103,
	"learning_rate": 0.0003044256400896769,
	"loss": 2.3093278884887694,
	"step": 14050
	},
	{
	"epoch": 29.475392670157067,
	"learning_rate": 0.0003043173613595614,
	"loss": 2.3026140213012694,
	"step": 14060
	},
	{
	"epoch": 29.49633507853403,
	"learning_rate": 0.0003042091980857131,
	"loss": 2.339429473876953,
	"step": 14070
	},
	{
	"epoch": 29.517277486910995,
	"learning_rate": 0.0003041011500630949,
	"loss": 2.3204904556274415,
	"step": 14080
	},
	{
	"epoch": 29.53821989528796,
	"learning_rate": 0.00030399321708717947,
	"loss": 2.327162170410156,
	"step": 14090
	},
	{
	"epoch": 29.559162303664923,
	"learning_rate": 0.00030388539895394697,
	"loss": 2.3462697982788088,
	"step": 14100
	},
	{
	"epoch": 29.580104712041884,
	"learning_rate": 0.00030377769545988394,
	"loss": 2.2912479400634767,
	"step": 14110
	},
	{
	"epoch": 29.601047120418848,
	"learning_rate": 0.00030367010640198143,
	"loss": 2.35098876953125,
	"step": 14120
	},
	{
	"epoch": 29.62198952879581,
	"learning_rate": 0.0003035626315777333,
	"loss": 2.304596710205078,
	"step": 14130
	},
	{
	"epoch": 29.642931937172776,
	"learning_rate": 0.00030345527078513493,
	"loss": 2.3083545684814455,
	"step": 14140
	},
	{
	"epoch": 29.66387434554974,
	"learning_rate": 0.0003033480238226813,
	"loss": 2.304719924926758,
	"step": 14150
	},
	{
	"epoch": 29.6848167539267,
	"learning_rate": 0.0003032408904893656,
	"loss": 2.309472846984863,
	"step": 14160
	},
	{
	"epoch": 29.705759162303664,
	"learning_rate": 0.00030313387058467756,
	"loss": 2.3114566802978516,
	"step": 14170
	},
	{
	"epoch": 29.72670157068063,
	"learning_rate": 0.0003030269639086021,
	"loss": 2.3168495178222654,
	"step": 14180
	},
	{
	"epoch": 29.747643979057592,
	"learning_rate": 0.0003029201702616173,
	"loss": 2.3027936935424806,
	"step": 14190
	},
	{
	"epoch": 29.768586387434556,
	"learning_rate": 0.0003028134894446933,
	"loss": 2.330441474914551,
	"step": 14200
	},
	{
	"epoch": 29.789528795811517,
	"learning_rate": 0.00030270692125929034,
	"loss": 2.2950525283813477,
	"step": 14210
	},
	{
	"epoch": 29.81047120418848,
	"learning_rate": 0.00030260046550735763,
	"loss": 2.3066877365112304,
	"step": 14220
	},
	{
	"epoch": 29.831413612565445,
	"learning_rate": 0.0003024941219913316,
	"loss": 2.3138294219970703,
	"step": 14230
	},
	{
	"epoch": 29.85235602094241,
	"learning_rate": 0.00030238789051413416,
	"loss": 2.3398483276367186,
	"step": 14240
	},
	{
	"epoch": 29.873298429319373,
	"learning_rate": 0.00030228177087917153,
	"loss": 2.3180753707885744,
	"step": 14250
	},
	{
	"epoch": 29.894240837696334,
	"learning_rate": 0.00030217576289033235,
	"loss": 2.293859100341797,
	"step": 14260
	},
	{
	"epoch": 29.915183246073298,
	"learning_rate": 0.00030206986635198654,
	"loss": 2.315079116821289,
	"step": 14270
	},
	{
	"epoch": 29.93612565445026,
	"learning_rate": 0.00030196408106898356,
	"loss": 2.3188785552978515,
	"step": 14280
	},
	{
	"epoch": 29.957068062827226,
	"learning_rate": 0.0003018584068466507,
	"loss": 2.355891799926758,
	"step": 14290
	},
	{
	"epoch": 29.97801047120419,
	"learning_rate": 0.0003017528434907922,
	"loss": 2.310663032531738,
	"step": 14300
	},
	{
	"epoch": 29.99895287958115,
	"learning_rate": 0.00030164739080768704,
	"loss": 2.357052803039551,
	"step": 14310
	},
	{
	"epoch": 29.99895287958115,
	"eval_loss": 2.5363190174102783,
	"eval_runtime": 73.3558,
	"eval_samples_per_second": 149.354,
	"step": 14310
	},
	{
	"epoch": 30.020942408376964,
	"learning_rate": 0.0003015420486040879,
	"loss": 2.432624626159668,
	"step": 14320
	},
	{
	"epoch": 30.041884816753928,
	"learning_rate": 0.00030143681668721935,
	"loss": 2.3034442901611327,
	"step": 14330
	},
	{
	"epoch": 30.06282722513089,
	"learning_rate": 0.00030133169486477694,
	"loss": 2.3489042282104493,
	"step": 14340
	},
	{
	"epoch": 30.083769633507853,
	"learning_rate": 0.0003012266829449249,
	"loss": 2.3431249618530274,
	"step": 14350
	},
	{
	"epoch": 30.104712041884817,
	"learning_rate": 0.00030112178073629544,
	"loss": 2.332902526855469,
	"step": 14360
	},
	{
	"epoch": 30.12565445026178,
	"learning_rate": 0.0003010169880479867,
	"loss": 2.323573112487793,
	"step": 14370
	},
	{
	"epoch": 30.146596858638745,
	"learning_rate": 0.0003009123046895618,
	"loss": 2.299881362915039,
	"step": 14380
	},
	{
	"epoch": 30.167539267015705,
	"learning_rate": 0.00030080773047104687,
	"loss": 2.319793701171875,
	"step": 14390
	},
	{
	"epoch": 30.18848167539267,
	"learning_rate": 0.0003007032652029301,
	"loss": 2.3272857666015625,
	"step": 14400
	},
	{
	"epoch": 30.209424083769633,
	"learning_rate": 0.00030059890869615983,
	"loss": 2.3354257583618163,
	"step": 14410
	},
	{
	"epoch": 30.230366492146597,
	"learning_rate": 0.0003004946607621435,
	"loss": 2.3249101638793945,
	"step": 14420
	},
	{
	"epoch": 30.25130890052356,
	"learning_rate": 0.0003003905212127461,
	"loss": 2.331306266784668,
	"step": 14430
	},
	{
	"epoch": 30.272251308900522,
	"learning_rate": 0.00030028648986028843,
	"loss": 2.3302356719970705,
	"step": 14440
	},
	{
	"epoch": 30.293193717277486,
	"learning_rate": 0.00030018256651754633,
	"loss": 2.3084732055664063,
	"step": 14450
	},
	{
	"epoch": 30.31413612565445,
	"learning_rate": 0.00030007875099774864,
	"loss": 2.324197006225586,
	"step": 14460
	},
	{
	"epoch": 30.335078534031414,
	"learning_rate": 0.0002999750431145761,
	"loss": 2.309644317626953,
	"step": 14470
	},
	{
	"epoch": 30.356020942408378,
	"learning_rate": 0.0002998714426821599,
	"loss": 2.332279014587402,
	"step": 14480
	},
	{
	"epoch": 30.376963350785342,
	"learning_rate": 0.00029976794951508027,
	"loss": 2.3015905380249024,
	"step": 14490
	},
	{
	"epoch": 30.397905759162303,
	"learning_rate": 0.00029966456342836505,
	"loss": 2.3307212829589843,
	"step": 14500
	},
	{
	"epoch": 30.418848167539267,
	"learning_rate": 0.0002995612842374884,
	"loss": 2.3488508224487306,
	"step": 14510
	},
	{
	"epoch": 30.43979057591623,
	"learning_rate": 0.0002994581117583693,
	"loss": 2.2981189727783202,
	"step": 14520
	},
	{
	"epoch": 30.460732984293195,
	"learning_rate": 0.00029935504580737006,
	"loss": 2.292937088012695,
	"step": 14530
	},
	{
	"epoch": 30.48167539267016,
	"learning_rate": 0.00029925208620129546,
	"loss": 2.329487609863281,
	"step": 14540
	},
	{
	"epoch": 30.50261780104712,
	"learning_rate": 0.0002991492327573909,
	"loss": 2.275893974304199,
	"step": 14550
	},
	{
	"epoch": 30.523560209424083,
	"learning_rate": 0.0002990464852933409,
	"loss": 2.289459228515625,
	"step": 14560
	},
	{
	"epoch": 30.544502617801047,
	"learning_rate": 0.0002989438436272684,
	"loss": 2.2976861953735352,
	"step": 14570
	},
	{
	"epoch": 30.56544502617801,
	"learning_rate": 0.00029884130757773275,
	"loss": 2.319015884399414,
	"step": 14580
	},
	{
	"epoch": 30.586387434554975,
	"learning_rate": 0.0002987388769637288,
	"loss": 2.3237770080566404,
	"step": 14590
	},
	{
	"epoch": 30.607329842931936,
	"learning_rate": 0.00029863655160468534,
	"loss": 2.330046844482422,
	"step": 14600
	},
	{
	"epoch": 30.6282722513089,
	"learning_rate": 0.0002985343313204637,
	"loss": 2.328061103820801,
	"step": 14610
	},
	{
	"epoch": 30.649214659685864,
	"learning_rate": 0.0002984322159313568,
	"loss": 2.3274772644042967,
	"step": 14620
	},
	{
	"epoch": 30.670157068062828,
	"learning_rate": 0.00029833020525808714,
	"loss": 2.325545883178711,
	"step": 14630
	},
	{
	"epoch": 30.691099476439792,
	"learning_rate": 0.00029822829912180636,
	"loss": 2.3240276336669923,
	"step": 14640
	},
	{
	"epoch": 30.712041884816752,
	"learning_rate": 0.0002981264973440931,
	"loss": 2.324121856689453,
	"step": 14650
	},
	{
	"epoch": 30.732984293193716,
	"learning_rate": 0.00029802479974695223,
	"loss": 2.3233869552612303,
	"step": 14660
	},
	{
	"epoch": 30.75392670157068,
	"learning_rate": 0.00029792320615281337,
	"loss": 2.3022382736206053,
	"step": 14670
	},
	{
	"epoch": 30.774869109947645,
	"learning_rate": 0.00029782171638452937,
	"loss": 2.3219308853149414,
	"step": 14680
	},
	{
	"epoch": 30.79581151832461,
	"learning_rate": 0.0002977203302653755,
	"loss": 2.3212976455688477,
	"step": 14690
	},
	{
	"epoch": 30.81675392670157,
	"learning_rate": 0.0002976190476190476,
	"loss": 2.345839500427246,
	"step": 14700
	},
	{
	"epoch": 30.837696335078533,
	"learning_rate": 0.0002975178682696613,
	"loss": 2.2968841552734376,
	"step": 14710
	},
	{
	"epoch": 30.858638743455497,
	"learning_rate": 0.0002974167920417504,
	"loss": 2.313581848144531,
	"step": 14720
	},
	{
	"epoch": 30.87958115183246,
	"learning_rate": 0.00029731581876026557,
	"loss": 2.326977348327637,
	"step": 14730
	},
	{
	"epoch": 30.900523560209425,
	"learning_rate": 0.00029721494825057357,
	"loss": 2.3257322311401367,
	"step": 14740
	},
	{
	"epoch": 30.921465968586386,
	"learning_rate": 0.00029711418033845523,
	"loss": 2.285732460021973,
	"step": 14750
	},
	{
	"epoch": 30.94240837696335,
	"learning_rate": 0.0002970135148501047,
	"loss": 2.3275766372680664,
	"step": 14760
	},
	{
	"epoch": 30.963350785340314,
	"learning_rate": 0.00029691295161212816,
	"loss": 2.3182727813720705,
	"step": 14770
	},
	{
	"epoch": 30.984293193717278,
	"learning_rate": 0.0002968124904515423,
	"loss": 2.3104841232299806,
	"step": 14780
	},
	{
	"epoch": 30.99895287958115,
	"eval_loss": 2.544727087020874,
	"eval_runtime": 73.5548,
	"eval_samples_per_second": 148.95,
	"step": 14787
	},
	{
	"epoch": 31.006282722513088,
	"learning_rate": 0.00029671213119577346,
	"loss": 2.4215261459350588,
	"step": 14790
	},
	{
	"epoch": 31.027225130890052,
	"learning_rate": 0.00029661187367265593,
	"loss": 2.3005090713500977,
	"step": 14800
	},
	{
	"epoch": 31.048167539267016,
	"learning_rate": 0.0002965117177104311,
	"loss": 2.3047313690185547,
	"step": 14810
	},
	{
	"epoch": 31.06910994764398,
	"learning_rate": 0.0002964116631377459,
	"loss": 2.3039810180664064,
	"step": 14820
	},
	{
	"epoch": 31.09005235602094,
	"learning_rate": 0.000296311709783652,
	"loss": 2.3020254135131837,
	"step": 14830
	},
	{
	"epoch": 31.110994764397905,
	"learning_rate": 0.00029621185747760406,
	"loss": 2.3200841903686524,
	"step": 14840
	},
	{
	"epoch": 31.13193717277487,
	"learning_rate": 0.0002961121060494589,
	"loss": 2.2955398559570312,
	"step": 14850
	},
	{
	"epoch": 31.152879581151833,
	"learning_rate": 0.00029601245532947417,
	"loss": 2.322628974914551,
	"step": 14860
	},
	{
	"epoch": 31.173821989528797,
	"learning_rate": 0.0002959129051483069,
	"loss": 2.3180873870849608,
	"step": 14870
	},
	{
	"epoch": 31.194764397905757,
	"learning_rate": 0.00029581345533701285,
	"loss": 2.299137306213379,
	"step": 14880
	},
	{
	"epoch": 31.21570680628272,
	"learning_rate": 0.0002957141057270448,
	"loss": 2.2992317199707033,
	"step": 14890
	},
	{
	"epoch": 31.236649214659685,
	"learning_rate": 0.0002956148561502513,
	"loss": 2.3339006423950197,
	"step": 14900
	},
	{
	"epoch": 31.25759162303665,
	"learning_rate": 0.00029551570643887603,
	"loss": 2.2937063217163085,
	"step": 14910
	},
	{
	"epoch": 31.278534031413614,
	"learning_rate": 0.00029541665642555606,
	"loss": 2.3086185455322266,
	"step": 14920
	},
	{
	"epoch": 31.299476439790578,
	"learning_rate": 0.00029531770594332096,
	"loss": 2.3051830291748048,
	"step": 14930
	},
	{
	"epoch": 31.320418848167538,
	"learning_rate": 0.0002952188548255915,
	"loss": 2.3165931701660156,
	"step": 14940
	},
	{
	"epoch": 31.341361256544502,
	"learning_rate": 0.00029512010290617854,
	"loss": 2.310456657409668,
	"step": 14950
	},
	{
	"epoch": 31.362303664921466,
	"learning_rate": 0.0002950214500192816,
	"loss": 2.3057369232177733,
	"step": 14960
	},
	{
	"epoch": 31.38324607329843,
	"learning_rate": 0.00029492289599948834,
	"loss": 2.316122627258301,
	"step": 14970
	},
	{
	"epoch": 31.404188481675394,
	"learning_rate": 0.0002948244406817725,
	"loss": 2.3287500381469726,
	"step": 14980
	},
	{
	"epoch": 31.425130890052355,
	"learning_rate": 0.00029472608390149343,
	"loss": 2.309092330932617,
	"step": 14990
	},
	{
	"epoch": 31.44607329842932,
	"learning_rate": 0.00029462782549439473,
	"loss": 2.331714057922363,
	"step": 15000
	}
	],
	"max_steps": 15000,
	"num_train_epochs": 32,
	"total_flos": 4125839411805155328,
	"trial_name": null,
	"trial_params": null
	}