Training in progress, step 200, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +1503 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9b68f716f38fb3ee75ba58c9be692f98a0a12bec791824f44e4f2504473aa69
 size 453156026

 version https://git-lfs.github.com/spec/v1
+oid sha256:81927c416d0ed83e63ba43e8296226e165456da2baba9aaa71e305105d0dcf81
 size 453156026

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47b079afe7ada416b6ad683ccc820939a11fcb214d72270673b28f8f38c8dd9a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a81d5d35ff0c1cfc3cd4e03db6ce33aa9d62187b2759f2277441bd67c8ec4cd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f232db24de6a4f8fb6ae7481559eac1d56c18fd429eb805f9aff45ac5b8b9c9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e6e2c3bcff0341bfddccfdfe85ee6efb7f42535e1af3e46983f5243cc0444e8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.028017090425159347,
   "eval_steps": 500,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1507,6 +1507,1506 @@
       "rewards/margins": NaN,
       "rewards/rejected": NaN,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -1521,7 +3021,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.05603418085031869,
   "eval_steps": 500,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": NaN,
       "rewards/rejected": NaN,
       "step": 100
+    },
+    {
+      "epoch": 0.02829726132941094,
+      "grad_norm": NaN,
+      "learning_rate": 5.050000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 101
+    },
+    {
+      "epoch": 0.028577432233662534,
+      "grad_norm": NaN,
+      "learning_rate": 5.1e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 102
+    },
+    {
+      "epoch": 0.028857603137914127,
+      "grad_norm": NaN,
+      "learning_rate": 5.150000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 103
+    },
+    {
+      "epoch": 0.02913777404216572,
+      "grad_norm": NaN,
+      "learning_rate": 5.2e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 104
+    },
+    {
+      "epoch": 0.029417944946417314,
+      "grad_norm": NaN,
+      "learning_rate": 5.2500000000000006e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 105
+    },
+    {
+      "epoch": 0.029698115850668907,
+      "grad_norm": NaN,
+      "learning_rate": 5.300000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 106
+    },
+    {
+      "epoch": 0.0299782867549205,
+      "grad_norm": NaN,
+      "learning_rate": 5.3500000000000004e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 107
+    },
+    {
+      "epoch": 0.030258457659172094,
+      "grad_norm": NaN,
+      "learning_rate": 5.400000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 108
+    },
+    {
+      "epoch": 0.030538628563423688,
+      "grad_norm": NaN,
+      "learning_rate": 5.450000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 109
+    },
+    {
+      "epoch": 0.03081879946767528,
+      "grad_norm": NaN,
+      "learning_rate": 5.500000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 110
+    },
+    {
+      "epoch": 0.031098970371926875,
+      "grad_norm": NaN,
+      "learning_rate": 5.550000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 111
+    },
+    {
+      "epoch": 0.03137914127617847,
+      "grad_norm": NaN,
+      "learning_rate": 5.600000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 112
+    },
+    {
+      "epoch": 0.03165931218043006,
+      "grad_norm": NaN,
+      "learning_rate": 5.65e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 113
+    },
+    {
+      "epoch": 0.031939483084681655,
+      "grad_norm": NaN,
+      "learning_rate": 5.7e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 114
+    },
+    {
+      "epoch": 0.03221965398893325,
+      "grad_norm": NaN,
+      "learning_rate": 5.75e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 115
+    },
+    {
+      "epoch": 0.03249982489318484,
+      "grad_norm": NaN,
+      "learning_rate": 5.8e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 116
+    },
+    {
+      "epoch": 0.032779995797436436,
+      "grad_norm": NaN,
+      "learning_rate": 5.85e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 117
+    },
+    {
+      "epoch": 0.03306016670168803,
+      "grad_norm": NaN,
+      "learning_rate": 5.9e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 118
+    },
+    {
+      "epoch": 0.03334033760593962,
+      "grad_norm": NaN,
+      "learning_rate": 5.950000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 119
+    },
+    {
+      "epoch": 0.033620508510191216,
+      "grad_norm": NaN,
+      "learning_rate": 6e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 120
+    },
+    {
+      "epoch": 0.03390067941444281,
+      "grad_norm": NaN,
+      "learning_rate": 6.0500000000000005e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 121
+    },
+    {
+      "epoch": 0.0341808503186944,
+      "grad_norm": NaN,
+      "learning_rate": 6.1e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 122
+    },
+    {
+      "epoch": 0.034461021222945996,
+      "grad_norm": NaN,
+      "learning_rate": 6.15e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 123
+    },
+    {
+      "epoch": 0.03474119212719759,
+      "grad_norm": NaN,
+      "learning_rate": 6.200000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 124
+    },
+    {
+      "epoch": 0.03502136303144918,
+      "grad_norm": NaN,
+      "learning_rate": 6.25e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 125
+    },
+    {
+      "epoch": 0.03530153393570078,
+      "grad_norm": NaN,
+      "learning_rate": 6.300000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 126
+    },
+    {
+      "epoch": 0.03558170483995237,
+      "grad_norm": NaN,
+      "learning_rate": 6.35e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 127
+    },
+    {
+      "epoch": 0.035861875744203964,
+      "grad_norm": NaN,
+      "learning_rate": 6.4000000000000006e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 128
+    },
+    {
+      "epoch": 0.03614204664845556,
+      "grad_norm": NaN,
+      "learning_rate": 6.450000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 129
+    },
+    {
+      "epoch": 0.03642221755270715,
+      "grad_norm": NaN,
+      "learning_rate": 6.5000000000000004e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 130
+    },
+    {
+      "epoch": 0.036702388456958744,
+      "grad_norm": NaN,
+      "learning_rate": 6.550000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 131
+    },
+    {
+      "epoch": 0.03698255936121034,
+      "grad_norm": NaN,
+      "learning_rate": 6.600000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 132
+    },
+    {
+      "epoch": 0.03726273026546193,
+      "grad_norm": NaN,
+      "learning_rate": 6.650000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 133
+    },
+    {
+      "epoch": 0.037542901169713525,
+      "grad_norm": NaN,
+      "learning_rate": 6.700000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 134
+    },
+    {
+      "epoch": 0.03782307207396512,
+      "grad_norm": NaN,
+      "learning_rate": 6.750000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 135
+    },
+    {
+      "epoch": 0.03810324297821671,
+      "grad_norm": NaN,
+      "learning_rate": 6.800000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 136
+    },
+    {
+      "epoch": 0.038383413882468305,
+      "grad_norm": NaN,
+      "learning_rate": 6.850000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 137
+    },
+    {
+      "epoch": 0.0386635847867199,
+      "grad_norm": NaN,
+      "learning_rate": 6.9e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 138
+    },
+    {
+      "epoch": 0.03894375569097149,
+      "grad_norm": NaN,
+      "learning_rate": 6.95e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 139
+    },
+    {
+      "epoch": 0.039223926595223085,
+      "grad_norm": NaN,
+      "learning_rate": 7e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 140
+    },
+    {
+      "epoch": 0.03950409749947468,
+      "grad_norm": NaN,
+      "learning_rate": 7.05e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 141
+    },
+    {
+      "epoch": 0.03978426840372627,
+      "grad_norm": NaN,
+      "learning_rate": 7.100000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 142
+    },
+    {
+      "epoch": 0.040064439307977866,
+      "grad_norm": NaN,
+      "learning_rate": 7.15e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 143
+    },
+    {
+      "epoch": 0.04034461021222946,
+      "grad_norm": NaN,
+      "learning_rate": 7.2000000000000005e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 144
+    },
+    {
+      "epoch": 0.04062478111648105,
+      "grad_norm": NaN,
+      "learning_rate": 7.25e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 145
+    },
+    {
+      "epoch": 0.040904952020732646,
+      "grad_norm": NaN,
+      "learning_rate": 7.3e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 146
+    },
+    {
+      "epoch": 0.04118512292498424,
+      "grad_norm": NaN,
+      "learning_rate": 7.350000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 147
+    },
+    {
+      "epoch": 0.04146529382923583,
+      "grad_norm": NaN,
+      "learning_rate": 7.4e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 148
+    },
+    {
+      "epoch": 0.04174546473348743,
+      "grad_norm": NaN,
+      "learning_rate": 7.450000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 149
+    },
+    {
+      "epoch": 0.04202563563773902,
+      "grad_norm": NaN,
+      "learning_rate": 7.500000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 150
+    },
+    {
+      "epoch": 0.04230580654199061,
+      "grad_norm": NaN,
+      "learning_rate": 7.5500000000000006e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 151
+    },
+    {
+      "epoch": 0.04258597744624221,
+      "grad_norm": NaN,
+      "learning_rate": 7.600000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 152
+    },
+    {
+      "epoch": 0.0428661483504938,
+      "grad_norm": NaN,
+      "learning_rate": 7.650000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 153
+    },
+    {
+      "epoch": 0.043146319254745394,
+      "grad_norm": NaN,
+      "learning_rate": 7.7e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 154
+    },
+    {
+      "epoch": 0.04342649015899699,
+      "grad_norm": NaN,
+      "learning_rate": 7.75e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 155
+    },
+    {
+      "epoch": 0.04370666106324858,
+      "grad_norm": NaN,
+      "learning_rate": 7.800000000000002e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 156
+    },
+    {
+      "epoch": 0.043986831967500174,
+      "grad_norm": NaN,
+      "learning_rate": 7.850000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 157
+    },
+    {
+      "epoch": 0.04426700287175177,
+      "grad_norm": NaN,
+      "learning_rate": 7.9e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 158
+    },
+    {
+      "epoch": 0.04454717377600336,
+      "grad_norm": NaN,
+      "learning_rate": 7.950000000000002e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 159
+    },
+    {
+      "epoch": 0.044827344680254955,
+      "grad_norm": NaN,
+      "learning_rate": 8.000000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 160
+    },
+    {
+      "epoch": 0.04510751558450655,
+      "grad_norm": NaN,
+      "learning_rate": 8.050000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 161
+    },
+    {
+      "epoch": 0.04538768648875814,
+      "grad_norm": NaN,
+      "learning_rate": 8.1e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 162
+    },
+    {
+      "epoch": 0.045667857393009735,
+      "grad_norm": NaN,
+      "learning_rate": 8.15e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 163
+    },
+    {
+      "epoch": 0.04594802829726133,
+      "grad_norm": NaN,
+      "learning_rate": 8.2e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 164
+    },
+    {
+      "epoch": 0.04622819920151292,
+      "grad_norm": NaN,
+      "learning_rate": 8.25e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 165
+    },
+    {
+      "epoch": 0.046508370105764515,
+      "grad_norm": NaN,
+      "learning_rate": 8.3e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 166
+    },
+    {
+      "epoch": 0.04678854101001611,
+      "grad_norm": NaN,
+      "learning_rate": 8.35e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 167
+    },
+    {
+      "epoch": 0.0470687119142677,
+      "grad_norm": NaN,
+      "learning_rate": 8.400000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 168
+    },
+    {
+      "epoch": 0.047348882818519296,
+      "grad_norm": NaN,
+      "learning_rate": 8.45e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 169
+    },
+    {
+      "epoch": 0.04762905372277089,
+      "grad_norm": NaN,
+      "learning_rate": 8.5e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 170
+    },
+    {
+      "epoch": 0.04790922462702248,
+      "grad_norm": NaN,
+      "learning_rate": 8.550000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 171
+    },
+    {
+      "epoch": 0.048189395531274076,
+      "grad_norm": NaN,
+      "learning_rate": 8.6e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 172
+    },
+    {
+      "epoch": 0.04846956643552567,
+      "grad_norm": NaN,
+      "learning_rate": 8.65e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 173
+    },
+    {
+      "epoch": 0.04874973733977726,
+      "grad_norm": NaN,
+      "learning_rate": 8.700000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 174
+    },
+    {
+      "epoch": 0.04902990824402886,
+      "grad_norm": NaN,
+      "learning_rate": 8.750000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 175
+    },
+    {
+      "epoch": 0.04931007914828045,
+      "grad_norm": NaN,
+      "learning_rate": 8.8e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 176
+    },
+    {
+      "epoch": 0.049590250052532044,
+      "grad_norm": NaN,
+      "learning_rate": 8.85e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 177
+    },
+    {
+      "epoch": 0.04987042095678364,
+      "grad_norm": NaN,
+      "learning_rate": 8.900000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 178
+    },
+    {
+      "epoch": 0.05015059186103523,
+      "grad_norm": NaN,
+      "learning_rate": 8.95e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 179
+    },
+    {
+      "epoch": 0.050430762765286824,
+      "grad_norm": NaN,
+      "learning_rate": 9e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 180
+    },
+    {
+      "epoch": 0.05071093366953842,
+      "grad_norm": NaN,
+      "learning_rate": 9.050000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 181
+    },
+    {
+      "epoch": 0.05099110457379001,
+      "grad_norm": NaN,
+      "learning_rate": 9.100000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 182
+    },
+    {
+      "epoch": 0.051271275478041604,
+      "grad_norm": NaN,
+      "learning_rate": 9.15e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 183
+    },
+    {
+      "epoch": 0.0515514463822932,
+      "grad_norm": NaN,
+      "learning_rate": 9.200000000000002e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 184
+    },
+    {
+      "epoch": 0.05183161728654479,
+      "grad_norm": NaN,
+      "learning_rate": 9.250000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 185
+    },
+    {
+      "epoch": 0.052111788190796385,
+      "grad_norm": NaN,
+      "learning_rate": 9.3e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 186
+    },
+    {
+      "epoch": 0.05239195909504798,
+      "grad_norm": NaN,
+      "learning_rate": 9.350000000000002e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 187
+    },
+    {
+      "epoch": 0.05267212999929957,
+      "grad_norm": NaN,
+      "learning_rate": 9.4e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 188
+    },
+    {
+      "epoch": 0.052952300903551165,
+      "grad_norm": NaN,
+      "learning_rate": 9.450000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 189
+    },
+    {
+      "epoch": 0.05323247180780276,
+      "grad_norm": NaN,
+      "learning_rate": 9.5e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 190
+    },
+    {
+      "epoch": 0.05351264271205435,
+      "grad_norm": NaN,
+      "learning_rate": 9.55e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 191
+    },
+    {
+      "epoch": 0.053792813616305946,
+      "grad_norm": NaN,
+      "learning_rate": 9.600000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 192
+    },
+    {
+      "epoch": 0.05407298452055754,
+      "grad_norm": NaN,
+      "learning_rate": 9.65e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 193
+    },
+    {
+      "epoch": 0.05435315542480913,
+      "grad_norm": NaN,
+      "learning_rate": 9.7e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 194
+    },
+    {
+      "epoch": 0.054633326329060726,
+      "grad_norm": NaN,
+      "learning_rate": 9.75e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 195
+    },
+    {
+      "epoch": 0.05491349723331232,
+      "grad_norm": NaN,
+      "learning_rate": 9.800000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 196
+    },
+    {
+      "epoch": 0.05519366813756391,
+      "grad_norm": NaN,
+      "learning_rate": 9.85e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 197
+    },
+    {
+      "epoch": 0.055473839041815506,
+      "grad_norm": NaN,
+      "learning_rate": 9.9e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 198
+    },
+    {
+      "epoch": 0.0557540099460671,
+      "grad_norm": NaN,
+      "learning_rate": 9.950000000000001e-06,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 199
+    },
+    {
+      "epoch": 0.05603418085031869,
+      "grad_norm": NaN,
+      "learning_rate": 1e-05,
+      "logits/chosen": NaN,
+      "logits/rejected": NaN,
+      "logps/chosen": NaN,
+      "logps/rejected": NaN,
+      "loss": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": NaN,
+      "rewards/margins": NaN,
+      "rewards/rejected": NaN,
+      "step": 200
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }