danhtran2mind commited on Jul 21

Commit

dbb27a2

verified ·

1 Parent(s): 347094e

Add files using upload-large-folder tool

Browse files

Files changed (40) hide show

.gitattributes +3 -0
README.md +60 -0
adapter_config.json +37 -0
adapter_model.safetensors +3 -0
added_tokens.json +28 -0
checkpoint-13200/README.md +202 -0
checkpoint-13200/adapter_config.json +37 -0
checkpoint-13200/adapter_model.safetensors +3 -0
checkpoint-13200/added_tokens.json +28 -0
checkpoint-13200/merges.txt +0 -0
checkpoint-13200/optimizer.pt +3 -0
checkpoint-13200/rng_state.pth +3 -0
checkpoint-13200/scaler.pt +3 -0
checkpoint-13200/scheduler.pt +3 -0
checkpoint-13200/special_tokens_map.json +31 -0
checkpoint-13200/tokenizer.json +3 -0
checkpoint-13200/tokenizer_config.json +241 -0
checkpoint-13200/trainer_state.json +2014 -0
checkpoint-13200/training_args.bin +3 -0
checkpoint-13200/vocab.json +0 -0
checkpoint-13230/README.md +202 -0
checkpoint-13230/adapter_config.json +37 -0
checkpoint-13230/adapter_model.safetensors +3 -0
checkpoint-13230/added_tokens.json +28 -0
checkpoint-13230/merges.txt +0 -0
checkpoint-13230/optimizer.pt +3 -0
checkpoint-13230/rng_state.pth +3 -0
checkpoint-13230/scaler.pt +3 -0
checkpoint-13230/scheduler.pt +3 -0
checkpoint-13230/special_tokens_map.json +31 -0
checkpoint-13230/tokenizer.json +3 -0
checkpoint-13230/tokenizer_config.json +241 -0
checkpoint-13230/trainer_state.json +2014 -0
checkpoint-13230/training_args.bin +3 -0
checkpoint-13230/vocab.json +0 -0
merges.txt +0 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +241 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-13200/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-13230/tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,60 @@

+---
+base_model: unsloth/qwen3-0.6b-unsloth-bnb-4bit
+library_name: peft
+model_name: Qwen-3-0.6B-Reasoning-Vi-Medical-LoRA
+tags:
+- generated_from_trainer
+- sft
+- trl
+- unsloth
+licence: license
+---
+# Model Card for Qwen-3-0.6B-Reasoning-Vi-Medical-LoRA
+This model is a fine-tuned version of [unsloth/qwen3-0.6b-unsloth-bnb-4bit](https://huggingface.co/unsloth/qwen3-0.6b-unsloth-bnb-4bit).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="None", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+This model was trained with SFT.
+### Framework versions
+- PEFT 0.14.0
+- TRL: 0.19.1
+- Transformers: 4.51.3
+- Pytorch: 2.7.0
+- Datasets: 3.6.0
+- Tokenizers: 0.21.1
+## Citations
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

adapter_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "unsloth/qwen3-0.6b-unsloth-bnb-4bit",
+  "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "up_proj",
+    "q_proj",
+    "down_proj",
+    "k_proj",
+    "gate_proj",
+    "v_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff894fe2534f1ab5109d59bb2f7fb64770e0a5fdd6c145d04ef5ddb79169a22a
+size 40422168

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

checkpoint-13200/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: unsloth/qwen3-0.6b-unsloth-bnb-4bit
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.14.0

checkpoint-13200/adapter_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "unsloth/qwen3-0.6b-unsloth-bnb-4bit",
+  "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "up_proj",
+    "q_proj",
+    "down_proj",
+    "k_proj",
+    "gate_proj",
+    "v_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-13200/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84502ed2f392d38f57c06b7fd9304bed0e967e0395b17a497ebe7b1b2b506c7b
+size 40422168

checkpoint-13200/added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

checkpoint-13200/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-13200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:249a5babf0dd03cda652085d01b57d4fc950ea453e3055ff5c846ea64cf7be41
+size 21979091

checkpoint-13200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:970f20ed294a0d8701bfcccff463f693cc5687d59a27abebbf761ee3255ea47d
+size 14645

checkpoint-13200/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81a899ec02bceca3d64b55f4fcc622ff203093ebd5adf78500204bfe722e04cc
+size 1383

checkpoint-13200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b14be9cd05f4cd81d2d7a8c2206eda5a3e1010b885a3eccd6877bb7670b99e0
+size 1465

checkpoint-13200/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|vision_pad|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-13200/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae1a036a9837df9caeebb840d09d80e8feef0f6d2bae982970d1ad34f5946aff
+size 11422753

checkpoint-13200/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,241 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0].role == 'system' %}\n        {{- messages[0].content + '\\n\\n' }}\n    {%- endif %}\n    {{- \"# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0].role == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0].content + '<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}\n{%- for forward_message in messages %}\n    {%- set index = (messages|length - 1) - loop.index0 %}\n    {%- set message = messages[index] %}\n    {%- set current_content = message.content if message.content is defined and message.content is not none else '' %}\n    {%- set tool_start = '<tool_response>' %}\n    {%- set tool_start_length = tool_start|length %}\n    {%- set start_of_message = current_content[:tool_start_length] %}\n    {%- set tool_end = '</tool_response>' %}\n    {%- set tool_end_length = tool_end|length %}\n    {%- set start_pos = (current_content|length) - tool_end_length %}\n    {%- if start_pos < 0 %}\n        {%- set start_pos = 0 %}\n    {%- endif %}\n    {%- set end_of_message = current_content[start_pos:] %}\n    {%- if ns.multi_step_tool and message.role == \"user\" and not(start_of_message == tool_start and end_of_message == tool_end) %}\n        {%- set ns.multi_step_tool = false %}\n        {%- set ns.last_query_index = index %}\n    {%- endif %}\n{%- endfor %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {%- set m_content = message.content if message.content is defined and message.content is not none else '' %}\n        {%- set content = m_content %}\n        {%- set reasoning_content = '' %}\n        {%- if message.reasoning_content is defined and message.reasoning_content is not none %}\n            {%- set reasoning_content = message.reasoning_content %}\n        {%- else %}\n            {%- if '</think>' in m_content %}\n                {%- set content = (m_content.split('</think>')|last).lstrip('\\n') %}\n                {%- set reasoning_content = (m_content.split('</think>')|first).rstrip('\\n') %}\n                {%- set reasoning_content = (reasoning_content.split('<think>')|last).lstrip('\\n') %}\n            {%- endif %}\n        {%- endif %}\n        {%- if loop.index0 > ns.last_query_index %}\n            {%- if loop.last or (not loop.last and (not reasoning_content.strip() == '')) %}\n                {{- '<|im_start|>' + message.role + '\\n<think>\\n' + reasoning_content.strip('\\n') + '\\n</think>\\n\\n' + content.lstrip('\\n') }}\n            {%- else %}\n                {{- '<|im_start|>' + message.role + '\\n' + content }}\n            {%- endif %}\n        {%- else %}\n            {{- '<|im_start|>' + message.role + '\\n' + content }}\n        {%- endif %}\n        {%- if message.tool_calls %}\n            {%- for tool_call in message.tool_calls %}\n                {%- if (loop.first and content) or (not loop.first) %}\n                    {{- '\\n' }}\n                {%- endif %}\n                {%- if tool_call.function %}\n                    {%- set tool_call = tool_call.function %}\n                {%- endif %}\n                {{- '<tool_call>\\n{\"name\": \"' }}\n                {{- tool_call.name }}\n                {{- '\", \"arguments\": ' }}\n                {%- if tool_call.arguments is string %}\n                    {{- tool_call.arguments }}\n                {%- else %}\n                    {{- tool_call.arguments | tojson }}\n                {%- endif %}\n                {{- '}\\n</tool_call>' }}\n            {%- endfor %}\n        {%- endif %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if loop.first or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n    {%- if enable_thinking is defined and enable_thinking is false %}\n        {{- '<think>\\n\\n</think>\\n\\n' }}\n    {%- endif %}\n{%- endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 40960,
+  "pad_token": "<|vision_pad|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoint-13200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2014 @@

+{
+  "best_global_step": 12700,
+  "best_metric": 0.6587069034576416,
+  "best_model_checkpoint": "./Qwen-3-0.6B-Reasoning-Vi-Medical-LoRA/checkpoint-12700",
+  "epoch": 29.93091732729332,
+  "eval_steps": 100,
+  "global_step": 13200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.22650056625141562,
+      "grad_norm": 0.32067689299583435,
+      "learning_rate": 0.0001936551724137931,
+      "loss": 1.3117,
+      "step": 100
+    },
+    {
+      "epoch": 0.22650056625141562,
+      "eval_loss": 1.2771011590957642,
+      "eval_runtime": 215.7306,
+      "eval_samples_per_second": 7.273,
+      "eval_steps_per_second": 0.913,
+      "step": 100
+    },
+    {
+      "epoch": 0.45300113250283125,
+      "grad_norm": 0.368208110332489,
+      "learning_rate": 0.00018445977011494254,
+      "loss": 1.2627,
+      "step": 200
+    },
+    {
+      "epoch": 0.45300113250283125,
+      "eval_loss": 1.234209418296814,
+      "eval_runtime": 215.6413,
+      "eval_samples_per_second": 7.276,
+      "eval_steps_per_second": 0.914,
+      "step": 200
+    },
+    {
+      "epoch": 0.6795016987542469,
+      "grad_norm": 0.34856918454170227,
+      "learning_rate": 0.00017526436781609196,
+      "loss": 1.2199,
+      "step": 300
+    },
+    {
+      "epoch": 0.6795016987542469,
+      "eval_loss": 1.2032462358474731,
+      "eval_runtime": 215.6165,
+      "eval_samples_per_second": 7.277,
+      "eval_steps_per_second": 0.914,
+      "step": 300
+    },
+    {
+      "epoch": 0.9060022650056625,
+      "grad_norm": 0.33870309591293335,
+      "learning_rate": 0.0001660689655172414,
+      "loss": 1.1941,
+      "step": 400
+    },
+    {
+      "epoch": 0.9060022650056625,
+      "eval_loss": 1.1780856847763062,
+      "eval_runtime": 215.6336,
+      "eval_samples_per_second": 7.276,
+      "eval_steps_per_second": 0.914,
+      "step": 400
+    },
+    {
+      "epoch": 1.1336353340883352,
+      "grad_norm": 0.38066866993904114,
+      "learning_rate": 0.00015687356321839082,
+      "loss": 1.1664,
+      "step": 500
+    },
+    {
+      "epoch": 1.1336353340883352,
+      "eval_loss": 1.1569600105285645,
+      "eval_runtime": 215.6796,
+      "eval_samples_per_second": 7.275,
+      "eval_steps_per_second": 0.913,
+      "step": 500
+    },
+    {
+      "epoch": 1.3601359003397508,
+      "grad_norm": 0.3768746852874756,
+      "learning_rate": 0.00014767816091954024,
+      "loss": 1.1276,
+      "step": 600
+    },
+    {
+      "epoch": 1.3601359003397508,
+      "eval_loss": 1.1395982503890991,
+      "eval_runtime": 215.7974,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 600
+    },
+    {
+      "epoch": 1.5866364665911665,
+      "grad_norm": 0.3873467743396759,
+      "learning_rate": 0.00013848275862068967,
+      "loss": 1.1059,
+      "step": 700
+    },
+    {
+      "epoch": 1.5866364665911665,
+      "eval_loss": 1.1225543022155762,
+      "eval_runtime": 215.8352,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 700
+    },
+    {
+      "epoch": 1.8131370328425822,
+      "grad_norm": 0.399214506149292,
+      "learning_rate": 0.00012928735632183907,
+      "loss": 1.087,
+      "step": 800
+    },
+    {
+      "epoch": 1.8131370328425822,
+      "eval_loss": 1.1066261529922485,
+      "eval_runtime": 215.8039,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 800
+    },
+    {
+      "epoch": 2.0407701019252547,
+      "grad_norm": 0.3834548890590668,
+      "learning_rate": 0.00012009195402298852,
+      "loss": 1.0775,
+      "step": 900
+    },
+    {
+      "epoch": 2.0407701019252547,
+      "eval_loss": 1.0939360857009888,
+      "eval_runtime": 215.8709,
+      "eval_samples_per_second": 7.268,
+      "eval_steps_per_second": 0.913,
+      "step": 900
+    },
+    {
+      "epoch": 2.2672706681766703,
+      "grad_norm": 0.41335031390190125,
+      "learning_rate": 0.00011089655172413794,
+      "loss": 1.0294,
+      "step": 1000
+    },
+    {
+      "epoch": 2.2672706681766703,
+      "eval_loss": 1.081494688987732,
+      "eval_runtime": 215.8265,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 1000
+    },
+    {
+      "epoch": 2.493771234428086,
+      "grad_norm": 0.43652597069740295,
+      "learning_rate": 0.00010170114942528736,
+      "loss": 1.0077,
+      "step": 1100
+    },
+    {
+      "epoch": 2.493771234428086,
+      "eval_loss": 1.066120982170105,
+      "eval_runtime": 215.7444,
+      "eval_samples_per_second": 7.272,
+      "eval_steps_per_second": 0.913,
+      "step": 1100
+    },
+    {
+      "epoch": 2.7202718006795017,
+      "grad_norm": 0.4415673613548279,
+      "learning_rate": 9.250574712643678e-05,
+      "loss": 0.9984,
+      "step": 1200
+    },
+    {
+      "epoch": 2.7202718006795017,
+      "eval_loss": 1.0539467334747314,
+      "eval_runtime": 215.873,
+      "eval_samples_per_second": 7.268,
+      "eval_steps_per_second": 0.913,
+      "step": 1200
+    },
+    {
+      "epoch": 2.9467723669309174,
+      "grad_norm": 0.44037237763404846,
+      "learning_rate": 8.33103448275862e-05,
+      "loss": 0.9837,
+      "step": 1300
+    },
+    {
+      "epoch": 2.9467723669309174,
+      "eval_loss": 1.044096827507019,
+      "eval_runtime": 215.7373,
+      "eval_samples_per_second": 7.273,
+      "eval_steps_per_second": 0.913,
+      "step": 1300
+    },
+    {
+      "epoch": 3.17440543601359,
+      "grad_norm": 0.5079408288002014,
+      "learning_rate": 7.411494252873563e-05,
+      "loss": 0.9642,
+      "step": 1400
+    },
+    {
+      "epoch": 3.17440543601359,
+      "eval_loss": 1.0374841690063477,
+      "eval_runtime": 215.6881,
+      "eval_samples_per_second": 7.274,
+      "eval_steps_per_second": 0.913,
+      "step": 1400
+    },
+    {
+      "epoch": 3.4009060022650055,
+      "grad_norm": 0.4961177408695221,
+      "learning_rate": 6.491954022988506e-05,
+      "loss": 0.9381,
+      "step": 1500
+    },
+    {
+      "epoch": 3.4009060022650055,
+      "eval_loss": 1.0282294750213623,
+      "eval_runtime": 215.6305,
+      "eval_samples_per_second": 7.276,
+      "eval_steps_per_second": 0.914,
+      "step": 1500
+    },
+    {
+      "epoch": 3.627406568516421,
+      "grad_norm": 0.5088583827018738,
+      "learning_rate": 5.5724137931034484e-05,
+      "loss": 0.9261,
+      "step": 1600
+    },
+    {
+      "epoch": 3.627406568516421,
+      "eval_loss": 1.0186975002288818,
+      "eval_runtime": 215.8306,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 1600
+    },
+    {
+      "epoch": 3.853907134767837,
+      "grad_norm": 0.5300412178039551,
+      "learning_rate": 4.652873563218391e-05,
+      "loss": 0.9115,
+      "step": 1700
+    },
+    {
+      "epoch": 3.853907134767837,
+      "eval_loss": 1.011821985244751,
+      "eval_runtime": 215.7992,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 1700
+    },
+    {
+      "epoch": 4.081540203850509,
+      "grad_norm": 0.5446588397026062,
+      "learning_rate": 3.733333333333334e-05,
+      "loss": 0.9033,
+      "step": 1800
+    },
+    {
+      "epoch": 4.081540203850509,
+      "eval_loss": 1.0095539093017578,
+      "eval_runtime": 215.7598,
+      "eval_samples_per_second": 7.272,
+      "eval_steps_per_second": 0.913,
+      "step": 1800
+    },
+    {
+      "epoch": 4.308040770101925,
+      "grad_norm": 0.5339412093162537,
+      "learning_rate": 2.813793103448276e-05,
+      "loss": 0.8647,
+      "step": 1900
+    },
+    {
+      "epoch": 4.308040770101925,
+      "eval_loss": 1.002418875694275,
+      "eval_runtime": 215.8479,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 1900
+    },
+    {
+      "epoch": 4.534541336353341,
+      "grad_norm": 0.5594246983528137,
+      "learning_rate": 1.8942528735632184e-05,
+      "loss": 0.8718,
+      "step": 2000
+    },
+    {
+      "epoch": 4.534541336353341,
+      "eval_loss": 0.9978017807006836,
+      "eval_runtime": 215.8323,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 2000
+    },
+    {
+      "epoch": 4.761041902604757,
+      "grad_norm": 0.5511975288391113,
+      "learning_rate": 9.747126436781609e-06,
+      "loss": 0.8611,
+      "step": 2100
+    },
+    {
+      "epoch": 4.761041902604757,
+      "eval_loss": 0.9954851269721985,
+      "eval_runtime": 215.843,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 2100
+    },
+    {
+      "epoch": 4.987542468856172,
+      "grad_norm": 0.5623785853385925,
+      "learning_rate": 5.517241379310344e-07,
+      "loss": 0.8602,
+      "step": 2200
+    },
+    {
+      "epoch": 4.987542468856172,
+      "eval_loss": 0.9939414262771606,
+      "eval_runtime": 215.789,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 2200
+    },
+    {
+      "epoch": 5.215175537938845,
+      "grad_norm": 0.6162961721420288,
+      "learning_rate": 9.639269406392695e-05,
+      "loss": 0.8571,
+      "step": 2300
+    },
+    {
+      "epoch": 5.215175537938845,
+      "eval_loss": 1.001980185508728,
+      "eval_runtime": 215.4279,
+      "eval_samples_per_second": 7.283,
+      "eval_steps_per_second": 0.914,
+      "step": 2300
+    },
+    {
+      "epoch": 5.44167610419026,
+      "grad_norm": 0.6526823043823242,
+      "learning_rate": 9.182648401826485e-05,
+      "loss": 0.8618,
+      "step": 2400
+    },
+    {
+      "epoch": 5.44167610419026,
+      "eval_loss": 0.9889749884605408,
+      "eval_runtime": 215.4552,
+      "eval_samples_per_second": 7.282,
+      "eval_steps_per_second": 0.914,
+      "step": 2400
+    },
+    {
+      "epoch": 5.668176670441676,
+      "grad_norm": 0.6778553128242493,
+      "learning_rate": 8.726027397260274e-05,
+      "loss": 0.8467,
+      "step": 2500
+    },
+    {
+      "epoch": 5.668176670441676,
+      "eval_loss": 0.9737924337387085,
+      "eval_runtime": 215.4971,
+      "eval_samples_per_second": 7.281,
+      "eval_steps_per_second": 0.914,
+      "step": 2500
+    },
+    {
+      "epoch": 5.8946772366930915,
+      "grad_norm": 0.6477532386779785,
+      "learning_rate": 8.269406392694065e-05,
+      "loss": 0.8449,
+      "step": 2600
+    },
+    {
+      "epoch": 5.8946772366930915,
+      "eval_loss": 0.9627026319503784,
+      "eval_runtime": 215.5931,
+      "eval_samples_per_second": 7.278,
+      "eval_steps_per_second": 0.914,
+      "step": 2600
+    },
+    {
+      "epoch": 6.122310305775764,
+      "grad_norm": 0.7134155035018921,
+      "learning_rate": 7.812785388127854e-05,
+      "loss": 0.8181,
+      "step": 2700
+    },
+    {
+      "epoch": 6.122310305775764,
+      "eval_loss": 0.9615710973739624,
+      "eval_runtime": 215.6571,
+      "eval_samples_per_second": 7.275,
+      "eval_steps_per_second": 0.913,
+      "step": 2700
+    },
+    {
+      "epoch": 6.34881087202718,
+      "grad_norm": 0.7087521553039551,
+      "learning_rate": 7.356164383561645e-05,
+      "loss": 0.7748,
+      "step": 2800
+    },
+    {
+      "epoch": 6.34881087202718,
+      "eval_loss": 0.9508717656135559,
+      "eval_runtime": 215.7854,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 2800
+    },
+    {
+      "epoch": 6.575311438278596,
+      "grad_norm": 0.718744158744812,
+      "learning_rate": 6.899543378995434e-05,
+      "loss": 0.7679,
+      "step": 2900
+    },
+    {
+      "epoch": 6.575311438278596,
+      "eval_loss": 0.9414442181587219,
+      "eval_runtime": 215.8161,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 2900
+    },
+    {
+      "epoch": 6.801812004530011,
+      "grad_norm": 0.7241001725196838,
+      "learning_rate": 6.442922374429225e-05,
+      "loss": 0.7708,
+      "step": 3000
+    },
+    {
+      "epoch": 6.801812004530011,
+      "eval_loss": 0.9294878840446472,
+      "eval_runtime": 215.8924,
+      "eval_samples_per_second": 7.268,
+      "eval_steps_per_second": 0.912,
+      "step": 3000
+    },
+    {
+      "epoch": 7.029445073612684,
+      "grad_norm": 0.7078688740730286,
+      "learning_rate": 5.986301369863014e-05,
+      "loss": 0.7602,
+      "step": 3100
+    },
+    {
+      "epoch": 7.029445073612684,
+      "eval_loss": 0.9215793013572693,
+      "eval_runtime": 215.8631,
+      "eval_samples_per_second": 7.268,
+      "eval_steps_per_second": 0.913,
+      "step": 3100
+    },
+    {
+      "epoch": 7.2559456398641,
+      "grad_norm": 0.7763993740081787,
+      "learning_rate": 5.529680365296805e-05,
+      "loss": 0.7042,
+      "step": 3200
+    },
+    {
+      "epoch": 7.2559456398641,
+      "eval_loss": 0.9177075624465942,
+      "eval_runtime": 215.8296,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 3200
+    },
+    {
+      "epoch": 7.482446206115515,
+      "grad_norm": 0.7907236814498901,
+      "learning_rate": 5.0730593607305946e-05,
+      "loss": 0.7041,
+      "step": 3300
+    },
+    {
+      "epoch": 7.482446206115515,
+      "eval_loss": 0.9082866907119751,
+      "eval_runtime": 215.8314,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 3300
+    },
+    {
+      "epoch": 7.7089467723669305,
+      "grad_norm": 0.809502899646759,
+      "learning_rate": 4.616438356164384e-05,
+      "loss": 0.6968,
+      "step": 3400
+    },
+    {
+      "epoch": 7.7089467723669305,
+      "eval_loss": 0.9002099633216858,
+      "eval_runtime": 215.7011,
+      "eval_samples_per_second": 7.274,
+      "eval_steps_per_second": 0.913,
+      "step": 3400
+    },
+    {
+      "epoch": 7.935447338618347,
+      "grad_norm": 0.8147194981575012,
+      "learning_rate": 4.159817351598174e-05,
+      "loss": 0.689,
+      "step": 3500
+    },
+    {
+      "epoch": 7.935447338618347,
+      "eval_loss": 0.887977123260498,
+      "eval_runtime": 215.5757,
+      "eval_samples_per_second": 7.278,
+      "eval_steps_per_second": 0.914,
+      "step": 3500
+    },
+    {
+      "epoch": 8.163080407701019,
+      "grad_norm": 0.7601930499076843,
+      "learning_rate": 3.703196347031964e-05,
+      "loss": 0.6579,
+      "step": 3600
+    },
+    {
+      "epoch": 8.163080407701019,
+      "eval_loss": 0.8895569443702698,
+      "eval_runtime": 215.5399,
+      "eval_samples_per_second": 7.279,
+      "eval_steps_per_second": 0.914,
+      "step": 3600
+    },
+    {
+      "epoch": 8.389580973952436,
+      "grad_norm": 0.9018923044204712,
+      "learning_rate": 3.246575342465754e-05,
+      "loss": 0.6431,
+      "step": 3700
+    },
+    {
+      "epoch": 8.389580973952436,
+      "eval_loss": 0.886945366859436,
+      "eval_runtime": 215.5014,
+      "eval_samples_per_second": 7.281,
+      "eval_steps_per_second": 0.914,
+      "step": 3700
+    },
+    {
+      "epoch": 8.61608154020385,
+      "grad_norm": 0.8826325535774231,
+      "learning_rate": 2.7899543378995436e-05,
+      "loss": 0.6343,
+      "step": 3800
+    },
+    {
+      "epoch": 8.61608154020385,
+      "eval_loss": 0.879227340221405,
+      "eval_runtime": 215.5183,
+      "eval_samples_per_second": 7.28,
+      "eval_steps_per_second": 0.914,
+      "step": 3800
+    },
+    {
+      "epoch": 8.842582106455266,
+      "grad_norm": 0.8975309133529663,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.638,
+      "step": 3900
+    },
+    {
+      "epoch": 8.842582106455266,
+      "eval_loss": 0.8713725805282593,
+      "eval_runtime": 215.5235,
+      "eval_samples_per_second": 7.28,
+      "eval_steps_per_second": 0.914,
+      "step": 3900
+    },
+    {
+      "epoch": 9.070215175537939,
+      "grad_norm": 0.8930607438087463,
+      "learning_rate": 1.8767123287671235e-05,
+      "loss": 0.6248,
+      "step": 4000
+    },
+    {
+      "epoch": 9.070215175537939,
+      "eval_loss": 0.8720493316650391,
+      "eval_runtime": 215.4472,
+      "eval_samples_per_second": 7.283,
+      "eval_steps_per_second": 0.914,
+      "step": 4000
+    },
+    {
+      "epoch": 9.296715741789354,
+      "grad_norm": 0.8194226622581482,
+      "learning_rate": 1.4200913242009135e-05,
+      "loss": 0.5963,
+      "step": 4100
+    },
+    {
+      "epoch": 9.296715741789354,
+      "eval_loss": 0.8683505654335022,
+      "eval_runtime": 215.4449,
+      "eval_samples_per_second": 7.283,
+      "eval_steps_per_second": 0.914,
+      "step": 4100
+    },
+    {
+      "epoch": 9.52321630804077,
+      "grad_norm": 0.9078500270843506,
+      "learning_rate": 9.634703196347032e-06,
+      "loss": 0.5933,
+      "step": 4200
+    },
+    {
+      "epoch": 9.52321630804077,
+      "eval_loss": 0.8663039803504944,
+      "eval_runtime": 215.4014,
+      "eval_samples_per_second": 7.284,
+      "eval_steps_per_second": 0.915,
+      "step": 4200
+    },
+    {
+      "epoch": 9.749716874292186,
+      "grad_norm": 0.8323531746864319,
+      "learning_rate": 5.068493150684932e-06,
+      "loss": 0.6018,
+      "step": 4300
+    },
+    {
+      "epoch": 9.749716874292186,
+      "eval_loss": 0.864680826663971,
+      "eval_runtime": 215.5321,
+      "eval_samples_per_second": 7.28,
+      "eval_steps_per_second": 0.914,
+      "step": 4300
+    },
+    {
+      "epoch": 9.976217440543602,
+      "grad_norm": 0.8527385592460632,
+      "learning_rate": 5.022831050228311e-07,
+      "loss": 0.5912,
+      "step": 4400
+    },
+    {
+      "epoch": 9.976217440543602,
+      "eval_loss": 0.8630263209342957,
+      "eval_runtime": 215.6024,
+      "eval_samples_per_second": 7.277,
+      "eval_steps_per_second": 0.914,
+      "step": 4400
+    },
+    {
+      "epoch": 10.203850509626275,
+      "grad_norm": 1.06992506980896,
+      "learning_rate": 9.831626848691696e-05,
+      "loss": 0.6137,
+      "step": 4500
+    },
+    {
+      "epoch": 10.203850509626275,
+      "eval_loss": 0.8823357820510864,
+      "eval_runtime": 215.9148,
+      "eval_samples_per_second": 7.267,
+      "eval_steps_per_second": 0.912,
+      "step": 4500
+    },
+    {
+      "epoch": 10.43035107587769,
+      "grad_norm": 1.1724179983139038,
+      "learning_rate": 9.604095563139933e-05,
+      "loss": 0.6269,
+      "step": 4600
+    },
+    {
+      "epoch": 10.43035107587769,
+      "eval_loss": 0.8721606135368347,
+      "eval_runtime": 215.8627,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 4600
+    },
+    {
+      "epoch": 10.656851642129105,
+      "grad_norm": 0.9768912196159363,
+      "learning_rate": 9.37656427758817e-05,
+      "loss": 0.6269,
+      "step": 4700
+    },
+    {
+      "epoch": 10.656851642129105,
+      "eval_loss": 0.857449471950531,
+      "eval_runtime": 215.9592,
+      "eval_samples_per_second": 7.265,
+      "eval_steps_per_second": 0.912,
+      "step": 4700
+    },
+    {
+      "epoch": 10.88335220838052,
+      "grad_norm": 0.9589354991912842,
+      "learning_rate": 9.149032992036407e-05,
+      "loss": 0.6214,
+      "step": 4800
+    },
+    {
+      "epoch": 10.88335220838052,
+      "eval_loss": 0.8469829559326172,
+      "eval_runtime": 216.0164,
+      "eval_samples_per_second": 7.263,
+      "eval_steps_per_second": 0.912,
+      "step": 4800
+    },
+    {
+      "epoch": 11.110985277463193,
+      "grad_norm": 1.1246964931488037,
+      "learning_rate": 8.921501706484642e-05,
+      "loss": 0.6,
+      "step": 4900
+    },
+    {
+      "epoch": 11.110985277463193,
+      "eval_loss": 0.83788001537323,
+      "eval_runtime": 215.9754,
+      "eval_samples_per_second": 7.265,
+      "eval_steps_per_second": 0.912,
+      "step": 4900
+    },
+    {
+      "epoch": 11.337485843714608,
+      "grad_norm": 1.138035535812378,
+      "learning_rate": 8.693970420932879e-05,
+      "loss": 0.5559,
+      "step": 5000
+    },
+    {
+      "epoch": 11.337485843714608,
+      "eval_loss": 0.8344744443893433,
+      "eval_runtime": 216.059,
+      "eval_samples_per_second": 7.262,
+      "eval_steps_per_second": 0.912,
+      "step": 5000
+    },
+    {
+      "epoch": 11.563986409966025,
+      "grad_norm": 1.1976112127304077,
+      "learning_rate": 4.6044039483675025e-05,
+      "loss": 0.5355,
+      "step": 5100
+    },
+    {
+      "epoch": 11.563986409966025,
+      "eval_loss": 0.8142299652099609,
+      "eval_runtime": 216.0109,
+      "eval_samples_per_second": 7.264,
+      "eval_steps_per_second": 0.912,
+      "step": 5100
+    },
+    {
+      "epoch": 11.79048697621744,
+      "grad_norm": 1.095481514930725,
+      "learning_rate": 4.3006833712984054e-05,
+      "loss": 0.5353,
+      "step": 5200
+    },
+    {
+      "epoch": 11.79048697621744,
+      "eval_loss": 0.8013305068016052,
+      "eval_runtime": 215.9277,
+      "eval_samples_per_second": 7.266,
+      "eval_steps_per_second": 0.912,
+      "step": 5200
+    },
+    {
+      "epoch": 12.018120045300114,
+      "grad_norm": 1.0251810550689697,
+      "learning_rate": 3.996962794229309e-05,
+      "loss": 0.5364,
+      "step": 5300
+    },
+    {
+      "epoch": 12.018120045300114,
+      "eval_loss": 0.7993968725204468,
+      "eval_runtime": 216.1353,
+      "eval_samples_per_second": 7.259,
+      "eval_steps_per_second": 0.911,
+      "step": 5300
+    },
+    {
+      "epoch": 12.244620611551529,
+      "grad_norm": 0.9645494222640991,
+      "learning_rate": 3.6932422171602125e-05,
+      "loss": 0.474,
+      "step": 5400
+    },
+    {
+      "epoch": 12.244620611551529,
+      "eval_loss": 0.7945672273635864,
+      "eval_runtime": 216.0266,
+      "eval_samples_per_second": 7.263,
+      "eval_steps_per_second": 0.912,
+      "step": 5400
+    },
+    {
+      "epoch": 12.471121177802944,
+      "grad_norm": 0.9431504011154175,
+      "learning_rate": 3.389521640091116e-05,
+      "loss": 0.48,
+      "step": 5500
+    },
+    {
+      "epoch": 12.471121177802944,
+      "eval_loss": 0.7862181067466736,
+      "eval_runtime": 216.036,
+      "eval_samples_per_second": 7.263,
+      "eval_steps_per_second": 0.912,
+      "step": 5500
+    },
+    {
+      "epoch": 12.69762174405436,
+      "grad_norm": 0.9955912232398987,
+      "learning_rate": 3.0858010630220196e-05,
+      "loss": 0.4733,
+      "step": 5600
+    },
+    {
+      "epoch": 12.69762174405436,
+      "eval_loss": 0.77918940782547,
+      "eval_runtime": 215.9528,
+      "eval_samples_per_second": 7.265,
+      "eval_steps_per_second": 0.912,
+      "step": 5600
+    },
+    {
+      "epoch": 12.924122310305776,
+      "grad_norm": 1.0505925416946411,
+      "learning_rate": 2.782080485952924e-05,
+      "loss": 0.4772,
+      "step": 5700
+    },
+    {
+      "epoch": 12.924122310305776,
+      "eval_loss": 0.7714400291442871,
+      "eval_runtime": 215.9696,
+      "eval_samples_per_second": 7.265,
+      "eval_steps_per_second": 0.912,
+      "step": 5700
+    },
+    {
+      "epoch": 13.15175537938845,
+      "grad_norm": 0.9624122381210327,
+      "learning_rate": 2.478359908883827e-05,
+      "loss": 0.4534,
+      "step": 5800
+    },
+    {
+      "epoch": 13.15175537938845,
+      "eval_loss": 0.7735848426818848,
+      "eval_runtime": 215.9988,
+      "eval_samples_per_second": 7.264,
+      "eval_steps_per_second": 0.912,
+      "step": 5800
+    },
+    {
+      "epoch": 13.378255945639864,
+      "grad_norm": 0.9842013716697693,
+      "learning_rate": 2.1746393318147306e-05,
+      "loss": 0.4437,
+      "step": 5900
+    },
+    {
+      "epoch": 13.378255945639864,
+      "eval_loss": 0.7693312764167786,
+      "eval_runtime": 216.0532,
+      "eval_samples_per_second": 7.262,
+      "eval_steps_per_second": 0.912,
+      "step": 5900
+    },
+    {
+      "epoch": 13.60475651189128,
+      "grad_norm": 0.9403685927391052,
+      "learning_rate": 1.8709187547456342e-05,
+      "loss": 0.4362,
+      "step": 6000
+    },
+    {
+      "epoch": 13.60475651189128,
+      "eval_loss": 0.762976348400116,
+      "eval_runtime": 216.071,
+      "eval_samples_per_second": 7.262,
+      "eval_steps_per_second": 0.912,
+      "step": 6000
+    },
+    {
+      "epoch": 13.831257078142695,
+      "grad_norm": 0.9903466105461121,
+      "learning_rate": 1.5671981776765377e-05,
+      "loss": 0.4349,
+      "step": 6100
+    },
+    {
+      "epoch": 13.831257078142695,
+      "eval_loss": 0.76067715883255,
+      "eval_runtime": 215.8384,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 6100
+    },
+    {
+      "epoch": 14.058890147225368,
+      "grad_norm": 0.9362127780914307,
+      "learning_rate": 1.2634776006074411e-05,
+      "loss": 0.4385,
+      "step": 6200
+    },
+    {
+      "epoch": 14.058890147225368,
+      "eval_loss": 0.7605064511299133,
+      "eval_runtime": 215.995,
+      "eval_samples_per_second": 7.264,
+      "eval_steps_per_second": 0.912,
+      "step": 6200
+    },
+    {
+      "epoch": 14.285390713476783,
+      "grad_norm": 1.0396395921707153,
+      "learning_rate": 3.2087853220838355e-05,
+      "loss": 0.4171,
+      "step": 6300
+    },
+    {
+      "epoch": 14.285390713476783,
+      "eval_loss": 0.762564480304718,
+      "eval_runtime": 217.6902,
+      "eval_samples_per_second": 7.207,
+      "eval_steps_per_second": 0.905,
+      "step": 6300
+    },
+    {
+      "epoch": 14.5118912797282,
+      "grad_norm": 0.9981446266174316,
+      "learning_rate": 2.9409401366010447e-05,
+      "loss": 0.4262,
+      "step": 6400
+    },
+    {
+      "epoch": 14.5118912797282,
+      "eval_loss": 0.75795578956604,
+      "eval_runtime": 217.8007,
+      "eval_samples_per_second": 7.204,
+      "eval_steps_per_second": 0.904,
+      "step": 6400
+    },
+    {
+      "epoch": 14.738391845979615,
+      "grad_norm": 1.2502585649490356,
+      "learning_rate": 2.673094951118254e-05,
+      "loss": 0.423,
+      "step": 6500
+    },
+    {
+      "epoch": 14.738391845979615,
+      "eval_loss": 0.7491943836212158,
+      "eval_runtime": 217.9332,
+      "eval_samples_per_second": 7.199,
+      "eval_steps_per_second": 0.904,
+      "step": 6500
+    },
+    {
+      "epoch": 14.96489241223103,
+      "grad_norm": 1.0835864543914795,
+      "learning_rate": 2.405249765635463e-05,
+      "loss": 0.4219,
+      "step": 6600
+    },
+    {
+      "epoch": 14.96489241223103,
+      "eval_loss": 0.744881272315979,
+      "eval_runtime": 217.9821,
+      "eval_samples_per_second": 7.198,
+      "eval_steps_per_second": 0.904,
+      "step": 6600
+    },
+    {
+      "epoch": 15.192525481313703,
+      "grad_norm": 1.0534075498580933,
+      "learning_rate": 2.1374045801526718e-05,
+      "loss": 0.4077,
+      "step": 6700
+    },
+    {
+      "epoch": 15.192525481313703,
+      "eval_loss": 0.747353732585907,
+      "eval_runtime": 217.9166,
+      "eval_samples_per_second": 7.2,
+      "eval_steps_per_second": 0.904,
+      "step": 6700
+    },
+    {
+      "epoch": 15.419026047565119,
+      "grad_norm": 1.0463495254516602,
+      "learning_rate": 1.869559394669881e-05,
+      "loss": 0.3925,
+      "step": 6800
+    },
+    {
+      "epoch": 15.419026047565119,
+      "eval_loss": 0.7430649399757385,
+      "eval_runtime": 217.9436,
+      "eval_samples_per_second": 7.199,
+      "eval_steps_per_second": 0.904,
+      "step": 6800
+    },
+    {
+      "epoch": 15.645526613816534,
+      "grad_norm": 0.9589468240737915,
+      "learning_rate": 1.60171420918709e-05,
+      "loss": 0.3932,
+      "step": 6900
+    },
+    {
+      "epoch": 15.645526613816534,
+      "eval_loss": 0.7386749386787415,
+      "eval_runtime": 217.8985,
+      "eval_samples_per_second": 7.201,
+      "eval_steps_per_second": 0.904,
+      "step": 6900
+    },
+    {
+      "epoch": 15.87202718006795,
+      "grad_norm": 1.1412949562072754,
+      "learning_rate": 1.333869023704299e-05,
+      "loss": 0.3938,
+      "step": 7000
+    },
+    {
+      "epoch": 15.87202718006795,
+      "eval_loss": 0.7356697916984558,
+      "eval_runtime": 217.9654,
+      "eval_samples_per_second": 7.198,
+      "eval_steps_per_second": 0.904,
+      "step": 7000
+    },
+    {
+      "epoch": 16.099660249150624,
+      "grad_norm": 0.9367544651031494,
+      "learning_rate": 1.066023838221508e-05,
+      "loss": 0.3897,
+      "step": 7100
+    },
+    {
+      "epoch": 16.099660249150624,
+      "eval_loss": 0.7375982999801636,
+      "eval_runtime": 217.89,
+      "eval_samples_per_second": 7.201,
+      "eval_steps_per_second": 0.904,
+      "step": 7100
+    },
+    {
+      "epoch": 16.326160815402037,
+      "grad_norm": 1.0161197185516357,
+      "learning_rate": 7.98178652738717e-06,
+      "loss": 0.3713,
+      "step": 7200
+    },
+    {
+      "epoch": 16.326160815402037,
+      "eval_loss": 0.7364110350608826,
+      "eval_runtime": 217.9527,
+      "eval_samples_per_second": 7.199,
+      "eval_steps_per_second": 0.904,
+      "step": 7200
+    },
+    {
+      "epoch": 16.552661381653454,
+      "grad_norm": 0.9260092377662659,
+      "learning_rate": 5.303334672559261e-06,
+      "loss": 0.3804,
+      "step": 7300
+    },
+    {
+      "epoch": 16.552661381653454,
+      "eval_loss": 0.733728289604187,
+      "eval_runtime": 217.9029,
+      "eval_samples_per_second": 7.2,
+      "eval_steps_per_second": 0.904,
+      "step": 7300
+    },
+    {
+      "epoch": 16.77916194790487,
+      "grad_norm": 1.008174180984497,
+      "learning_rate": 2.6248828177313514e-06,
+      "loss": 0.3704,
+      "step": 7400
+    },
+    {
+      "epoch": 16.77916194790487,
+      "eval_loss": 0.7327025532722473,
+      "eval_runtime": 217.9462,
+      "eval_samples_per_second": 7.199,
+      "eval_steps_per_second": 0.904,
+      "step": 7400
+    },
+    {
+      "epoch": 17.006795016987542,
+      "grad_norm": 0.88117915391922,
+      "learning_rate": 3.0056882821387945e-05,
+      "loss": 0.3357,
+      "step": 7500
+    },
+    {
+      "epoch": 17.006795016987542,
+      "eval_loss": 0.7340475916862488,
+      "eval_runtime": 215.1992,
+      "eval_samples_per_second": 7.291,
+      "eval_steps_per_second": 0.915,
+      "step": 7500
+    },
+    {
+      "epoch": 17.23329558323896,
+      "grad_norm": 1.0653574466705322,
+      "learning_rate": 2.7781569965870308e-05,
+      "loss": 0.371,
+      "step": 7600
+    },
+    {
+      "epoch": 17.23329558323896,
+      "eval_loss": 0.7350865602493286,
+      "eval_runtime": 215.7811,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 7600
+    },
+    {
+      "epoch": 17.459796149490373,
+      "grad_norm": 1.0504379272460938,
+      "learning_rate": 2.5506257110352678e-05,
+      "loss": 0.3784,
+      "step": 7700
+    },
+    {
+      "epoch": 17.459796149490373,
+      "eval_loss": 0.7296854257583618,
+      "eval_runtime": 215.8568,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 7700
+    },
+    {
+      "epoch": 17.68629671574179,
+      "grad_norm": 1.2694584131240845,
+      "learning_rate": 2.323094425483504e-05,
+      "loss": 0.3769,
+      "step": 7800
+    },
+    {
+      "epoch": 17.68629671574179,
+      "eval_loss": 0.7242677211761475,
+      "eval_runtime": 215.9243,
+      "eval_samples_per_second": 7.266,
+      "eval_steps_per_second": 0.912,
+      "step": 7800
+    },
+    {
+      "epoch": 17.912797281993203,
+      "grad_norm": 1.146080493927002,
+      "learning_rate": 2.0955631399317408e-05,
+      "loss": 0.3808,
+      "step": 7900
+    },
+    {
+      "epoch": 17.912797281993203,
+      "eval_loss": 0.7212691307067871,
+      "eval_runtime": 216.0431,
+      "eval_samples_per_second": 7.262,
+      "eval_steps_per_second": 0.912,
+      "step": 7900
+    },
+    {
+      "epoch": 18.140430351075878,
+      "grad_norm": 1.0066969394683838,
+      "learning_rate": 1.8680318543799774e-05,
+      "loss": 0.3625,
+      "step": 8000
+    },
+    {
+      "epoch": 18.140430351075878,
+      "eval_loss": 0.7235797643661499,
+      "eval_runtime": 216.0282,
+      "eval_samples_per_second": 7.263,
+      "eval_steps_per_second": 0.912,
+      "step": 8000
+    },
+    {
+      "epoch": 18.366930917327295,
+      "grad_norm": 1.040211796760559,
+      "learning_rate": 1.6427758816837314e-05,
+      "loss": 0.3506,
+      "step": 8100
+    },
+    {
+      "epoch": 18.366930917327295,
+      "eval_loss": 0.7218917608261108,
+      "eval_runtime": 216.0625,
+      "eval_samples_per_second": 7.262,
+      "eval_steps_per_second": 0.912,
+      "step": 8100
+    },
+    {
+      "epoch": 18.59343148357871,
+      "grad_norm": 0.9982612133026123,
+      "learning_rate": 1.4152445961319682e-05,
+      "loss": 0.3531,
+      "step": 8200
+    },
+    {
+      "epoch": 18.59343148357871,
+      "eval_loss": 0.7176269888877869,
+      "eval_runtime": 215.9028,
+      "eval_samples_per_second": 7.267,
+      "eval_steps_per_second": 0.912,
+      "step": 8200
+    },
+    {
+      "epoch": 18.819932049830125,
+      "grad_norm": 1.133723497390747,
+      "learning_rate": 1.1877133105802047e-05,
+      "loss": 0.3566,
+      "step": 8300
+    },
+    {
+      "epoch": 18.819932049830125,
+      "eval_loss": 0.7127575874328613,
+      "eval_runtime": 215.8405,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 8300
+    },
+    {
+      "epoch": 19.047565118912797,
+      "grad_norm": 0.9450774192810059,
+      "learning_rate": 9.601820250284414e-06,
+      "loss": 0.3553,
+      "step": 8400
+    },
+    {
+      "epoch": 19.047565118912797,
+      "eval_loss": 0.7169352173805237,
+      "eval_runtime": 215.9082,
+      "eval_samples_per_second": 7.267,
+      "eval_steps_per_second": 0.912,
+      "step": 8400
+    },
+    {
+      "epoch": 19.274065685164214,
+      "grad_norm": 0.9257975816726685,
+      "learning_rate": 7.326507394766781e-06,
+      "loss": 0.3366,
+      "step": 8500
+    },
+    {
+      "epoch": 19.274065685164214,
+      "eval_loss": 0.7128849625587463,
+      "eval_runtime": 216.0119,
+      "eval_samples_per_second": 7.263,
+      "eval_steps_per_second": 0.912,
+      "step": 8500
+    },
+    {
+      "epoch": 19.500566251415627,
+      "grad_norm": 1.0109655857086182,
+      "learning_rate": 5.051194539249147e-06,
+      "loss": 0.3335,
+      "step": 8600
+    },
+    {
+      "epoch": 19.500566251415627,
+      "eval_loss": 0.7129219174385071,
+      "eval_runtime": 215.981,
+      "eval_samples_per_second": 7.265,
+      "eval_steps_per_second": 0.912,
+      "step": 8600
+    },
+    {
+      "epoch": 19.727066817667044,
+      "grad_norm": 1.021828293800354,
+      "learning_rate": 2.7758816837315134e-06,
+      "loss": 0.3398,
+      "step": 8700
+    },
+    {
+      "epoch": 19.727066817667044,
+      "eval_loss": 0.7109224200248718,
+      "eval_runtime": 215.6766,
+      "eval_samples_per_second": 7.275,
+      "eval_steps_per_second": 0.913,
+      "step": 8700
+    },
+    {
+      "epoch": 19.95356738391846,
+      "grad_norm": 1.0146093368530273,
+      "learning_rate": 5.005688282138794e-07,
+      "loss": 0.3375,
+      "step": 8800
+    },
+    {
+      "epoch": 19.95356738391846,
+      "eval_loss": 0.7103046774864197,
+      "eval_runtime": 215.5394,
+      "eval_samples_per_second": 7.279,
+      "eval_steps_per_second": 0.914,
+      "step": 8800
+    },
+    {
+      "epoch": 20.181200453001132,
+      "grad_norm": 1.1958893537521362,
+      "learning_rate": 2.4621773954316228e-05,
+      "loss": 0.3306,
+      "step": 8900
+    },
+    {
+      "epoch": 20.181200453001132,
+      "eval_loss": 0.7169004082679749,
+      "eval_runtime": 215.7176,
+      "eval_samples_per_second": 7.273,
+      "eval_steps_per_second": 0.913,
+      "step": 8900
+    },
+    {
+      "epoch": 20.40770101925255,
+      "grad_norm": 1.2821824550628662,
+      "learning_rate": 2.2644121427865127e-05,
+      "loss": 0.3442,
+      "step": 9000
+    },
+    {
+      "epoch": 20.40770101925255,
+      "eval_loss": 0.710050106048584,
+      "eval_runtime": 215.7663,
+      "eval_samples_per_second": 7.272,
+      "eval_steps_per_second": 0.913,
+      "step": 9000
+    },
+    {
+      "epoch": 20.634201585503963,
+      "grad_norm": 1.118553876876831,
+      "learning_rate": 2.0666468901414023e-05,
+      "loss": 0.3434,
+      "step": 9100
+    },
+    {
+      "epoch": 20.634201585503963,
+      "eval_loss": 0.7061675190925598,
+      "eval_runtime": 215.9231,
+      "eval_samples_per_second": 7.266,
+      "eval_steps_per_second": 0.912,
+      "step": 9100
+    },
+    {
+      "epoch": 20.86070215175538,
+      "grad_norm": 1.131901502609253,
+      "learning_rate": 1.868881637496292e-05,
+      "loss": 0.3431,
+      "step": 9200
+    },
+    {
+      "epoch": 20.86070215175538,
+      "eval_loss": 0.7025442123413086,
+      "eval_runtime": 215.8012,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 9200
+    },
+    {
+      "epoch": 21.08833522083805,
+      "grad_norm": 1.063588261604309,
+      "learning_rate": 1.6711163848511818e-05,
+      "loss": 0.3361,
+      "step": 9300
+    },
+    {
+      "epoch": 21.08833522083805,
+      "eval_loss": 0.7048903107643127,
+      "eval_runtime": 215.6814,
+      "eval_samples_per_second": 7.275,
+      "eval_steps_per_second": 0.913,
+      "step": 9300
+    },
+    {
+      "epoch": 21.314835787089468,
+      "grad_norm": 1.0730327367782593,
+      "learning_rate": 1.4733511322060714e-05,
+      "loss": 0.3201,
+      "step": 9400
+    },
+    {
+      "epoch": 21.314835787089468,
+      "eval_loss": 0.7042800188064575,
+      "eval_runtime": 215.7788,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 9400
+    },
+    {
+      "epoch": 21.541336353340885,
+      "grad_norm": 1.002642273902893,
+      "learning_rate": 1.2755858795609612e-05,
+      "loss": 0.3248,
+      "step": 9500
+    },
+    {
+      "epoch": 21.541336353340885,
+      "eval_loss": 0.6989186406135559,
+      "eval_runtime": 215.7873,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 9500
+    },
+    {
+      "epoch": 21.7678369195923,
+      "grad_norm": 1.184122920036316,
+      "learning_rate": 1.077820626915851e-05,
+      "loss": 0.3183,
+      "step": 9600
+    },
+    {
+      "epoch": 21.7678369195923,
+      "eval_loss": 0.6965128183364868,
+      "eval_runtime": 215.7509,
+      "eval_samples_per_second": 7.272,
+      "eval_steps_per_second": 0.913,
+      "step": 9600
+    },
+    {
+      "epoch": 21.994337485843715,
+      "grad_norm": 1.00730562210083,
+      "learning_rate": 8.800553742707407e-06,
+      "loss": 0.3243,
+      "step": 9700
+    },
+    {
+      "epoch": 21.994337485843715,
+      "eval_loss": 0.69374018907547,
+      "eval_runtime": 215.6336,
+      "eval_samples_per_second": 7.276,
+      "eval_steps_per_second": 0.914,
+      "step": 9700
+    },
+    {
+      "epoch": 22.221970554926386,
+      "grad_norm": 1.0043355226516724,
+      "learning_rate": 6.822901216256304e-06,
+      "loss": 0.3118,
+      "step": 9800
+    },
+    {
+      "epoch": 22.221970554926386,
+      "eval_loss": 0.6979511380195618,
+      "eval_runtime": 215.6267,
+      "eval_samples_per_second": 7.276,
+      "eval_steps_per_second": 0.914,
+      "step": 9800
+    },
+    {
+      "epoch": 22.448471121177803,
+      "grad_norm": 1.0051404237747192,
+      "learning_rate": 4.845248689805201e-06,
+      "loss": 0.3068,
+      "step": 9900
+    },
+    {
+      "epoch": 22.448471121177803,
+      "eval_loss": 0.6955877542495728,
+      "eval_runtime": 215.5799,
+      "eval_samples_per_second": 7.278,
+      "eval_steps_per_second": 0.914,
+      "step": 9900
+    },
+    {
+      "epoch": 22.674971687429217,
+      "grad_norm": 0.9242558479309082,
+      "learning_rate": 2.8675961633540988e-06,
+      "loss": 0.3094,
+      "step": 10000
+    },
+    {
+      "epoch": 22.674971687429217,
+      "eval_loss": 0.6944177746772766,
+      "eval_runtime": 215.6097,
+      "eval_samples_per_second": 7.277,
+      "eval_steps_per_second": 0.914,
+      "step": 10000
+    },
+    {
+      "epoch": 22.901472253680634,
+      "grad_norm": 1.057633638381958,
+      "learning_rate": 8.899436369029961e-07,
+      "loss": 0.3092,
+      "step": 10100
+    },
+    {
+      "epoch": 22.901472253680634,
+      "eval_loss": 0.6938230991363525,
+      "eval_runtime": 215.7357,
+      "eval_samples_per_second": 7.273,
+      "eval_steps_per_second": 0.913,
+      "step": 10100
+    },
+    {
+      "epoch": 23.12910532276331,
+      "grad_norm": 1.0774931907653809,
+      "learning_rate": 1.5043201455206912e-05,
+      "loss": 0.3076,
+      "step": 10200
+    },
+    {
+      "epoch": 23.12910532276331,
+      "eval_loss": 0.6974820494651794,
+      "eval_runtime": 214.8368,
+      "eval_samples_per_second": 7.303,
+      "eval_steps_per_second": 0.917,
+      "step": 10200
+    },
+    {
+      "epoch": 23.355605889014722,
+      "grad_norm": 1.0320171117782593,
+      "learning_rate": 1.3224192814915873e-05,
+      "loss": 0.3084,
+      "step": 10300
+    },
+    {
+      "epoch": 23.355605889014722,
+      "eval_loss": 0.6950554251670837,
+      "eval_runtime": 214.9493,
+      "eval_samples_per_second": 7.299,
+      "eval_steps_per_second": 0.916,
+      "step": 10300
+    },
+    {
+      "epoch": 23.58210645526614,
+      "grad_norm": 1.0282411575317383,
+      "learning_rate": 1.142337426102774e-05,
+      "loss": 0.3077,
+      "step": 10400
+    },
+    {
+      "epoch": 23.58210645526614,
+      "eval_loss": 0.6931228637695312,
+      "eval_runtime": 214.8764,
+      "eval_samples_per_second": 7.302,
+      "eval_steps_per_second": 0.917,
+      "step": 10400
+    },
+    {
+      "epoch": 23.808607021517552,
+      "grad_norm": 1.0363404750823975,
+      "learning_rate": 9.6043656207367e-06,
+      "loss": 0.3088,
+      "step": 10500
+    },
+    {
+      "epoch": 23.808607021517552,
+      "eval_loss": 0.6890929341316223,
+      "eval_runtime": 214.9182,
+      "eval_samples_per_second": 7.3,
+      "eval_steps_per_second": 0.917,
+      "step": 10500
+    },
+    {
+      "epoch": 24.036240090600227,
+      "grad_norm": 0.9383705854415894,
+      "learning_rate": 7.785356980445657e-06,
+      "loss": 0.3092,
+      "step": 10600
+    },
+    {
+      "epoch": 24.036240090600227,
+      "eval_loss": 0.6934636831283569,
+      "eval_runtime": 214.8602,
+      "eval_samples_per_second": 7.302,
+      "eval_steps_per_second": 0.917,
+      "step": 10600
+    },
+    {
+      "epoch": 24.26274065685164,
+      "grad_norm": 0.905327320098877,
+      "learning_rate": 5.966348340154616e-06,
+      "loss": 0.2941,
+      "step": 10700
+    },
+    {
+      "epoch": 24.26274065685164,
+      "eval_loss": 0.691253125667572,
+      "eval_runtime": 215.1136,
+      "eval_samples_per_second": 7.294,
+      "eval_steps_per_second": 0.916,
+      "step": 10700
+    },
+    {
+      "epoch": 24.489241223103058,
+      "grad_norm": 0.9248319864273071,
+      "learning_rate": 4.147339699863575e-06,
+      "loss": 0.2965,
+      "step": 10800
+    },
+    {
+      "epoch": 24.489241223103058,
+      "eval_loss": 0.688778281211853,
+      "eval_runtime": 215.1479,
+      "eval_samples_per_second": 7.293,
+      "eval_steps_per_second": 0.916,
+      "step": 10800
+    },
+    {
+      "epoch": 24.715741789354475,
+      "grad_norm": 0.9588720202445984,
+      "learning_rate": 2.3283310595725328e-06,
+      "loss": 0.296,
+      "step": 10900
+    },
+    {
+      "epoch": 24.715741789354475,
+      "eval_loss": 0.6882308125495911,
+      "eval_runtime": 215.299,
+      "eval_samples_per_second": 7.288,
+      "eval_steps_per_second": 0.915,
+      "step": 10900
+    },
+    {
+      "epoch": 24.942242355605888,
+      "grad_norm": 0.9268137216567993,
+      "learning_rate": 5.093224192814915e-07,
+      "loss": 0.2979,
+      "step": 11000
+    },
+    {
+      "epoch": 24.942242355605888,
+      "eval_loss": 0.6880246996879578,
+      "eval_runtime": 215.276,
+      "eval_samples_per_second": 7.288,
+      "eval_steps_per_second": 0.915,
+      "step": 11000
+    },
+    {
+      "epoch": 25.169875424688563,
+      "grad_norm": 1.163781762123108,
+      "learning_rate": 3.231818181818182e-05,
+      "loss": 0.299,
+      "step": 11100
+    },
+    {
+      "epoch": 25.169875424688563,
+      "eval_loss": 0.6973585486412048,
+      "eval_runtime": 215.0775,
+      "eval_samples_per_second": 7.295,
+      "eval_steps_per_second": 0.916,
+      "step": 11100
+    },
+    {
+      "epoch": 25.396375990939976,
+      "grad_norm": 1.3955178260803223,
+      "learning_rate": 3.0803030303030304e-05,
+      "loss": 0.3092,
+      "step": 11200
+    },
+    {
+      "epoch": 25.396375990939976,
+      "eval_loss": 0.6922005414962769,
+      "eval_runtime": 214.9326,
+      "eval_samples_per_second": 7.3,
+      "eval_steps_per_second": 0.917,
+      "step": 11200
+    },
+    {
+      "epoch": 25.622876557191393,
+      "grad_norm": 1.630706548690796,
+      "learning_rate": 2.9287878787878793e-05,
+      "loss": 0.3106,
+      "step": 11300
+    },
+    {
+      "epoch": 25.622876557191393,
+      "eval_loss": 0.6866771578788757,
+      "eval_runtime": 215.0055,
+      "eval_samples_per_second": 7.297,
+      "eval_steps_per_second": 0.916,
+      "step": 11300
+    },
+    {
+      "epoch": 25.84937712344281,
+      "grad_norm": 1.2561249732971191,
+      "learning_rate": 2.7772727272727272e-05,
+      "loss": 0.3113,
+      "step": 11400
+    },
+    {
+      "epoch": 25.84937712344281,
+      "eval_loss": 0.6819568276405334,
+      "eval_runtime": 214.834,
+      "eval_samples_per_second": 7.303,
+      "eval_steps_per_second": 0.917,
+      "step": 11400
+    },
+    {
+      "epoch": 26.07701019252548,
+      "grad_norm": 1.5864068269729614,
+      "learning_rate": 2.6257575757575757e-05,
+      "loss": 0.3081,
+      "step": 11500
+    },
+    {
+      "epoch": 26.07701019252548,
+      "eval_loss": 0.683868408203125,
+      "eval_runtime": 214.7915,
+      "eval_samples_per_second": 7.305,
+      "eval_steps_per_second": 0.917,
+      "step": 11500
+    },
+    {
+      "epoch": 26.3035107587769,
+      "grad_norm": 1.2162772417068481,
+      "learning_rate": 2.475757575757576e-05,
+      "loss": 0.2911,
+      "step": 11600
+    },
+    {
+      "epoch": 26.3035107587769,
+      "eval_loss": 0.6809530258178711,
+      "eval_runtime": 214.7759,
+      "eval_samples_per_second": 7.305,
+      "eval_steps_per_second": 0.917,
+      "step": 11600
+    },
+    {
+      "epoch": 26.530011325028312,
+      "grad_norm": 1.2697758674621582,
+      "learning_rate": 2.3242424242424243e-05,
+      "loss": 0.289,
+      "step": 11700
+    },
+    {
+      "epoch": 26.530011325028312,
+      "eval_loss": 0.6744586229324341,
+      "eval_runtime": 214.8373,
+      "eval_samples_per_second": 7.303,
+      "eval_steps_per_second": 0.917,
+      "step": 11700
+    },
+    {
+      "epoch": 26.75651189127973,
+      "grad_norm": 1.2038872241973877,
+      "learning_rate": 2.172727272727273e-05,
+      "loss": 0.293,
+      "step": 11800
+    },
+    {
+      "epoch": 26.75651189127973,
+      "eval_loss": 0.6742814183235168,
+      "eval_runtime": 214.8304,
+      "eval_samples_per_second": 7.303,
+      "eval_steps_per_second": 0.917,
+      "step": 11800
+    },
+    {
+      "epoch": 26.983012457531142,
+      "grad_norm": 1.2992146015167236,
+      "learning_rate": 2.0212121212121214e-05,
+      "loss": 0.2921,
+      "step": 11900
+    },
+    {
+      "epoch": 26.983012457531142,
+      "eval_loss": 0.6651853322982788,
+      "eval_runtime": 214.8882,
+      "eval_samples_per_second": 7.301,
+      "eval_steps_per_second": 0.917,
+      "step": 11900
+    },
+    {
+      "epoch": 27.210645526613817,
+      "grad_norm": 1.5248701572418213,
+      "learning_rate": 1.86969696969697e-05,
+      "loss": 0.2761,
+      "step": 12000
+    },
+    {
+      "epoch": 27.210645526613817,
+      "eval_loss": 0.6715984344482422,
+      "eval_runtime": 214.8134,
+      "eval_samples_per_second": 7.304,
+      "eval_steps_per_second": 0.917,
+      "step": 12000
+    },
+    {
+      "epoch": 27.43714609286523,
+      "grad_norm": 1.3465806245803833,
+      "learning_rate": 1.718181818181818e-05,
+      "loss": 0.2778,
+      "step": 12100
+    },
+    {
+      "epoch": 27.43714609286523,
+      "eval_loss": 0.6680512428283691,
+      "eval_runtime": 214.8681,
+      "eval_samples_per_second": 7.302,
+      "eval_steps_per_second": 0.917,
+      "step": 12100
+    },
+    {
+      "epoch": 27.663646659116647,
+      "grad_norm": 1.044279932975769,
+      "learning_rate": 1.5666666666666667e-05,
+      "loss": 0.2766,
+      "step": 12200
+    },
+    {
+      "epoch": 27.663646659116647,
+      "eval_loss": 0.66595059633255,
+      "eval_runtime": 214.8457,
+      "eval_samples_per_second": 7.303,
+      "eval_steps_per_second": 0.917,
+      "step": 12200
+    },
+    {
+      "epoch": 27.890147225368064,
+      "grad_norm": 1.033585548400879,
+      "learning_rate": 1.4151515151515152e-05,
+      "loss": 0.2755,
+      "step": 12300
+    },
+    {
+      "epoch": 27.890147225368064,
+      "eval_loss": 0.6637829542160034,
+      "eval_runtime": 215.9457,
+      "eval_samples_per_second": 7.266,
+      "eval_steps_per_second": 0.912,
+      "step": 12300
+    },
+    {
+      "epoch": 28.117780294450736,
+      "grad_norm": 1.020391821861267,
+      "learning_rate": 1.2636363636363638e-05,
+      "loss": 0.267,
+      "step": 12400
+    },
+    {
+      "epoch": 28.117780294450736,
+      "eval_loss": 0.6649137139320374,
+      "eval_runtime": 215.9471,
+      "eval_samples_per_second": 7.266,
+      "eval_steps_per_second": 0.912,
+      "step": 12400
+    },
+    {
+      "epoch": 28.344280860702153,
+      "grad_norm": 0.961401641368866,
+      "learning_rate": 1.1121212121212121e-05,
+      "loss": 0.2603,
+      "step": 12500
+    },
+    {
+      "epoch": 28.344280860702153,
+      "eval_loss": 0.6652226448059082,
+      "eval_runtime": 215.9698,
+      "eval_samples_per_second": 7.265,
+      "eval_steps_per_second": 0.912,
+      "step": 12500
+    },
+    {
+      "epoch": 28.570781426953566,
+      "grad_norm": 0.9490793347358704,
+      "learning_rate": 9.606060606060607e-06,
+      "loss": 0.2619,
+      "step": 12600
+    },
+    {
+      "epoch": 28.570781426953566,
+      "eval_loss": 0.6631964445114136,
+      "eval_runtime": 216.054,
+      "eval_samples_per_second": 7.262,
+      "eval_steps_per_second": 0.912,
+      "step": 12600
+    },
+    {
+      "epoch": 28.797281993204983,
+      "grad_norm": 1.015561580657959,
+      "learning_rate": 8.09090909090909e-06,
+      "loss": 0.2648,
+      "step": 12700
+    },
+    {
+      "epoch": 28.797281993204983,
+      "eval_loss": 0.6587069034576416,
+      "eval_runtime": 216.0262,
+      "eval_samples_per_second": 7.263,
+      "eval_steps_per_second": 0.912,
+      "step": 12700
+    },
+    {
+      "epoch": 29.024915062287654,
+      "grad_norm": 0.8936730623245239,
+      "learning_rate": 6.575757575757575e-06,
+      "loss": 0.2621,
+      "step": 12800
+    },
+    {
+      "epoch": 29.024915062287654,
+      "eval_loss": 0.6623508930206299,
+      "eval_runtime": 216.1177,
+      "eval_samples_per_second": 7.26,
+      "eval_steps_per_second": 0.912,
+      "step": 12800
+    },
+    {
+      "epoch": 29.25141562853907,
+      "grad_norm": 0.8353849053382874,
+      "learning_rate": 5.060606060606061e-06,
+      "loss": 0.2497,
+      "step": 12900
+    },
+    {
+      "epoch": 29.25141562853907,
+      "eval_loss": 0.6611577272415161,
+      "eval_runtime": 216.148,
+      "eval_samples_per_second": 7.259,
+      "eval_steps_per_second": 0.911,
+      "step": 12900
+    },
+    {
+      "epoch": 29.477916194790488,
+      "grad_norm": 0.9153599739074707,
+      "learning_rate": 3.5454545454545454e-06,
+      "loss": 0.2555,
+      "step": 13000
+    },
+    {
+      "epoch": 29.477916194790488,
+      "eval_loss": 0.660586416721344,
+      "eval_runtime": 216.1833,
+      "eval_samples_per_second": 7.258,
+      "eval_steps_per_second": 0.911,
+      "step": 13000
+    },
+    {
+      "epoch": 29.7044167610419,
+      "grad_norm": 0.9058592319488525,
+      "learning_rate": 2.0303030303030303e-06,
+      "loss": 0.2502,
+      "step": 13100
+    },
+    {
+      "epoch": 29.7044167610419,
+      "eval_loss": 0.6602495908737183,
+      "eval_runtime": 216.1128,
+      "eval_samples_per_second": 7.26,
+      "eval_steps_per_second": 0.912,
+      "step": 13100
+    },
+    {
+      "epoch": 29.93091732729332,
+      "grad_norm": 0.9629655480384827,
+      "learning_rate": 5.151515151515152e-07,
+      "loss": 0.2525,
+      "step": 13200
+    },
+    {
+      "epoch": 29.93091732729332,
+      "eval_loss": 0.6595110297203064,
+      "eval_runtime": 216.0902,
+      "eval_samples_per_second": 7.261,
+      "eval_steps_per_second": 0.912,
+      "step": 13200
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 13230,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.633805787136e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-13200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddd1454bdddf5d6a918ffb8a8fbe7331b220c89a157922bc08953307b6efaaae
+size 6161

checkpoint-13200/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-13230/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: unsloth/qwen3-0.6b-unsloth-bnb-4bit
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.14.0

checkpoint-13230/adapter_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "unsloth/qwen3-0.6b-unsloth-bnb-4bit",
+  "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "up_proj",
+    "q_proj",
+    "down_proj",
+    "k_proj",
+    "gate_proj",
+    "v_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-13230/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b03ffb6c9ccc44fbdbe87e699eebe64564f8c0b0421c09af94cbd7f6973fa93
+size 40422168

checkpoint-13230/added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

checkpoint-13230/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-13230/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4226c840dc3a8513d3f2a56be7c50eb6c773c320706985becb35b998593f7ae7
+size 21979091

checkpoint-13230/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:970f20ed294a0d8701bfcccff463f693cc5687d59a27abebbf761ee3255ea47d
+size 14645

checkpoint-13230/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e50017faec0b4c5f5b0cd3658e2a583c5c4a15823c3e3313abbd4d8b97dbb79d
+size 1383

checkpoint-13230/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c6fd0219c5c2765064cacc396ba2623ebdd31f73f4547e5338da2d5e5ad8f8a
+size 1465

checkpoint-13230/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|vision_pad|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-13230/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae1a036a9837df9caeebb840d09d80e8feef0f6d2bae982970d1ad34f5946aff
+size 11422753

checkpoint-13230/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,241 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0].role == 'system' %}\n        {{- messages[0].content + '\\n\\n' }}\n    {%- endif %}\n    {{- \"# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0].role == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0].content + '<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}\n{%- for forward_message in messages %}\n    {%- set index = (messages|length - 1) - loop.index0 %}\n    {%- set message = messages[index] %}\n    {%- set current_content = message.content if message.content is defined and message.content is not none else '' %}\n    {%- set tool_start = '<tool_response>' %}\n    {%- set tool_start_length = tool_start|length %}\n    {%- set start_of_message = current_content[:tool_start_length] %}\n    {%- set tool_end = '</tool_response>' %}\n    {%- set tool_end_length = tool_end|length %}\n    {%- set start_pos = (current_content|length) - tool_end_length %}\n    {%- if start_pos < 0 %}\n        {%- set start_pos = 0 %}\n    {%- endif %}\n    {%- set end_of_message = current_content[start_pos:] %}\n    {%- if ns.multi_step_tool and message.role == \"user\" and not(start_of_message == tool_start and end_of_message == tool_end) %}\n        {%- set ns.multi_step_tool = false %}\n        {%- set ns.last_query_index = index %}\n    {%- endif %}\n{%- endfor %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {%- set m_content = message.content if message.content is defined and message.content is not none else '' %}\n        {%- set content = m_content %}\n        {%- set reasoning_content = '' %}\n        {%- if message.reasoning_content is defined and message.reasoning_content is not none %}\n            {%- set reasoning_content = message.reasoning_content %}\n        {%- else %}\n            {%- if '</think>' in m_content %}\n                {%- set content = (m_content.split('</think>')|last).lstrip('\\n') %}\n                {%- set reasoning_content = (m_content.split('</think>')|first).rstrip('\\n') %}\n                {%- set reasoning_content = (reasoning_content.split('<think>')|last).lstrip('\\n') %}\n            {%- endif %}\n        {%- endif %}\n        {%- if loop.index0 > ns.last_query_index %}\n            {%- if loop.last or (not loop.last and (not reasoning_content.strip() == '')) %}\n                {{- '<|im_start|>' + message.role + '\\n<think>\\n' + reasoning_content.strip('\\n') + '\\n</think>\\n\\n' + content.lstrip('\\n') }}\n            {%- else %}\n                {{- '<|im_start|>' + message.role + '\\n' + content }}\n            {%- endif %}\n        {%- else %}\n            {{- '<|im_start|>' + message.role + '\\n' + content }}\n        {%- endif %}\n        {%- if message.tool_calls %}\n            {%- for tool_call in message.tool_calls %}\n                {%- if (loop.first and content) or (not loop.first) %}\n                    {{- '\\n' }}\n                {%- endif %}\n                {%- if tool_call.function %}\n                    {%- set tool_call = tool_call.function %}\n                {%- endif %}\n                {{- '<tool_call>\\n{\"name\": \"' }}\n                {{- tool_call.name }}\n                {{- '\", \"arguments\": ' }}\n                {%- if tool_call.arguments is string %}\n                    {{- tool_call.arguments }}\n                {%- else %}\n                    {{- tool_call.arguments | tojson }}\n                {%- endif %}\n                {{- '}\\n</tool_call>' }}\n            {%- endfor %}\n        {%- endif %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if loop.first or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n    {%- if enable_thinking is defined and enable_thinking is false %}\n        {{- '<think>\\n\\n</think>\\n\\n' }}\n    {%- endif %}\n{%- endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 40960,
+  "pad_token": "<|vision_pad|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoint-13230/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2014 @@

+{
+  "best_global_step": 12700,
+  "best_metric": 0.6587069034576416,
+  "best_model_checkpoint": "./Qwen-3-0.6B-Reasoning-Vi-Medical-LoRA/checkpoint-12700",
+  "epoch": 29.998867497168742,
+  "eval_steps": 100,
+  "global_step": 13230,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.22650056625141562,
+      "grad_norm": 0.32067689299583435,
+      "learning_rate": 0.0001936551724137931,
+      "loss": 1.3117,
+      "step": 100
+    },
+    {
+      "epoch": 0.22650056625141562,
+      "eval_loss": 1.2771011590957642,
+      "eval_runtime": 215.7306,
+      "eval_samples_per_second": 7.273,
+      "eval_steps_per_second": 0.913,
+      "step": 100
+    },
+    {
+      "epoch": 0.45300113250283125,
+      "grad_norm": 0.368208110332489,
+      "learning_rate": 0.00018445977011494254,
+      "loss": 1.2627,
+      "step": 200
+    },
+    {
+      "epoch": 0.45300113250283125,
+      "eval_loss": 1.234209418296814,
+      "eval_runtime": 215.6413,
+      "eval_samples_per_second": 7.276,
+      "eval_steps_per_second": 0.914,
+      "step": 200
+    },
+    {
+      "epoch": 0.6795016987542469,
+      "grad_norm": 0.34856918454170227,
+      "learning_rate": 0.00017526436781609196,
+      "loss": 1.2199,
+      "step": 300
+    },
+    {
+      "epoch": 0.6795016987542469,
+      "eval_loss": 1.2032462358474731,
+      "eval_runtime": 215.6165,
+      "eval_samples_per_second": 7.277,
+      "eval_steps_per_second": 0.914,
+      "step": 300
+    },
+    {
+      "epoch": 0.9060022650056625,
+      "grad_norm": 0.33870309591293335,
+      "learning_rate": 0.0001660689655172414,
+      "loss": 1.1941,
+      "step": 400
+    },
+    {
+      "epoch": 0.9060022650056625,
+      "eval_loss": 1.1780856847763062,
+      "eval_runtime": 215.6336,
+      "eval_samples_per_second": 7.276,
+      "eval_steps_per_second": 0.914,
+      "step": 400
+    },
+    {
+      "epoch": 1.1336353340883352,
+      "grad_norm": 0.38066866993904114,
+      "learning_rate": 0.00015687356321839082,
+      "loss": 1.1664,
+      "step": 500
+    },
+    {
+      "epoch": 1.1336353340883352,
+      "eval_loss": 1.1569600105285645,
+      "eval_runtime": 215.6796,
+      "eval_samples_per_second": 7.275,
+      "eval_steps_per_second": 0.913,
+      "step": 500
+    },
+    {
+      "epoch": 1.3601359003397508,
+      "grad_norm": 0.3768746852874756,
+      "learning_rate": 0.00014767816091954024,
+      "loss": 1.1276,
+      "step": 600
+    },
+    {
+      "epoch": 1.3601359003397508,
+      "eval_loss": 1.1395982503890991,
+      "eval_runtime": 215.7974,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 600
+    },
+    {
+      "epoch": 1.5866364665911665,
+      "grad_norm": 0.3873467743396759,
+      "learning_rate": 0.00013848275862068967,
+      "loss": 1.1059,
+      "step": 700
+    },
+    {
+      "epoch": 1.5866364665911665,
+      "eval_loss": 1.1225543022155762,
+      "eval_runtime": 215.8352,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 700
+    },
+    {
+      "epoch": 1.8131370328425822,
+      "grad_norm": 0.399214506149292,
+      "learning_rate": 0.00012928735632183907,
+      "loss": 1.087,
+      "step": 800
+    },
+    {
+      "epoch": 1.8131370328425822,
+      "eval_loss": 1.1066261529922485,
+      "eval_runtime": 215.8039,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 800
+    },
+    {
+      "epoch": 2.0407701019252547,
+      "grad_norm": 0.3834548890590668,
+      "learning_rate": 0.00012009195402298852,
+      "loss": 1.0775,
+      "step": 900
+    },
+    {
+      "epoch": 2.0407701019252547,
+      "eval_loss": 1.0939360857009888,
+      "eval_runtime": 215.8709,
+      "eval_samples_per_second": 7.268,
+      "eval_steps_per_second": 0.913,
+      "step": 900
+    },
+    {
+      "epoch": 2.2672706681766703,
+      "grad_norm": 0.41335031390190125,
+      "learning_rate": 0.00011089655172413794,
+      "loss": 1.0294,
+      "step": 1000
+    },
+    {
+      "epoch": 2.2672706681766703,
+      "eval_loss": 1.081494688987732,
+      "eval_runtime": 215.8265,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 1000
+    },
+    {
+      "epoch": 2.493771234428086,
+      "grad_norm": 0.43652597069740295,
+      "learning_rate": 0.00010170114942528736,
+      "loss": 1.0077,
+      "step": 1100
+    },
+    {
+      "epoch": 2.493771234428086,
+      "eval_loss": 1.066120982170105,
+      "eval_runtime": 215.7444,
+      "eval_samples_per_second": 7.272,
+      "eval_steps_per_second": 0.913,
+      "step": 1100
+    },
+    {
+      "epoch": 2.7202718006795017,
+      "grad_norm": 0.4415673613548279,
+      "learning_rate": 9.250574712643678e-05,
+      "loss": 0.9984,
+      "step": 1200
+    },
+    {
+      "epoch": 2.7202718006795017,
+      "eval_loss": 1.0539467334747314,
+      "eval_runtime": 215.873,
+      "eval_samples_per_second": 7.268,
+      "eval_steps_per_second": 0.913,
+      "step": 1200
+    },
+    {
+      "epoch": 2.9467723669309174,
+      "grad_norm": 0.44037237763404846,
+      "learning_rate": 8.33103448275862e-05,
+      "loss": 0.9837,
+      "step": 1300
+    },
+    {
+      "epoch": 2.9467723669309174,
+      "eval_loss": 1.044096827507019,
+      "eval_runtime": 215.7373,
+      "eval_samples_per_second": 7.273,
+      "eval_steps_per_second": 0.913,
+      "step": 1300
+    },
+    {
+      "epoch": 3.17440543601359,
+      "grad_norm": 0.5079408288002014,
+      "learning_rate": 7.411494252873563e-05,
+      "loss": 0.9642,
+      "step": 1400
+    },
+    {
+      "epoch": 3.17440543601359,
+      "eval_loss": 1.0374841690063477,
+      "eval_runtime": 215.6881,
+      "eval_samples_per_second": 7.274,
+      "eval_steps_per_second": 0.913,
+      "step": 1400
+    },
+    {
+      "epoch": 3.4009060022650055,
+      "grad_norm": 0.4961177408695221,
+      "learning_rate": 6.491954022988506e-05,
+      "loss": 0.9381,
+      "step": 1500
+    },
+    {
+      "epoch": 3.4009060022650055,
+      "eval_loss": 1.0282294750213623,
+      "eval_runtime": 215.6305,
+      "eval_samples_per_second": 7.276,
+      "eval_steps_per_second": 0.914,
+      "step": 1500
+    },
+    {
+      "epoch": 3.627406568516421,
+      "grad_norm": 0.5088583827018738,
+      "learning_rate": 5.5724137931034484e-05,
+      "loss": 0.9261,
+      "step": 1600
+    },
+    {
+      "epoch": 3.627406568516421,
+      "eval_loss": 1.0186975002288818,
+      "eval_runtime": 215.8306,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 1600
+    },
+    {
+      "epoch": 3.853907134767837,
+      "grad_norm": 0.5300412178039551,
+      "learning_rate": 4.652873563218391e-05,
+      "loss": 0.9115,
+      "step": 1700
+    },
+    {
+      "epoch": 3.853907134767837,
+      "eval_loss": 1.011821985244751,
+      "eval_runtime": 215.7992,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 1700
+    },
+    {
+      "epoch": 4.081540203850509,
+      "grad_norm": 0.5446588397026062,
+      "learning_rate": 3.733333333333334e-05,
+      "loss": 0.9033,
+      "step": 1800
+    },
+    {
+      "epoch": 4.081540203850509,
+      "eval_loss": 1.0095539093017578,
+      "eval_runtime": 215.7598,
+      "eval_samples_per_second": 7.272,
+      "eval_steps_per_second": 0.913,
+      "step": 1800
+    },
+    {
+      "epoch": 4.308040770101925,
+      "grad_norm": 0.5339412093162537,
+      "learning_rate": 2.813793103448276e-05,
+      "loss": 0.8647,
+      "step": 1900
+    },
+    {
+      "epoch": 4.308040770101925,
+      "eval_loss": 1.002418875694275,
+      "eval_runtime": 215.8479,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 1900
+    },
+    {
+      "epoch": 4.534541336353341,
+      "grad_norm": 0.5594246983528137,
+      "learning_rate": 1.8942528735632184e-05,
+      "loss": 0.8718,
+      "step": 2000
+    },
+    {
+      "epoch": 4.534541336353341,
+      "eval_loss": 0.9978017807006836,
+      "eval_runtime": 215.8323,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 2000
+    },
+    {
+      "epoch": 4.761041902604757,
+      "grad_norm": 0.5511975288391113,
+      "learning_rate": 9.747126436781609e-06,
+      "loss": 0.8611,
+      "step": 2100
+    },
+    {
+      "epoch": 4.761041902604757,
+      "eval_loss": 0.9954851269721985,
+      "eval_runtime": 215.843,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 2100
+    },
+    {
+      "epoch": 4.987542468856172,
+      "grad_norm": 0.5623785853385925,
+      "learning_rate": 5.517241379310344e-07,
+      "loss": 0.8602,
+      "step": 2200
+    },
+    {
+      "epoch": 4.987542468856172,
+      "eval_loss": 0.9939414262771606,
+      "eval_runtime": 215.789,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 2200
+    },
+    {
+      "epoch": 5.215175537938845,
+      "grad_norm": 0.6162961721420288,
+      "learning_rate": 9.639269406392695e-05,
+      "loss": 0.8571,
+      "step": 2300
+    },
+    {
+      "epoch": 5.215175537938845,
+      "eval_loss": 1.001980185508728,
+      "eval_runtime": 215.4279,
+      "eval_samples_per_second": 7.283,
+      "eval_steps_per_second": 0.914,
+      "step": 2300
+    },
+    {
+      "epoch": 5.44167610419026,
+      "grad_norm": 0.6526823043823242,
+      "learning_rate": 9.182648401826485e-05,
+      "loss": 0.8618,
+      "step": 2400
+    },
+    {
+      "epoch": 5.44167610419026,
+      "eval_loss": 0.9889749884605408,
+      "eval_runtime": 215.4552,
+      "eval_samples_per_second": 7.282,
+      "eval_steps_per_second": 0.914,
+      "step": 2400
+    },
+    {
+      "epoch": 5.668176670441676,
+      "grad_norm": 0.6778553128242493,
+      "learning_rate": 8.726027397260274e-05,
+      "loss": 0.8467,
+      "step": 2500
+    },
+    {
+      "epoch": 5.668176670441676,
+      "eval_loss": 0.9737924337387085,
+      "eval_runtime": 215.4971,
+      "eval_samples_per_second": 7.281,
+      "eval_steps_per_second": 0.914,
+      "step": 2500
+    },
+    {
+      "epoch": 5.8946772366930915,
+      "grad_norm": 0.6477532386779785,
+      "learning_rate": 8.269406392694065e-05,
+      "loss": 0.8449,
+      "step": 2600
+    },
+    {
+      "epoch": 5.8946772366930915,
+      "eval_loss": 0.9627026319503784,
+      "eval_runtime": 215.5931,
+      "eval_samples_per_second": 7.278,
+      "eval_steps_per_second": 0.914,
+      "step": 2600
+    },
+    {
+      "epoch": 6.122310305775764,
+      "grad_norm": 0.7134155035018921,
+      "learning_rate": 7.812785388127854e-05,
+      "loss": 0.8181,
+      "step": 2700
+    },
+    {
+      "epoch": 6.122310305775764,
+      "eval_loss": 0.9615710973739624,
+      "eval_runtime": 215.6571,
+      "eval_samples_per_second": 7.275,
+      "eval_steps_per_second": 0.913,
+      "step": 2700
+    },
+    {
+      "epoch": 6.34881087202718,
+      "grad_norm": 0.7087521553039551,
+      "learning_rate": 7.356164383561645e-05,
+      "loss": 0.7748,
+      "step": 2800
+    },
+    {
+      "epoch": 6.34881087202718,
+      "eval_loss": 0.9508717656135559,
+      "eval_runtime": 215.7854,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 2800
+    },
+    {
+      "epoch": 6.575311438278596,
+      "grad_norm": 0.718744158744812,
+      "learning_rate": 6.899543378995434e-05,
+      "loss": 0.7679,
+      "step": 2900
+    },
+    {
+      "epoch": 6.575311438278596,
+      "eval_loss": 0.9414442181587219,
+      "eval_runtime": 215.8161,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 2900
+    },
+    {
+      "epoch": 6.801812004530011,
+      "grad_norm": 0.7241001725196838,
+      "learning_rate": 6.442922374429225e-05,
+      "loss": 0.7708,
+      "step": 3000
+    },
+    {
+      "epoch": 6.801812004530011,
+      "eval_loss": 0.9294878840446472,
+      "eval_runtime": 215.8924,
+      "eval_samples_per_second": 7.268,
+      "eval_steps_per_second": 0.912,
+      "step": 3000
+    },
+    {
+      "epoch": 7.029445073612684,
+      "grad_norm": 0.7078688740730286,
+      "learning_rate": 5.986301369863014e-05,
+      "loss": 0.7602,
+      "step": 3100
+    },
+    {
+      "epoch": 7.029445073612684,
+      "eval_loss": 0.9215793013572693,
+      "eval_runtime": 215.8631,
+      "eval_samples_per_second": 7.268,
+      "eval_steps_per_second": 0.913,
+      "step": 3100
+    },
+    {
+      "epoch": 7.2559456398641,
+      "grad_norm": 0.7763993740081787,
+      "learning_rate": 5.529680365296805e-05,
+      "loss": 0.7042,
+      "step": 3200
+    },
+    {
+      "epoch": 7.2559456398641,
+      "eval_loss": 0.9177075624465942,
+      "eval_runtime": 215.8296,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 3200
+    },
+    {
+      "epoch": 7.482446206115515,
+      "grad_norm": 0.7907236814498901,
+      "learning_rate": 5.0730593607305946e-05,
+      "loss": 0.7041,
+      "step": 3300
+    },
+    {
+      "epoch": 7.482446206115515,
+      "eval_loss": 0.9082866907119751,
+      "eval_runtime": 215.8314,
+      "eval_samples_per_second": 7.27,
+      "eval_steps_per_second": 0.913,
+      "step": 3300
+    },
+    {
+      "epoch": 7.7089467723669305,
+      "grad_norm": 0.809502899646759,
+      "learning_rate": 4.616438356164384e-05,
+      "loss": 0.6968,
+      "step": 3400
+    },
+    {
+      "epoch": 7.7089467723669305,
+      "eval_loss": 0.9002099633216858,
+      "eval_runtime": 215.7011,
+      "eval_samples_per_second": 7.274,
+      "eval_steps_per_second": 0.913,
+      "step": 3400
+    },
+    {
+      "epoch": 7.935447338618347,
+      "grad_norm": 0.8147194981575012,
+      "learning_rate": 4.159817351598174e-05,
+      "loss": 0.689,
+      "step": 3500
+    },
+    {
+      "epoch": 7.935447338618347,
+      "eval_loss": 0.887977123260498,
+      "eval_runtime": 215.5757,
+      "eval_samples_per_second": 7.278,
+      "eval_steps_per_second": 0.914,
+      "step": 3500
+    },
+    {
+      "epoch": 8.163080407701019,
+      "grad_norm": 0.7601930499076843,
+      "learning_rate": 3.703196347031964e-05,
+      "loss": 0.6579,
+      "step": 3600
+    },
+    {
+      "epoch": 8.163080407701019,
+      "eval_loss": 0.8895569443702698,
+      "eval_runtime": 215.5399,
+      "eval_samples_per_second": 7.279,
+      "eval_steps_per_second": 0.914,
+      "step": 3600
+    },
+    {
+      "epoch": 8.389580973952436,
+      "grad_norm": 0.9018923044204712,
+      "learning_rate": 3.246575342465754e-05,
+      "loss": 0.6431,
+      "step": 3700
+    },
+    {
+      "epoch": 8.389580973952436,
+      "eval_loss": 0.886945366859436,
+      "eval_runtime": 215.5014,
+      "eval_samples_per_second": 7.281,
+      "eval_steps_per_second": 0.914,
+      "step": 3700
+    },
+    {
+      "epoch": 8.61608154020385,
+      "grad_norm": 0.8826325535774231,
+      "learning_rate": 2.7899543378995436e-05,
+      "loss": 0.6343,
+      "step": 3800
+    },
+    {
+      "epoch": 8.61608154020385,
+      "eval_loss": 0.879227340221405,
+      "eval_runtime": 215.5183,
+      "eval_samples_per_second": 7.28,
+      "eval_steps_per_second": 0.914,
+      "step": 3800
+    },
+    {
+      "epoch": 8.842582106455266,
+      "grad_norm": 0.8975309133529663,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.638,
+      "step": 3900
+    },
+    {
+      "epoch": 8.842582106455266,
+      "eval_loss": 0.8713725805282593,
+      "eval_runtime": 215.5235,
+      "eval_samples_per_second": 7.28,
+      "eval_steps_per_second": 0.914,
+      "step": 3900
+    },
+    {
+      "epoch": 9.070215175537939,
+      "grad_norm": 0.8930607438087463,
+      "learning_rate": 1.8767123287671235e-05,
+      "loss": 0.6248,
+      "step": 4000
+    },
+    {
+      "epoch": 9.070215175537939,
+      "eval_loss": 0.8720493316650391,
+      "eval_runtime": 215.4472,
+      "eval_samples_per_second": 7.283,
+      "eval_steps_per_second": 0.914,
+      "step": 4000
+    },
+    {
+      "epoch": 9.296715741789354,
+      "grad_norm": 0.8194226622581482,
+      "learning_rate": 1.4200913242009135e-05,
+      "loss": 0.5963,
+      "step": 4100
+    },
+    {
+      "epoch": 9.296715741789354,
+      "eval_loss": 0.8683505654335022,
+      "eval_runtime": 215.4449,
+      "eval_samples_per_second": 7.283,
+      "eval_steps_per_second": 0.914,
+      "step": 4100
+    },
+    {
+      "epoch": 9.52321630804077,
+      "grad_norm": 0.9078500270843506,
+      "learning_rate": 9.634703196347032e-06,
+      "loss": 0.5933,
+      "step": 4200
+    },
+    {
+      "epoch": 9.52321630804077,
+      "eval_loss": 0.8663039803504944,
+      "eval_runtime": 215.4014,
+      "eval_samples_per_second": 7.284,
+      "eval_steps_per_second": 0.915,
+      "step": 4200
+    },
+    {
+      "epoch": 9.749716874292186,
+      "grad_norm": 0.8323531746864319,
+      "learning_rate": 5.068493150684932e-06,
+      "loss": 0.6018,
+      "step": 4300
+    },
+    {
+      "epoch": 9.749716874292186,
+      "eval_loss": 0.864680826663971,
+      "eval_runtime": 215.5321,
+      "eval_samples_per_second": 7.28,
+      "eval_steps_per_second": 0.914,
+      "step": 4300
+    },
+    {
+      "epoch": 9.976217440543602,
+      "grad_norm": 0.8527385592460632,
+      "learning_rate": 5.022831050228311e-07,
+      "loss": 0.5912,
+      "step": 4400
+    },
+    {
+      "epoch": 9.976217440543602,
+      "eval_loss": 0.8630263209342957,
+      "eval_runtime": 215.6024,
+      "eval_samples_per_second": 7.277,
+      "eval_steps_per_second": 0.914,
+      "step": 4400
+    },
+    {
+      "epoch": 10.203850509626275,
+      "grad_norm": 1.06992506980896,
+      "learning_rate": 9.831626848691696e-05,
+      "loss": 0.6137,
+      "step": 4500
+    },
+    {
+      "epoch": 10.203850509626275,
+      "eval_loss": 0.8823357820510864,
+      "eval_runtime": 215.9148,
+      "eval_samples_per_second": 7.267,
+      "eval_steps_per_second": 0.912,
+      "step": 4500
+    },
+    {
+      "epoch": 10.43035107587769,
+      "grad_norm": 1.1724179983139038,
+      "learning_rate": 9.604095563139933e-05,
+      "loss": 0.6269,
+      "step": 4600
+    },
+    {
+      "epoch": 10.43035107587769,
+      "eval_loss": 0.8721606135368347,
+      "eval_runtime": 215.8627,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 4600
+    },
+    {
+      "epoch": 10.656851642129105,
+      "grad_norm": 0.9768912196159363,
+      "learning_rate": 9.37656427758817e-05,
+      "loss": 0.6269,
+      "step": 4700
+    },
+    {
+      "epoch": 10.656851642129105,
+      "eval_loss": 0.857449471950531,
+      "eval_runtime": 215.9592,
+      "eval_samples_per_second": 7.265,
+      "eval_steps_per_second": 0.912,
+      "step": 4700
+    },
+    {
+      "epoch": 10.88335220838052,
+      "grad_norm": 0.9589354991912842,
+      "learning_rate": 9.149032992036407e-05,
+      "loss": 0.6214,
+      "step": 4800
+    },
+    {
+      "epoch": 10.88335220838052,
+      "eval_loss": 0.8469829559326172,
+      "eval_runtime": 216.0164,
+      "eval_samples_per_second": 7.263,
+      "eval_steps_per_second": 0.912,
+      "step": 4800
+    },
+    {
+      "epoch": 11.110985277463193,
+      "grad_norm": 1.1246964931488037,
+      "learning_rate": 8.921501706484642e-05,
+      "loss": 0.6,
+      "step": 4900
+    },
+    {
+      "epoch": 11.110985277463193,
+      "eval_loss": 0.83788001537323,
+      "eval_runtime": 215.9754,
+      "eval_samples_per_second": 7.265,
+      "eval_steps_per_second": 0.912,
+      "step": 4900
+    },
+    {
+      "epoch": 11.337485843714608,
+      "grad_norm": 1.138035535812378,
+      "learning_rate": 8.693970420932879e-05,
+      "loss": 0.5559,
+      "step": 5000
+    },
+    {
+      "epoch": 11.337485843714608,
+      "eval_loss": 0.8344744443893433,
+      "eval_runtime": 216.059,
+      "eval_samples_per_second": 7.262,
+      "eval_steps_per_second": 0.912,
+      "step": 5000
+    },
+    {
+      "epoch": 11.563986409966025,
+      "grad_norm": 1.1976112127304077,
+      "learning_rate": 4.6044039483675025e-05,
+      "loss": 0.5355,
+      "step": 5100
+    },
+    {
+      "epoch": 11.563986409966025,
+      "eval_loss": 0.8142299652099609,
+      "eval_runtime": 216.0109,
+      "eval_samples_per_second": 7.264,
+      "eval_steps_per_second": 0.912,
+      "step": 5100
+    },
+    {
+      "epoch": 11.79048697621744,
+      "grad_norm": 1.095481514930725,
+      "learning_rate": 4.3006833712984054e-05,
+      "loss": 0.5353,
+      "step": 5200
+    },
+    {
+      "epoch": 11.79048697621744,
+      "eval_loss": 0.8013305068016052,
+      "eval_runtime": 215.9277,
+      "eval_samples_per_second": 7.266,
+      "eval_steps_per_second": 0.912,
+      "step": 5200
+    },
+    {
+      "epoch": 12.018120045300114,
+      "grad_norm": 1.0251810550689697,
+      "learning_rate": 3.996962794229309e-05,
+      "loss": 0.5364,
+      "step": 5300
+    },
+    {
+      "epoch": 12.018120045300114,
+      "eval_loss": 0.7993968725204468,
+      "eval_runtime": 216.1353,
+      "eval_samples_per_second": 7.259,
+      "eval_steps_per_second": 0.911,
+      "step": 5300
+    },
+    {
+      "epoch": 12.244620611551529,
+      "grad_norm": 0.9645494222640991,
+      "learning_rate": 3.6932422171602125e-05,
+      "loss": 0.474,
+      "step": 5400
+    },
+    {
+      "epoch": 12.244620611551529,
+      "eval_loss": 0.7945672273635864,
+      "eval_runtime": 216.0266,
+      "eval_samples_per_second": 7.263,
+      "eval_steps_per_second": 0.912,
+      "step": 5400
+    },
+    {
+      "epoch": 12.471121177802944,
+      "grad_norm": 0.9431504011154175,
+      "learning_rate": 3.389521640091116e-05,
+      "loss": 0.48,
+      "step": 5500
+    },
+    {
+      "epoch": 12.471121177802944,
+      "eval_loss": 0.7862181067466736,
+      "eval_runtime": 216.036,
+      "eval_samples_per_second": 7.263,
+      "eval_steps_per_second": 0.912,
+      "step": 5500
+    },
+    {
+      "epoch": 12.69762174405436,
+      "grad_norm": 0.9955912232398987,
+      "learning_rate": 3.0858010630220196e-05,
+      "loss": 0.4733,
+      "step": 5600
+    },
+    {
+      "epoch": 12.69762174405436,
+      "eval_loss": 0.77918940782547,
+      "eval_runtime": 215.9528,
+      "eval_samples_per_second": 7.265,
+      "eval_steps_per_second": 0.912,
+      "step": 5600
+    },
+    {
+      "epoch": 12.924122310305776,
+      "grad_norm": 1.0505925416946411,
+      "learning_rate": 2.782080485952924e-05,
+      "loss": 0.4772,
+      "step": 5700
+    },
+    {
+      "epoch": 12.924122310305776,
+      "eval_loss": 0.7714400291442871,
+      "eval_runtime": 215.9696,
+      "eval_samples_per_second": 7.265,
+      "eval_steps_per_second": 0.912,
+      "step": 5700
+    },
+    {
+      "epoch": 13.15175537938845,
+      "grad_norm": 0.9624122381210327,
+      "learning_rate": 2.478359908883827e-05,
+      "loss": 0.4534,
+      "step": 5800
+    },
+    {
+      "epoch": 13.15175537938845,
+      "eval_loss": 0.7735848426818848,
+      "eval_runtime": 215.9988,
+      "eval_samples_per_second": 7.264,
+      "eval_steps_per_second": 0.912,
+      "step": 5800
+    },
+    {
+      "epoch": 13.378255945639864,
+      "grad_norm": 0.9842013716697693,
+      "learning_rate": 2.1746393318147306e-05,
+      "loss": 0.4437,
+      "step": 5900
+    },
+    {
+      "epoch": 13.378255945639864,
+      "eval_loss": 0.7693312764167786,
+      "eval_runtime": 216.0532,
+      "eval_samples_per_second": 7.262,
+      "eval_steps_per_second": 0.912,
+      "step": 5900
+    },
+    {
+      "epoch": 13.60475651189128,
+      "grad_norm": 0.9403685927391052,
+      "learning_rate": 1.8709187547456342e-05,
+      "loss": 0.4362,
+      "step": 6000
+    },
+    {
+      "epoch": 13.60475651189128,
+      "eval_loss": 0.762976348400116,
+      "eval_runtime": 216.071,
+      "eval_samples_per_second": 7.262,
+      "eval_steps_per_second": 0.912,
+      "step": 6000
+    },
+    {
+      "epoch": 13.831257078142695,
+      "grad_norm": 0.9903466105461121,
+      "learning_rate": 1.5671981776765377e-05,
+      "loss": 0.4349,
+      "step": 6100
+    },
+    {
+      "epoch": 13.831257078142695,
+      "eval_loss": 0.76067715883255,
+      "eval_runtime": 215.8384,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 6100
+    },
+    {
+      "epoch": 14.058890147225368,
+      "grad_norm": 0.9362127780914307,
+      "learning_rate": 1.2634776006074411e-05,
+      "loss": 0.4385,
+      "step": 6200
+    },
+    {
+      "epoch": 14.058890147225368,
+      "eval_loss": 0.7605064511299133,
+      "eval_runtime": 215.995,
+      "eval_samples_per_second": 7.264,
+      "eval_steps_per_second": 0.912,
+      "step": 6200
+    },
+    {
+      "epoch": 14.285390713476783,
+      "grad_norm": 1.0396395921707153,
+      "learning_rate": 3.2087853220838355e-05,
+      "loss": 0.4171,
+      "step": 6300
+    },
+    {
+      "epoch": 14.285390713476783,
+      "eval_loss": 0.762564480304718,
+      "eval_runtime": 217.6902,
+      "eval_samples_per_second": 7.207,
+      "eval_steps_per_second": 0.905,
+      "step": 6300
+    },
+    {
+      "epoch": 14.5118912797282,
+      "grad_norm": 0.9981446266174316,
+      "learning_rate": 2.9409401366010447e-05,
+      "loss": 0.4262,
+      "step": 6400
+    },
+    {
+      "epoch": 14.5118912797282,
+      "eval_loss": 0.75795578956604,
+      "eval_runtime": 217.8007,
+      "eval_samples_per_second": 7.204,
+      "eval_steps_per_second": 0.904,
+      "step": 6400
+    },
+    {
+      "epoch": 14.738391845979615,
+      "grad_norm": 1.2502585649490356,
+      "learning_rate": 2.673094951118254e-05,
+      "loss": 0.423,
+      "step": 6500
+    },
+    {
+      "epoch": 14.738391845979615,
+      "eval_loss": 0.7491943836212158,
+      "eval_runtime": 217.9332,
+      "eval_samples_per_second": 7.199,
+      "eval_steps_per_second": 0.904,
+      "step": 6500
+    },
+    {
+      "epoch": 14.96489241223103,
+      "grad_norm": 1.0835864543914795,
+      "learning_rate": 2.405249765635463e-05,
+      "loss": 0.4219,
+      "step": 6600
+    },
+    {
+      "epoch": 14.96489241223103,
+      "eval_loss": 0.744881272315979,
+      "eval_runtime": 217.9821,
+      "eval_samples_per_second": 7.198,
+      "eval_steps_per_second": 0.904,
+      "step": 6600
+    },
+    {
+      "epoch": 15.192525481313703,
+      "grad_norm": 1.0534075498580933,
+      "learning_rate": 2.1374045801526718e-05,
+      "loss": 0.4077,
+      "step": 6700
+    },
+    {
+      "epoch": 15.192525481313703,
+      "eval_loss": 0.747353732585907,
+      "eval_runtime": 217.9166,
+      "eval_samples_per_second": 7.2,
+      "eval_steps_per_second": 0.904,
+      "step": 6700
+    },
+    {
+      "epoch": 15.419026047565119,
+      "grad_norm": 1.0463495254516602,
+      "learning_rate": 1.869559394669881e-05,
+      "loss": 0.3925,
+      "step": 6800
+    },
+    {
+      "epoch": 15.419026047565119,
+      "eval_loss": 0.7430649399757385,
+      "eval_runtime": 217.9436,
+      "eval_samples_per_second": 7.199,
+      "eval_steps_per_second": 0.904,
+      "step": 6800
+    },
+    {
+      "epoch": 15.645526613816534,
+      "grad_norm": 0.9589468240737915,
+      "learning_rate": 1.60171420918709e-05,
+      "loss": 0.3932,
+      "step": 6900
+    },
+    {
+      "epoch": 15.645526613816534,
+      "eval_loss": 0.7386749386787415,
+      "eval_runtime": 217.8985,
+      "eval_samples_per_second": 7.201,
+      "eval_steps_per_second": 0.904,
+      "step": 6900
+    },
+    {
+      "epoch": 15.87202718006795,
+      "grad_norm": 1.1412949562072754,
+      "learning_rate": 1.333869023704299e-05,
+      "loss": 0.3938,
+      "step": 7000
+    },
+    {
+      "epoch": 15.87202718006795,
+      "eval_loss": 0.7356697916984558,
+      "eval_runtime": 217.9654,
+      "eval_samples_per_second": 7.198,
+      "eval_steps_per_second": 0.904,
+      "step": 7000
+    },
+    {
+      "epoch": 16.099660249150624,
+      "grad_norm": 0.9367544651031494,
+      "learning_rate": 1.066023838221508e-05,
+      "loss": 0.3897,
+      "step": 7100
+    },
+    {
+      "epoch": 16.099660249150624,
+      "eval_loss": 0.7375982999801636,
+      "eval_runtime": 217.89,
+      "eval_samples_per_second": 7.201,
+      "eval_steps_per_second": 0.904,
+      "step": 7100
+    },
+    {
+      "epoch": 16.326160815402037,
+      "grad_norm": 1.0161197185516357,
+      "learning_rate": 7.98178652738717e-06,
+      "loss": 0.3713,
+      "step": 7200
+    },
+    {
+      "epoch": 16.326160815402037,
+      "eval_loss": 0.7364110350608826,
+      "eval_runtime": 217.9527,
+      "eval_samples_per_second": 7.199,
+      "eval_steps_per_second": 0.904,
+      "step": 7200
+    },
+    {
+      "epoch": 16.552661381653454,
+      "grad_norm": 0.9260092377662659,
+      "learning_rate": 5.303334672559261e-06,
+      "loss": 0.3804,
+      "step": 7300
+    },
+    {
+      "epoch": 16.552661381653454,
+      "eval_loss": 0.733728289604187,
+      "eval_runtime": 217.9029,
+      "eval_samples_per_second": 7.2,
+      "eval_steps_per_second": 0.904,
+      "step": 7300
+    },
+    {
+      "epoch": 16.77916194790487,
+      "grad_norm": 1.008174180984497,
+      "learning_rate": 2.6248828177313514e-06,
+      "loss": 0.3704,
+      "step": 7400
+    },
+    {
+      "epoch": 16.77916194790487,
+      "eval_loss": 0.7327025532722473,
+      "eval_runtime": 217.9462,
+      "eval_samples_per_second": 7.199,
+      "eval_steps_per_second": 0.904,
+      "step": 7400
+    },
+    {
+      "epoch": 17.006795016987542,
+      "grad_norm": 0.88117915391922,
+      "learning_rate": 3.0056882821387945e-05,
+      "loss": 0.3357,
+      "step": 7500
+    },
+    {
+      "epoch": 17.006795016987542,
+      "eval_loss": 0.7340475916862488,
+      "eval_runtime": 215.1992,
+      "eval_samples_per_second": 7.291,
+      "eval_steps_per_second": 0.915,
+      "step": 7500
+    },
+    {
+      "epoch": 17.23329558323896,
+      "grad_norm": 1.0653574466705322,
+      "learning_rate": 2.7781569965870308e-05,
+      "loss": 0.371,
+      "step": 7600
+    },
+    {
+      "epoch": 17.23329558323896,
+      "eval_loss": 0.7350865602493286,
+      "eval_runtime": 215.7811,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 7600
+    },
+    {
+      "epoch": 17.459796149490373,
+      "grad_norm": 1.0504379272460938,
+      "learning_rate": 2.5506257110352678e-05,
+      "loss": 0.3784,
+      "step": 7700
+    },
+    {
+      "epoch": 17.459796149490373,
+      "eval_loss": 0.7296854257583618,
+      "eval_runtime": 215.8568,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 7700
+    },
+    {
+      "epoch": 17.68629671574179,
+      "grad_norm": 1.2694584131240845,
+      "learning_rate": 2.323094425483504e-05,
+      "loss": 0.3769,
+      "step": 7800
+    },
+    {
+      "epoch": 17.68629671574179,
+      "eval_loss": 0.7242677211761475,
+      "eval_runtime": 215.9243,
+      "eval_samples_per_second": 7.266,
+      "eval_steps_per_second": 0.912,
+      "step": 7800
+    },
+    {
+      "epoch": 17.912797281993203,
+      "grad_norm": 1.146080493927002,
+      "learning_rate": 2.0955631399317408e-05,
+      "loss": 0.3808,
+      "step": 7900
+    },
+    {
+      "epoch": 17.912797281993203,
+      "eval_loss": 0.7212691307067871,
+      "eval_runtime": 216.0431,
+      "eval_samples_per_second": 7.262,
+      "eval_steps_per_second": 0.912,
+      "step": 7900
+    },
+    {
+      "epoch": 18.140430351075878,
+      "grad_norm": 1.0066969394683838,
+      "learning_rate": 1.8680318543799774e-05,
+      "loss": 0.3625,
+      "step": 8000
+    },
+    {
+      "epoch": 18.140430351075878,
+      "eval_loss": 0.7235797643661499,
+      "eval_runtime": 216.0282,
+      "eval_samples_per_second": 7.263,
+      "eval_steps_per_second": 0.912,
+      "step": 8000
+    },
+    {
+      "epoch": 18.366930917327295,
+      "grad_norm": 1.040211796760559,
+      "learning_rate": 1.6427758816837314e-05,
+      "loss": 0.3506,
+      "step": 8100
+    },
+    {
+      "epoch": 18.366930917327295,
+      "eval_loss": 0.7218917608261108,
+      "eval_runtime": 216.0625,
+      "eval_samples_per_second": 7.262,
+      "eval_steps_per_second": 0.912,
+      "step": 8100
+    },
+    {
+      "epoch": 18.59343148357871,
+      "grad_norm": 0.9982612133026123,
+      "learning_rate": 1.4152445961319682e-05,
+      "loss": 0.3531,
+      "step": 8200
+    },
+    {
+      "epoch": 18.59343148357871,
+      "eval_loss": 0.7176269888877869,
+      "eval_runtime": 215.9028,
+      "eval_samples_per_second": 7.267,
+      "eval_steps_per_second": 0.912,
+      "step": 8200
+    },
+    {
+      "epoch": 18.819932049830125,
+      "grad_norm": 1.133723497390747,
+      "learning_rate": 1.1877133105802047e-05,
+      "loss": 0.3566,
+      "step": 8300
+    },
+    {
+      "epoch": 18.819932049830125,
+      "eval_loss": 0.7127575874328613,
+      "eval_runtime": 215.8405,
+      "eval_samples_per_second": 7.269,
+      "eval_steps_per_second": 0.913,
+      "step": 8300
+    },
+    {
+      "epoch": 19.047565118912797,
+      "grad_norm": 0.9450774192810059,
+      "learning_rate": 9.601820250284414e-06,
+      "loss": 0.3553,
+      "step": 8400
+    },
+    {
+      "epoch": 19.047565118912797,
+      "eval_loss": 0.7169352173805237,
+      "eval_runtime": 215.9082,
+      "eval_samples_per_second": 7.267,
+      "eval_steps_per_second": 0.912,
+      "step": 8400
+    },
+    {
+      "epoch": 19.274065685164214,
+      "grad_norm": 0.9257975816726685,
+      "learning_rate": 7.326507394766781e-06,
+      "loss": 0.3366,
+      "step": 8500
+    },
+    {
+      "epoch": 19.274065685164214,
+      "eval_loss": 0.7128849625587463,
+      "eval_runtime": 216.0119,
+      "eval_samples_per_second": 7.263,
+      "eval_steps_per_second": 0.912,
+      "step": 8500
+    },
+    {
+      "epoch": 19.500566251415627,
+      "grad_norm": 1.0109655857086182,
+      "learning_rate": 5.051194539249147e-06,
+      "loss": 0.3335,
+      "step": 8600
+    },
+    {
+      "epoch": 19.500566251415627,
+      "eval_loss": 0.7129219174385071,
+      "eval_runtime": 215.981,
+      "eval_samples_per_second": 7.265,
+      "eval_steps_per_second": 0.912,
+      "step": 8600
+    },
+    {
+      "epoch": 19.727066817667044,
+      "grad_norm": 1.021828293800354,
+      "learning_rate": 2.7758816837315134e-06,
+      "loss": 0.3398,
+      "step": 8700
+    },
+    {
+      "epoch": 19.727066817667044,
+      "eval_loss": 0.7109224200248718,
+      "eval_runtime": 215.6766,
+      "eval_samples_per_second": 7.275,
+      "eval_steps_per_second": 0.913,
+      "step": 8700
+    },
+    {
+      "epoch": 19.95356738391846,
+      "grad_norm": 1.0146093368530273,
+      "learning_rate": 5.005688282138794e-07,
+      "loss": 0.3375,
+      "step": 8800
+    },
+    {
+      "epoch": 19.95356738391846,
+      "eval_loss": 0.7103046774864197,
+      "eval_runtime": 215.5394,
+      "eval_samples_per_second": 7.279,
+      "eval_steps_per_second": 0.914,
+      "step": 8800
+    },
+    {
+      "epoch": 20.181200453001132,
+      "grad_norm": 1.1958893537521362,
+      "learning_rate": 2.4621773954316228e-05,
+      "loss": 0.3306,
+      "step": 8900
+    },
+    {
+      "epoch": 20.181200453001132,
+      "eval_loss": 0.7169004082679749,
+      "eval_runtime": 215.7176,
+      "eval_samples_per_second": 7.273,
+      "eval_steps_per_second": 0.913,
+      "step": 8900
+    },
+    {
+      "epoch": 20.40770101925255,
+      "grad_norm": 1.2821824550628662,
+      "learning_rate": 2.2644121427865127e-05,
+      "loss": 0.3442,
+      "step": 9000
+    },
+    {
+      "epoch": 20.40770101925255,
+      "eval_loss": 0.710050106048584,
+      "eval_runtime": 215.7663,
+      "eval_samples_per_second": 7.272,
+      "eval_steps_per_second": 0.913,
+      "step": 9000
+    },
+    {
+      "epoch": 20.634201585503963,
+      "grad_norm": 1.118553876876831,
+      "learning_rate": 2.0666468901414023e-05,
+      "loss": 0.3434,
+      "step": 9100
+    },
+    {
+      "epoch": 20.634201585503963,
+      "eval_loss": 0.7061675190925598,
+      "eval_runtime": 215.9231,
+      "eval_samples_per_second": 7.266,
+      "eval_steps_per_second": 0.912,
+      "step": 9100
+    },
+    {
+      "epoch": 20.86070215175538,
+      "grad_norm": 1.131901502609253,
+      "learning_rate": 1.868881637496292e-05,
+      "loss": 0.3431,
+      "step": 9200
+    },
+    {
+      "epoch": 20.86070215175538,
+      "eval_loss": 0.7025442123413086,
+      "eval_runtime": 215.8012,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 9200
+    },
+    {
+      "epoch": 21.08833522083805,
+      "grad_norm": 1.063588261604309,
+      "learning_rate": 1.6711163848511818e-05,
+      "loss": 0.3361,
+      "step": 9300
+    },
+    {
+      "epoch": 21.08833522083805,
+      "eval_loss": 0.7048903107643127,
+      "eval_runtime": 215.6814,
+      "eval_samples_per_second": 7.275,
+      "eval_steps_per_second": 0.913,
+      "step": 9300
+    },
+    {
+      "epoch": 21.314835787089468,
+      "grad_norm": 1.0730327367782593,
+      "learning_rate": 1.4733511322060714e-05,
+      "loss": 0.3201,
+      "step": 9400
+    },
+    {
+      "epoch": 21.314835787089468,
+      "eval_loss": 0.7042800188064575,
+      "eval_runtime": 215.7788,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 9400
+    },
+    {
+      "epoch": 21.541336353340885,
+      "grad_norm": 1.002642273902893,
+      "learning_rate": 1.2755858795609612e-05,
+      "loss": 0.3248,
+      "step": 9500
+    },
+    {
+      "epoch": 21.541336353340885,
+      "eval_loss": 0.6989186406135559,
+      "eval_runtime": 215.7873,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.913,
+      "step": 9500
+    },
+    {
+      "epoch": 21.7678369195923,
+      "grad_norm": 1.184122920036316,
+      "learning_rate": 1.077820626915851e-05,
+      "loss": 0.3183,
+      "step": 9600
+    },
+    {
+      "epoch": 21.7678369195923,
+      "eval_loss": 0.6965128183364868,
+      "eval_runtime": 215.7509,
+      "eval_samples_per_second": 7.272,
+      "eval_steps_per_second": 0.913,
+      "step": 9600
+    },
+    {
+      "epoch": 21.994337485843715,
+      "grad_norm": 1.00730562210083,
+      "learning_rate": 8.800553742707407e-06,
+      "loss": 0.3243,
+      "step": 9700
+    },
+    {
+      "epoch": 21.994337485843715,
+      "eval_loss": 0.69374018907547,
+      "eval_runtime": 215.6336,
+      "eval_samples_per_second": 7.276,
+      "eval_steps_per_second": 0.914,
+      "step": 9700
+    },
+    {
+      "epoch": 22.221970554926386,
+      "grad_norm": 1.0043355226516724,
+      "learning_rate": 6.822901216256304e-06,
+      "loss": 0.3118,
+      "step": 9800
+    },
+    {
+      "epoch": 22.221970554926386,
+      "eval_loss": 0.6979511380195618,
+      "eval_runtime": 215.6267,
+      "eval_samples_per_second": 7.276,
+      "eval_steps_per_second": 0.914,
+      "step": 9800
+    },
+    {
+      "epoch": 22.448471121177803,
+      "grad_norm": 1.0051404237747192,
+      "learning_rate": 4.845248689805201e-06,
+      "loss": 0.3068,
+      "step": 9900
+    },
+    {
+      "epoch": 22.448471121177803,
+      "eval_loss": 0.6955877542495728,
+      "eval_runtime": 215.5799,
+      "eval_samples_per_second": 7.278,
+      "eval_steps_per_second": 0.914,
+      "step": 9900
+    },
+    {
+      "epoch": 22.674971687429217,
+      "grad_norm": 0.9242558479309082,
+      "learning_rate": 2.8675961633540988e-06,
+      "loss": 0.3094,
+      "step": 10000
+    },
+    {
+      "epoch": 22.674971687429217,
+      "eval_loss": 0.6944177746772766,
+      "eval_runtime": 215.6097,
+      "eval_samples_per_second": 7.277,
+      "eval_steps_per_second": 0.914,
+      "step": 10000
+    },
+    {
+      "epoch": 22.901472253680634,
+      "grad_norm": 1.057633638381958,
+      "learning_rate": 8.899436369029961e-07,
+      "loss": 0.3092,
+      "step": 10100
+    },
+    {
+      "epoch": 22.901472253680634,
+      "eval_loss": 0.6938230991363525,
+      "eval_runtime": 215.7357,
+      "eval_samples_per_second": 7.273,
+      "eval_steps_per_second": 0.913,
+      "step": 10100
+    },
+    {
+      "epoch": 23.12910532276331,
+      "grad_norm": 1.0774931907653809,
+      "learning_rate": 1.5043201455206912e-05,
+      "loss": 0.3076,
+      "step": 10200
+    },
+    {
+      "epoch": 23.12910532276331,
+      "eval_loss": 0.6974820494651794,
+      "eval_runtime": 214.8368,
+      "eval_samples_per_second": 7.303,
+      "eval_steps_per_second": 0.917,
+      "step": 10200
+    },
+    {
+      "epoch": 23.355605889014722,
+      "grad_norm": 1.0320171117782593,
+      "learning_rate": 1.3224192814915873e-05,
+      "loss": 0.3084,
+      "step": 10300
+    },
+    {
+      "epoch": 23.355605889014722,
+      "eval_loss": 0.6950554251670837,
+      "eval_runtime": 214.9493,
+      "eval_samples_per_second": 7.299,
+      "eval_steps_per_second": 0.916,
+      "step": 10300
+    },
+    {
+      "epoch": 23.58210645526614,
+      "grad_norm": 1.0282411575317383,
+      "learning_rate": 1.142337426102774e-05,
+      "loss": 0.3077,
+      "step": 10400
+    },
+    {
+      "epoch": 23.58210645526614,
+      "eval_loss": 0.6931228637695312,
+      "eval_runtime": 214.8764,
+      "eval_samples_per_second": 7.302,
+      "eval_steps_per_second": 0.917,
+      "step": 10400
+    },
+    {
+      "epoch": 23.808607021517552,
+      "grad_norm": 1.0363404750823975,
+      "learning_rate": 9.6043656207367e-06,
+      "loss": 0.3088,
+      "step": 10500
+    },
+    {
+      "epoch": 23.808607021517552,
+      "eval_loss": 0.6890929341316223,
+      "eval_runtime": 214.9182,
+      "eval_samples_per_second": 7.3,
+      "eval_steps_per_second": 0.917,
+      "step": 10500
+    },
+    {
+      "epoch": 24.036240090600227,
+      "grad_norm": 0.9383705854415894,
+      "learning_rate": 7.785356980445657e-06,
+      "loss": 0.3092,
+      "step": 10600
+    },
+    {
+      "epoch": 24.036240090600227,
+      "eval_loss": 0.6934636831283569,
+      "eval_runtime": 214.8602,
+      "eval_samples_per_second": 7.302,
+      "eval_steps_per_second": 0.917,
+      "step": 10600
+    },
+    {
+      "epoch": 24.26274065685164,
+      "grad_norm": 0.905327320098877,
+      "learning_rate": 5.966348340154616e-06,
+      "loss": 0.2941,
+      "step": 10700
+    },
+    {
+      "epoch": 24.26274065685164,
+      "eval_loss": 0.691253125667572,
+      "eval_runtime": 215.1136,
+      "eval_samples_per_second": 7.294,
+      "eval_steps_per_second": 0.916,
+      "step": 10700
+    },
+    {
+      "epoch": 24.489241223103058,
+      "grad_norm": 0.9248319864273071,
+      "learning_rate": 4.147339699863575e-06,
+      "loss": 0.2965,
+      "step": 10800
+    },
+    {
+      "epoch": 24.489241223103058,
+      "eval_loss": 0.688778281211853,
+      "eval_runtime": 215.1479,
+      "eval_samples_per_second": 7.293,
+      "eval_steps_per_second": 0.916,
+      "step": 10800
+    },
+    {
+      "epoch": 24.715741789354475,
+      "grad_norm": 0.9588720202445984,
+      "learning_rate": 2.3283310595725328e-06,
+      "loss": 0.296,
+      "step": 10900
+    },
+    {
+      "epoch": 24.715741789354475,
+      "eval_loss": 0.6882308125495911,
+      "eval_runtime": 215.299,
+      "eval_samples_per_second": 7.288,
+      "eval_steps_per_second": 0.915,
+      "step": 10900
+    },
+    {
+      "epoch": 24.942242355605888,
+      "grad_norm": 0.9268137216567993,
+      "learning_rate": 5.093224192814915e-07,
+      "loss": 0.2979,
+      "step": 11000
+    },
+    {
+      "epoch": 24.942242355605888,
+      "eval_loss": 0.6880246996879578,
+      "eval_runtime": 215.276,
+      "eval_samples_per_second": 7.288,
+      "eval_steps_per_second": 0.915,
+      "step": 11000
+    },
+    {
+      "epoch": 25.169875424688563,
+      "grad_norm": 1.163781762123108,
+      "learning_rate": 3.231818181818182e-05,
+      "loss": 0.299,
+      "step": 11100
+    },
+    {
+      "epoch": 25.169875424688563,
+      "eval_loss": 0.6973585486412048,
+      "eval_runtime": 215.0775,
+      "eval_samples_per_second": 7.295,
+      "eval_steps_per_second": 0.916,
+      "step": 11100
+    },
+    {
+      "epoch": 25.396375990939976,
+      "grad_norm": 1.3955178260803223,
+      "learning_rate": 3.0803030303030304e-05,
+      "loss": 0.3092,
+      "step": 11200
+    },
+    {
+      "epoch": 25.396375990939976,
+      "eval_loss": 0.6922005414962769,
+      "eval_runtime": 214.9326,
+      "eval_samples_per_second": 7.3,
+      "eval_steps_per_second": 0.917,
+      "step": 11200
+    },
+    {
+      "epoch": 25.622876557191393,
+      "grad_norm": 1.630706548690796,
+      "learning_rate": 2.9287878787878793e-05,
+      "loss": 0.3106,
+      "step": 11300
+    },
+    {
+      "epoch": 25.622876557191393,
+      "eval_loss": 0.6866771578788757,
+      "eval_runtime": 215.0055,
+      "eval_samples_per_second": 7.297,
+      "eval_steps_per_second": 0.916,
+      "step": 11300
+    },
+    {
+      "epoch": 25.84937712344281,
+      "grad_norm": 1.2561249732971191,
+      "learning_rate": 2.7772727272727272e-05,
+      "loss": 0.3113,
+      "step": 11400
+    },
+    {
+      "epoch": 25.84937712344281,
+      "eval_loss": 0.6819568276405334,
+      "eval_runtime": 214.834,
+      "eval_samples_per_second": 7.303,
+      "eval_steps_per_second": 0.917,
+      "step": 11400
+    },
+    {
+      "epoch": 26.07701019252548,
+      "grad_norm": 1.5864068269729614,
+      "learning_rate": 2.6257575757575757e-05,
+      "loss": 0.3081,
+      "step": 11500
+    },
+    {
+      "epoch": 26.07701019252548,
+      "eval_loss": 0.683868408203125,
+      "eval_runtime": 214.7915,
+      "eval_samples_per_second": 7.305,
+      "eval_steps_per_second": 0.917,
+      "step": 11500
+    },
+    {
+      "epoch": 26.3035107587769,
+      "grad_norm": 1.2162772417068481,
+      "learning_rate": 2.475757575757576e-05,
+      "loss": 0.2911,
+      "step": 11600
+    },
+    {
+      "epoch": 26.3035107587769,
+      "eval_loss": 0.6809530258178711,
+      "eval_runtime": 214.7759,
+      "eval_samples_per_second": 7.305,
+      "eval_steps_per_second": 0.917,
+      "step": 11600
+    },
+    {
+      "epoch": 26.530011325028312,
+      "grad_norm": 1.2697758674621582,
+      "learning_rate": 2.3242424242424243e-05,
+      "loss": 0.289,
+      "step": 11700
+    },
+    {
+      "epoch": 26.530011325028312,
+      "eval_loss": 0.6744586229324341,
+      "eval_runtime": 214.8373,
+      "eval_samples_per_second": 7.303,
+      "eval_steps_per_second": 0.917,
+      "step": 11700
+    },
+    {
+      "epoch": 26.75651189127973,
+      "grad_norm": 1.2038872241973877,
+      "learning_rate": 2.172727272727273e-05,
+      "loss": 0.293,
+      "step": 11800
+    },
+    {
+      "epoch": 26.75651189127973,
+      "eval_loss": 0.6742814183235168,
+      "eval_runtime": 214.8304,
+      "eval_samples_per_second": 7.303,
+      "eval_steps_per_second": 0.917,
+      "step": 11800
+    },
+    {
+      "epoch": 26.983012457531142,
+      "grad_norm": 1.2992146015167236,
+      "learning_rate": 2.0212121212121214e-05,
+      "loss": 0.2921,
+      "step": 11900
+    },
+    {
+      "epoch": 26.983012457531142,
+      "eval_loss": 0.6651853322982788,
+      "eval_runtime": 214.8882,
+      "eval_samples_per_second": 7.301,
+      "eval_steps_per_second": 0.917,
+      "step": 11900
+    },
+    {
+      "epoch": 27.210645526613817,
+      "grad_norm": 1.5248701572418213,
+      "learning_rate": 1.86969696969697e-05,
+      "loss": 0.2761,
+      "step": 12000
+    },
+    {
+      "epoch": 27.210645526613817,
+      "eval_loss": 0.6715984344482422,
+      "eval_runtime": 214.8134,
+      "eval_samples_per_second": 7.304,
+      "eval_steps_per_second": 0.917,
+      "step": 12000
+    },
+    {
+      "epoch": 27.43714609286523,
+      "grad_norm": 1.3465806245803833,
+      "learning_rate": 1.718181818181818e-05,
+      "loss": 0.2778,
+      "step": 12100
+    },
+    {
+      "epoch": 27.43714609286523,
+      "eval_loss": 0.6680512428283691,
+      "eval_runtime": 214.8681,
+      "eval_samples_per_second": 7.302,
+      "eval_steps_per_second": 0.917,
+      "step": 12100
+    },
+    {
+      "epoch": 27.663646659116647,
+      "grad_norm": 1.044279932975769,
+      "learning_rate": 1.5666666666666667e-05,
+      "loss": 0.2766,
+      "step": 12200
+    },
+    {
+      "epoch": 27.663646659116647,
+      "eval_loss": 0.66595059633255,
+      "eval_runtime": 214.8457,
+      "eval_samples_per_second": 7.303,
+      "eval_steps_per_second": 0.917,
+      "step": 12200
+    },
+    {
+      "epoch": 27.890147225368064,
+      "grad_norm": 1.033585548400879,
+      "learning_rate": 1.4151515151515152e-05,
+      "loss": 0.2755,
+      "step": 12300
+    },
+    {
+      "epoch": 27.890147225368064,
+      "eval_loss": 0.6637829542160034,
+      "eval_runtime": 215.9457,
+      "eval_samples_per_second": 7.266,
+      "eval_steps_per_second": 0.912,
+      "step": 12300
+    },
+    {
+      "epoch": 28.117780294450736,
+      "grad_norm": 1.020391821861267,
+      "learning_rate": 1.2636363636363638e-05,
+      "loss": 0.267,
+      "step": 12400
+    },
+    {
+      "epoch": 28.117780294450736,
+      "eval_loss": 0.6649137139320374,
+      "eval_runtime": 215.9471,
+      "eval_samples_per_second": 7.266,
+      "eval_steps_per_second": 0.912,
+      "step": 12400
+    },
+    {
+      "epoch": 28.344280860702153,
+      "grad_norm": 0.961401641368866,
+      "learning_rate": 1.1121212121212121e-05,
+      "loss": 0.2603,
+      "step": 12500
+    },
+    {
+      "epoch": 28.344280860702153,
+      "eval_loss": 0.6652226448059082,
+      "eval_runtime": 215.9698,
+      "eval_samples_per_second": 7.265,
+      "eval_steps_per_second": 0.912,
+      "step": 12500
+    },
+    {
+      "epoch": 28.570781426953566,
+      "grad_norm": 0.9490793347358704,
+      "learning_rate": 9.606060606060607e-06,
+      "loss": 0.2619,
+      "step": 12600
+    },
+    {
+      "epoch": 28.570781426953566,
+      "eval_loss": 0.6631964445114136,
+      "eval_runtime": 216.054,
+      "eval_samples_per_second": 7.262,
+      "eval_steps_per_second": 0.912,
+      "step": 12600
+    },
+    {
+      "epoch": 28.797281993204983,
+      "grad_norm": 1.015561580657959,
+      "learning_rate": 8.09090909090909e-06,
+      "loss": 0.2648,
+      "step": 12700
+    },
+    {
+      "epoch": 28.797281993204983,
+      "eval_loss": 0.6587069034576416,
+      "eval_runtime": 216.0262,
+      "eval_samples_per_second": 7.263,
+      "eval_steps_per_second": 0.912,
+      "step": 12700
+    },
+    {
+      "epoch": 29.024915062287654,
+      "grad_norm": 0.8936730623245239,
+      "learning_rate": 6.575757575757575e-06,
+      "loss": 0.2621,
+      "step": 12800
+    },
+    {
+      "epoch": 29.024915062287654,
+      "eval_loss": 0.6623508930206299,
+      "eval_runtime": 216.1177,
+      "eval_samples_per_second": 7.26,
+      "eval_steps_per_second": 0.912,
+      "step": 12800
+    },
+    {
+      "epoch": 29.25141562853907,
+      "grad_norm": 0.8353849053382874,
+      "learning_rate": 5.060606060606061e-06,
+      "loss": 0.2497,
+      "step": 12900
+    },
+    {
+      "epoch": 29.25141562853907,
+      "eval_loss": 0.6611577272415161,
+      "eval_runtime": 216.148,
+      "eval_samples_per_second": 7.259,
+      "eval_steps_per_second": 0.911,
+      "step": 12900
+    },
+    {
+      "epoch": 29.477916194790488,
+      "grad_norm": 0.9153599739074707,
+      "learning_rate": 3.5454545454545454e-06,
+      "loss": 0.2555,
+      "step": 13000
+    },
+    {
+      "epoch": 29.477916194790488,
+      "eval_loss": 0.660586416721344,
+      "eval_runtime": 216.1833,
+      "eval_samples_per_second": 7.258,
+      "eval_steps_per_second": 0.911,
+      "step": 13000
+    },
+    {
+      "epoch": 29.7044167610419,
+      "grad_norm": 0.9058592319488525,
+      "learning_rate": 2.0303030303030303e-06,
+      "loss": 0.2502,
+      "step": 13100
+    },
+    {
+      "epoch": 29.7044167610419,
+      "eval_loss": 0.6602495908737183,
+      "eval_runtime": 216.1128,
+      "eval_samples_per_second": 7.26,
+      "eval_steps_per_second": 0.912,
+      "step": 13100
+    },
+    {
+      "epoch": 29.93091732729332,
+      "grad_norm": 0.9629655480384827,
+      "learning_rate": 5.151515151515152e-07,
+      "loss": 0.2525,
+      "step": 13200
+    },
+    {
+      "epoch": 29.93091732729332,
+      "eval_loss": 0.6595110297203064,
+      "eval_runtime": 216.0902,
+      "eval_samples_per_second": 7.261,
+      "eval_steps_per_second": 0.912,
+      "step": 13200
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 13230,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.6487625048064e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-13230/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddd1454bdddf5d6a918ffb8a8fbe7331b220c89a157922bc08953307b6efaaae
+size 6161

checkpoint-13230/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|vision_pad|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,241 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0].role == 'system' %}\n        {{- messages[0].content + '\\n\\n' }}\n    {%- endif %}\n    {{- \"# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0].role == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0].content + '<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}\n{%- for forward_message in messages %}\n    {%- set index = (messages|length - 1) - loop.index0 %}\n    {%- set message = messages[index] %}\n    {%- set current_content = message.content if message.content is defined and message.content is not none else '' %}\n    {%- set tool_start = '<tool_response>' %}\n    {%- set tool_start_length = tool_start|length %}\n    {%- set start_of_message = current_content[:tool_start_length] %}\n    {%- set tool_end = '</tool_response>' %}\n    {%- set tool_end_length = tool_end|length %}\n    {%- set start_pos = (current_content|length) - tool_end_length %}\n    {%- if start_pos < 0 %}\n        {%- set start_pos = 0 %}\n    {%- endif %}\n    {%- set end_of_message = current_content[start_pos:] %}\n    {%- if ns.multi_step_tool and message.role == \"user\" and not(start_of_message == tool_start and end_of_message == tool_end) %}\n        {%- set ns.multi_step_tool = false %}\n        {%- set ns.last_query_index = index %}\n    {%- endif %}\n{%- endfor %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {%- set m_content = message.content if message.content is defined and message.content is not none else '' %}\n        {%- set content = m_content %}\n        {%- set reasoning_content = '' %}\n        {%- if message.reasoning_content is defined and message.reasoning_content is not none %}\n            {%- set reasoning_content = message.reasoning_content %}\n        {%- else %}\n            {%- if '</think>' in m_content %}\n                {%- set content = (m_content.split('</think>')|last).lstrip('\\n') %}\n                {%- set reasoning_content = (m_content.split('</think>')|first).rstrip('\\n') %}\n                {%- set reasoning_content = (reasoning_content.split('<think>')|last).lstrip('\\n') %}\n            {%- endif %}\n        {%- endif %}\n        {%- if loop.index0 > ns.last_query_index %}\n            {%- if loop.last or (not loop.last and (not reasoning_content.strip() == '')) %}\n                {{- '<|im_start|>' + message.role + '\\n<think>\\n' + reasoning_content.strip('\\n') + '\\n</think>\\n\\n' + content.lstrip('\\n') }}\n            {%- else %}\n                {{- '<|im_start|>' + message.role + '\\n' + content }}\n            {%- endif %}\n        {%- else %}\n            {{- '<|im_start|>' + message.role + '\\n' + content }}\n        {%- endif %}\n        {%- if message.tool_calls %}\n            {%- for tool_call in message.tool_calls %}\n                {%- if (loop.first and content) or (not loop.first) %}\n                    {{- '\\n' }}\n                {%- endif %}\n                {%- if tool_call.function %}\n                    {%- set tool_call = tool_call.function %}\n                {%- endif %}\n                {{- '<tool_call>\\n{\"name\": \"' }}\n                {{- tool_call.name }}\n                {{- '\", \"arguments\": ' }}\n                {%- if tool_call.arguments is string %}\n                    {{- tool_call.arguments }}\n                {%- else %}\n                    {{- tool_call.arguments | tojson }}\n                {%- endif %}\n                {{- '}\\n</tool_call>' }}\n            {%- endfor %}\n        {%- endif %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if loop.first or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n    {%- if enable_thinking is defined and enable_thinking is false %}\n        {{- '<think>\\n\\n</think>\\n\\n' }}\n    {%- endif %}\n{%- endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 40960,
+  "pad_token": "<|vision_pad|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff