zhangjingyu111 commited on Jul 22

Commit

da490b6

1 Parent(s): d7c1618

commit from

Browse files

Files changed (26) hide show

checkpoint-10380/README.md +202 -0
checkpoint-10380/adapter_config.json +32 -0
checkpoint-10380/adapter_model.safetensors +3 -0
checkpoint-10380/optimizer.pt +3 -0
checkpoint-10380/rng_state.pth +3 -0
checkpoint-10380/scheduler.pt +3 -0
checkpoint-10380/trainer_state.json +1482 -0
checkpoint-10380/training_args.bin +3 -0
checkpoint-20760/README.md +202 -0
checkpoint-20760/adapter_config.json +32 -0
checkpoint-20760/adapter_model.safetensors +3 -0
checkpoint-20760/optimizer.pt +3 -0
checkpoint-20760/rng_state.pth +3 -0
checkpoint-20760/scheduler.pt +3 -0
checkpoint-20760/trainer_state.json +2938 -0
checkpoint-20760/training_args.bin +3 -0
config.json +64 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +943 -0
preprocessor_config.json +23 -0
processor_config.json +12 -0
special_tokens_map.json +34 -0
tokenizer.json +0 -0
tokenizer_config.json +0 -0

checkpoint-10380/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: ./result/tabx
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.14.0

checkpoint-10380/adapter_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "./result/tabx",
+  "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-10380/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14b39f62a195898c82e36ac706e0917b586a9cc14ca7a6fd2c121974ae11133a
+size 15746352

checkpoint-10380/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d44c86719057b767a74bd597c07255cfdedbbf550e731bf9b527cadad82e19b
+size 31560890

checkpoint-10380/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:20be6224296eba67cae319fbfc44b3a9f8c89b0ecb6363efd62e65ac05e3fe8e
+size 14244

checkpoint-10380/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d45f8518e4ad4d29824a72b70f92e0557358f67242127b152a6ce336226dc865
+size 1000

checkpoint-10380/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1482 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9999277508850517,
+  "eval_steps": 500,
+  "global_step": 10380,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004816607663222792,
+      "grad_norm": 0.006126338616013527,
+      "learning_rate": 1.204238921001927e-07,
+      "loss": 0.9708,
+      "step": 50
+    },
+    {
+      "epoch": 0.009633215326445585,
+      "grad_norm": 0.005320949479937553,
+      "learning_rate": 2.408477842003854e-07,
+      "loss": 0.9695,
+      "step": 100
+    },
+    {
+      "epoch": 0.014449822989668376,
+      "grad_norm": 0.007401228882372379,
+      "learning_rate": 3.612716763005781e-07,
+      "loss": 0.9666,
+      "step": 150
+    },
+    {
+      "epoch": 0.01926643065289117,
+      "grad_norm": 0.007720685563981533,
+      "learning_rate": 4.816955684007708e-07,
+      "loss": 0.9658,
+      "step": 200
+    },
+    {
+      "epoch": 0.024083038316113962,
+      "grad_norm": 0.0045981802977621555,
+      "learning_rate": 6.021194605009634e-07,
+      "loss": 0.9782,
+      "step": 250
+    },
+    {
+      "epoch": 0.028899645979336752,
+      "grad_norm": 0.0035435317549854517,
+      "learning_rate": 7.225433526011562e-07,
+      "loss": 0.9763,
+      "step": 300
+    },
+    {
+      "epoch": 0.03371625364255954,
+      "grad_norm": 0.00575470644980669,
+      "learning_rate": 8.429672447013489e-07,
+      "loss": 0.9679,
+      "step": 350
+    },
+    {
+      "epoch": 0.03853286130578234,
+      "grad_norm": 0.00474235974252224,
+      "learning_rate": 9.633911368015416e-07,
+      "loss": 0.9723,
+      "step": 400
+    },
+    {
+      "epoch": 0.04334946896900513,
+      "grad_norm": 0.005123383365571499,
+      "learning_rate": 1.0838150289017341e-06,
+      "loss": 0.9689,
+      "step": 450
+    },
+    {
+      "epoch": 0.048166076632227925,
+      "grad_norm": 0.004203244112432003,
+      "learning_rate": 1.2042389210019269e-06,
+      "loss": 0.9715,
+      "step": 500
+    },
+    {
+      "epoch": 0.052982684295450715,
+      "grad_norm": 0.004875039681792259,
+      "learning_rate": 1.3246628131021197e-06,
+      "loss": 0.9722,
+      "step": 550
+    },
+    {
+      "epoch": 0.057799291958673504,
+      "grad_norm": 0.004557117819786072,
+      "learning_rate": 1.4450867052023124e-06,
+      "loss": 0.9703,
+      "step": 600
+    },
+    {
+      "epoch": 0.0626158996218963,
+      "grad_norm": 0.005739388056099415,
+      "learning_rate": 1.565510597302505e-06,
+      "loss": 0.9736,
+      "step": 650
+    },
+    {
+      "epoch": 0.06743250728511908,
+      "grad_norm": 0.006271078251302242,
+      "learning_rate": 1.6859344894026978e-06,
+      "loss": 0.9665,
+      "step": 700
+    },
+    {
+      "epoch": 0.07224911494834188,
+      "grad_norm": 0.005068830214440823,
+      "learning_rate": 1.8063583815028903e-06,
+      "loss": 0.9706,
+      "step": 750
+    },
+    {
+      "epoch": 0.07706572261156468,
+      "grad_norm": 0.00502425990998745,
+      "learning_rate": 1.926782273603083e-06,
+      "loss": 0.973,
+      "step": 800
+    },
+    {
+      "epoch": 0.08188233027478747,
+      "grad_norm": 0.0058668977580964565,
+      "learning_rate": 2.0472061657032757e-06,
+      "loss": 0.9671,
+      "step": 850
+    },
+    {
+      "epoch": 0.08669893793801026,
+      "grad_norm": 0.006117091979831457,
+      "learning_rate": 2.1676300578034682e-06,
+      "loss": 0.9742,
+      "step": 900
+    },
+    {
+      "epoch": 0.09151554560123305,
+      "grad_norm": 0.00683088693767786,
+      "learning_rate": 2.288053949903661e-06,
+      "loss": 0.9759,
+      "step": 950
+    },
+    {
+      "epoch": 0.09633215326445585,
+      "grad_norm": 0.006263008341193199,
+      "learning_rate": 2.4084778420038538e-06,
+      "loss": 0.9734,
+      "step": 1000
+    },
+    {
+      "epoch": 0.10114876092767863,
+      "grad_norm": 0.008486876264214516,
+      "learning_rate": 2.5289017341040468e-06,
+      "loss": 0.9711,
+      "step": 1050
+    },
+    {
+      "epoch": 0.10596536859090143,
+      "grad_norm": 0.009161265566945076,
+      "learning_rate": 2.6493256262042393e-06,
+      "loss": 0.9681,
+      "step": 1100
+    },
+    {
+      "epoch": 0.11078197625412423,
+      "grad_norm": 0.011058177798986435,
+      "learning_rate": 2.769749518304432e-06,
+      "loss": 0.9746,
+      "step": 1150
+    },
+    {
+      "epoch": 0.11559858391734701,
+      "grad_norm": 0.007972915656864643,
+      "learning_rate": 2.890173410404625e-06,
+      "loss": 0.9764,
+      "step": 1200
+    },
+    {
+      "epoch": 0.1204151915805698,
+      "grad_norm": 0.012226037681102753,
+      "learning_rate": 3.0105973025048174e-06,
+      "loss": 0.9772,
+      "step": 1250
+    },
+    {
+      "epoch": 0.1252317992437926,
+      "grad_norm": 0.00945008173584938,
+      "learning_rate": 3.13102119460501e-06,
+      "loss": 0.9646,
+      "step": 1300
+    },
+    {
+      "epoch": 0.13004840690701538,
+      "grad_norm": 0.009660482406616211,
+      "learning_rate": 3.2514450867052026e-06,
+      "loss": 0.9687,
+      "step": 1350
+    },
+    {
+      "epoch": 0.13486501457023817,
+      "grad_norm": 0.011101615615189075,
+      "learning_rate": 3.3718689788053955e-06,
+      "loss": 0.9706,
+      "step": 1400
+    },
+    {
+      "epoch": 0.13968162223346098,
+      "grad_norm": 0.010446416214108467,
+      "learning_rate": 3.492292870905588e-06,
+      "loss": 0.973,
+      "step": 1450
+    },
+    {
+      "epoch": 0.14449822989668376,
+      "grad_norm": 0.008989120833575726,
+      "learning_rate": 3.6127167630057807e-06,
+      "loss": 0.9749,
+      "step": 1500
+    },
+    {
+      "epoch": 0.14931483755990657,
+      "grad_norm": 0.013530201278626919,
+      "learning_rate": 3.7331406551059736e-06,
+      "loss": 0.9676,
+      "step": 1550
+    },
+    {
+      "epoch": 0.15413144522312935,
+      "grad_norm": 0.01546582579612732,
+      "learning_rate": 3.853564547206166e-06,
+      "loss": 0.9696,
+      "step": 1600
+    },
+    {
+      "epoch": 0.15894805288635214,
+      "grad_norm": 0.011816772632300854,
+      "learning_rate": 3.973988439306359e-06,
+      "loss": 0.97,
+      "step": 1650
+    },
+    {
+      "epoch": 0.16376466054957495,
+      "grad_norm": 0.017899101600050926,
+      "learning_rate": 4.094412331406551e-06,
+      "loss": 0.9739,
+      "step": 1700
+    },
+    {
+      "epoch": 0.16858126821279773,
+      "grad_norm": 0.010724999010562897,
+      "learning_rate": 4.214836223506744e-06,
+      "loss": 0.9754,
+      "step": 1750
+    },
+    {
+      "epoch": 0.1733978758760205,
+      "grad_norm": 0.009775185026228428,
+      "learning_rate": 4.3352601156069365e-06,
+      "loss": 0.9719,
+      "step": 1800
+    },
+    {
+      "epoch": 0.17821448353924332,
+      "grad_norm": 0.013262300752103329,
+      "learning_rate": 4.45568400770713e-06,
+      "loss": 0.9671,
+      "step": 1850
+    },
+    {
+      "epoch": 0.1830310912024661,
+      "grad_norm": 0.016223512589931488,
+      "learning_rate": 4.576107899807322e-06,
+      "loss": 0.9718,
+      "step": 1900
+    },
+    {
+      "epoch": 0.1878476988656889,
+      "grad_norm": 0.014330854639410973,
+      "learning_rate": 4.696531791907515e-06,
+      "loss": 0.9691,
+      "step": 1950
+    },
+    {
+      "epoch": 0.1926643065289117,
+      "grad_norm": 0.013619545847177505,
+      "learning_rate": 4.8169556840077075e-06,
+      "loss": 0.97,
+      "step": 2000
+    },
+    {
+      "epoch": 0.19748091419213448,
+      "grad_norm": 0.01791592873632908,
+      "learning_rate": 4.9373795761079e-06,
+      "loss": 0.97,
+      "step": 2050
+    },
+    {
+      "epoch": 0.20229752185535727,
+      "grad_norm": 0.01708158478140831,
+      "learning_rate": 5.0578034682080935e-06,
+      "loss": 0.9673,
+      "step": 2100
+    },
+    {
+      "epoch": 0.20711412951858008,
+      "grad_norm": 0.01698676496744156,
+      "learning_rate": 5.178227360308285e-06,
+      "loss": 0.9704,
+      "step": 2150
+    },
+    {
+      "epoch": 0.21193073718180286,
+      "grad_norm": 0.019560791552066803,
+      "learning_rate": 5.298651252408479e-06,
+      "loss": 0.9672,
+      "step": 2200
+    },
+    {
+      "epoch": 0.21674734484502564,
+      "grad_norm": 0.013388896360993385,
+      "learning_rate": 5.419075144508671e-06,
+      "loss": 0.9666,
+      "step": 2250
+    },
+    {
+      "epoch": 0.22156395250824845,
+      "grad_norm": 0.014111978933215141,
+      "learning_rate": 5.539499036608864e-06,
+      "loss": 0.9681,
+      "step": 2300
+    },
+    {
+      "epoch": 0.22638056017147123,
+      "grad_norm": 0.014271333813667297,
+      "learning_rate": 5.659922928709056e-06,
+      "loss": 0.9686,
+      "step": 2350
+    },
+    {
+      "epoch": 0.23119716783469402,
+      "grad_norm": 0.015145047567784786,
+      "learning_rate": 5.78034682080925e-06,
+      "loss": 0.9761,
+      "step": 2400
+    },
+    {
+      "epoch": 0.23601377549791683,
+      "grad_norm": 0.01296105608344078,
+      "learning_rate": 5.9007707129094414e-06,
+      "loss": 0.9707,
+      "step": 2450
+    },
+    {
+      "epoch": 0.2408303831611396,
+      "grad_norm": 0.020001647993922234,
+      "learning_rate": 6.021194605009635e-06,
+      "loss": 0.971,
+      "step": 2500
+    },
+    {
+      "epoch": 0.2456469908243624,
+      "grad_norm": 0.016972048208117485,
+      "learning_rate": 6.1416184971098266e-06,
+      "loss": 0.9687,
+      "step": 2550
+    },
+    {
+      "epoch": 0.2504635984875852,
+      "grad_norm": 0.014618949964642525,
+      "learning_rate": 6.26204238921002e-06,
+      "loss": 0.9754,
+      "step": 2600
+    },
+    {
+      "epoch": 0.255280206150808,
+      "grad_norm": 0.01802586205303669,
+      "learning_rate": 6.3824662813102125e-06,
+      "loss": 0.9774,
+      "step": 2650
+    },
+    {
+      "epoch": 0.26009681381403077,
+      "grad_norm": 0.014718293212354183,
+      "learning_rate": 6.502890173410405e-06,
+      "loss": 0.9657,
+      "step": 2700
+    },
+    {
+      "epoch": 0.26491342147725355,
+      "grad_norm": 0.015037412755191326,
+      "learning_rate": 6.623314065510598e-06,
+      "loss": 0.9739,
+      "step": 2750
+    },
+    {
+      "epoch": 0.26973002914047634,
+      "grad_norm": 0.01608668453991413,
+      "learning_rate": 6.743737957610791e-06,
+      "loss": 0.9722,
+      "step": 2800
+    },
+    {
+      "epoch": 0.2745466368036992,
+      "grad_norm": 0.018442656844854355,
+      "learning_rate": 6.864161849710983e-06,
+      "loss": 0.9772,
+      "step": 2850
+    },
+    {
+      "epoch": 0.27936324446692196,
+      "grad_norm": 0.01769097149372101,
+      "learning_rate": 6.984585741811176e-06,
+      "loss": 0.9733,
+      "step": 2900
+    },
+    {
+      "epoch": 0.28417985213014474,
+      "grad_norm": 0.019516944885253906,
+      "learning_rate": 7.105009633911368e-06,
+      "loss": 0.9723,
+      "step": 2950
+    },
+    {
+      "epoch": 0.2889964597933675,
+      "grad_norm": 0.01777079701423645,
+      "learning_rate": 7.225433526011561e-06,
+      "loss": 0.9688,
+      "step": 3000
+    },
+    {
+      "epoch": 0.2938130674565903,
+      "grad_norm": 0.016445022076368332,
+      "learning_rate": 7.345857418111754e-06,
+      "loss": 0.9646,
+      "step": 3050
+    },
+    {
+      "epoch": 0.29862967511981314,
+      "grad_norm": 0.018231108784675598,
+      "learning_rate": 7.466281310211947e-06,
+      "loss": 0.9713,
+      "step": 3100
+    },
+    {
+      "epoch": 0.3034462827830359,
+      "grad_norm": 0.018171431496739388,
+      "learning_rate": 7.586705202312139e-06,
+      "loss": 0.9727,
+      "step": 3150
+    },
+    {
+      "epoch": 0.3082628904462587,
+      "grad_norm": 0.021160680800676346,
+      "learning_rate": 7.707129094412332e-06,
+      "loss": 0.9678,
+      "step": 3200
+    },
+    {
+      "epoch": 0.3130794981094815,
+      "grad_norm": 0.016429034993052483,
+      "learning_rate": 7.827552986512524e-06,
+      "loss": 0.9747,
+      "step": 3250
+    },
+    {
+      "epoch": 0.3178961057727043,
+      "grad_norm": 0.01525623258203268,
+      "learning_rate": 7.947976878612718e-06,
+      "loss": 0.9772,
+      "step": 3300
+    },
+    {
+      "epoch": 0.32271271343592706,
+      "grad_norm": 0.01664959080517292,
+      "learning_rate": 8.06840077071291e-06,
+      "loss": 0.9698,
+      "step": 3350
+    },
+    {
+      "epoch": 0.3275293210991499,
+      "grad_norm": 0.01823030784726143,
+      "learning_rate": 8.188824662813103e-06,
+      "loss": 0.9692,
+      "step": 3400
+    },
+    {
+      "epoch": 0.3323459287623727,
+      "grad_norm": 0.016893787309527397,
+      "learning_rate": 8.309248554913294e-06,
+      "loss": 0.9746,
+      "step": 3450
+    },
+    {
+      "epoch": 0.33716253642559546,
+      "grad_norm": 0.017619503661990166,
+      "learning_rate": 8.429672447013488e-06,
+      "loss": 0.9716,
+      "step": 3500
+    },
+    {
+      "epoch": 0.34197914408881824,
+      "grad_norm": 0.017689380794763565,
+      "learning_rate": 8.550096339113681e-06,
+      "loss": 0.9705,
+      "step": 3550
+    },
+    {
+      "epoch": 0.346795751752041,
+      "grad_norm": 0.021607734262943268,
+      "learning_rate": 8.670520231213873e-06,
+      "loss": 0.9706,
+      "step": 3600
+    },
+    {
+      "epoch": 0.3516123594152638,
+      "grad_norm": 0.014947572723031044,
+      "learning_rate": 8.790944123314066e-06,
+      "loss": 0.9712,
+      "step": 3650
+    },
+    {
+      "epoch": 0.35642896707848665,
+      "grad_norm": 0.020626170560717583,
+      "learning_rate": 8.91136801541426e-06,
+      "loss": 0.9675,
+      "step": 3700
+    },
+    {
+      "epoch": 0.36124557474170943,
+      "grad_norm": 0.022836238145828247,
+      "learning_rate": 9.031791907514451e-06,
+      "loss": 0.9715,
+      "step": 3750
+    },
+    {
+      "epoch": 0.3660621824049322,
+      "grad_norm": 0.018653474748134613,
+      "learning_rate": 9.152215799614645e-06,
+      "loss": 0.9675,
+      "step": 3800
+    },
+    {
+      "epoch": 0.370878790068155,
+      "grad_norm": 0.02013775333762169,
+      "learning_rate": 9.272639691714837e-06,
+      "loss": 0.9668,
+      "step": 3850
+    },
+    {
+      "epoch": 0.3756953977313778,
+      "grad_norm": 0.017947306856513023,
+      "learning_rate": 9.39306358381503e-06,
+      "loss": 0.9774,
+      "step": 3900
+    },
+    {
+      "epoch": 0.38051200539460056,
+      "grad_norm": 0.01862495392560959,
+      "learning_rate": 9.513487475915222e-06,
+      "loss": 0.9731,
+      "step": 3950
+    },
+    {
+      "epoch": 0.3853286130578234,
+      "grad_norm": 0.019523387774825096,
+      "learning_rate": 9.633911368015415e-06,
+      "loss": 0.9684,
+      "step": 4000
+    },
+    {
+      "epoch": 0.3901452207210462,
+      "grad_norm": 0.02111661061644554,
+      "learning_rate": 9.754335260115609e-06,
+      "loss": 0.9652,
+      "step": 4050
+    },
+    {
+      "epoch": 0.39496182838426896,
+      "grad_norm": 0.02122378721833229,
+      "learning_rate": 9.8747591522158e-06,
+      "loss": 0.9679,
+      "step": 4100
+    },
+    {
+      "epoch": 0.39977843604749175,
+      "grad_norm": 0.020203029736876488,
+      "learning_rate": 9.995183044315994e-06,
+      "loss": 0.975,
+      "step": 4150
+    },
+    {
+      "epoch": 0.40459504371071453,
+      "grad_norm": 0.018844136968255043,
+      "learning_rate": 1.0115606936416187e-05,
+      "loss": 0.9725,
+      "step": 4200
+    },
+    {
+      "epoch": 0.4094116513739373,
+      "grad_norm": 0.021215271204710007,
+      "learning_rate": 1.0236030828516379e-05,
+      "loss": 0.965,
+      "step": 4250
+    },
+    {
+      "epoch": 0.41422825903716015,
+      "grad_norm": 0.016644105315208435,
+      "learning_rate": 1.035645472061657e-05,
+      "loss": 0.9732,
+      "step": 4300
+    },
+    {
+      "epoch": 0.41904486670038293,
+      "grad_norm": 0.021778760477900505,
+      "learning_rate": 1.0476878612716764e-05,
+      "loss": 0.9695,
+      "step": 4350
+    },
+    {
+      "epoch": 0.4238614743636057,
+      "grad_norm": 0.02292022295296192,
+      "learning_rate": 1.0597302504816957e-05,
+      "loss": 0.9723,
+      "step": 4400
+    },
+    {
+      "epoch": 0.4286780820268285,
+      "grad_norm": 0.025219304487109184,
+      "learning_rate": 1.0717726396917149e-05,
+      "loss": 0.9705,
+      "step": 4450
+    },
+    {
+      "epoch": 0.4334946896900513,
+      "grad_norm": 0.016190696507692337,
+      "learning_rate": 1.0838150289017342e-05,
+      "loss": 0.9696,
+      "step": 4500
+    },
+    {
+      "epoch": 0.43831129735327407,
+      "grad_norm": 0.022926099598407745,
+      "learning_rate": 1.0958574181117534e-05,
+      "loss": 0.9814,
+      "step": 4550
+    },
+    {
+      "epoch": 0.4431279050164969,
+      "grad_norm": 0.022171182557940483,
+      "learning_rate": 1.1078998073217728e-05,
+      "loss": 0.9714,
+      "step": 4600
+    },
+    {
+      "epoch": 0.4479445126797197,
+      "grad_norm": 0.020946532487869263,
+      "learning_rate": 1.1199421965317921e-05,
+      "loss": 0.9708,
+      "step": 4650
+    },
+    {
+      "epoch": 0.45276112034294247,
+      "grad_norm": 0.024337617680430412,
+      "learning_rate": 1.1319845857418113e-05,
+      "loss": 0.9693,
+      "step": 4700
+    },
+    {
+      "epoch": 0.45757772800616525,
+      "grad_norm": 0.016778983175754547,
+      "learning_rate": 1.1440269749518304e-05,
+      "loss": 0.9761,
+      "step": 4750
+    },
+    {
+      "epoch": 0.46239433566938803,
+      "grad_norm": 0.019471049308776855,
+      "learning_rate": 1.15606936416185e-05,
+      "loss": 0.9692,
+      "step": 4800
+    },
+    {
+      "epoch": 0.4672109433326108,
+      "grad_norm": 0.019639885053038597,
+      "learning_rate": 1.1681117533718691e-05,
+      "loss": 0.97,
+      "step": 4850
+    },
+    {
+      "epoch": 0.47202755099583366,
+      "grad_norm": 0.020082898437976837,
+      "learning_rate": 1.1801541425818883e-05,
+      "loss": 0.9689,
+      "step": 4900
+    },
+    {
+      "epoch": 0.47684415865905644,
+      "grad_norm": 0.024678485468029976,
+      "learning_rate": 1.1921965317919075e-05,
+      "loss": 0.9656,
+      "step": 4950
+    },
+    {
+      "epoch": 0.4816607663222792,
+      "grad_norm": 0.024683095514774323,
+      "learning_rate": 1.204238921001927e-05,
+      "loss": 0.9642,
+      "step": 5000
+    },
+    {
+      "epoch": 0.486477373985502,
+      "grad_norm": 0.01706753671169281,
+      "learning_rate": 1.2162813102119461e-05,
+      "loss": 0.9712,
+      "step": 5050
+    },
+    {
+      "epoch": 0.4912939816487248,
+      "grad_norm": 0.018906202167272568,
+      "learning_rate": 1.2283236994219653e-05,
+      "loss": 0.9698,
+      "step": 5100
+    },
+    {
+      "epoch": 0.49611058931194757,
+      "grad_norm": 0.02169940434396267,
+      "learning_rate": 1.2403660886319847e-05,
+      "loss": 0.9812,
+      "step": 5150
+    },
+    {
+      "epoch": 0.5009271969751704,
+      "grad_norm": 0.019748864695429802,
+      "learning_rate": 1.252408477842004e-05,
+      "loss": 0.9697,
+      "step": 5200
+    },
+    {
+      "epoch": 0.5057438046383932,
+      "grad_norm": 0.025600366294384003,
+      "learning_rate": 1.2644508670520232e-05,
+      "loss": 0.9756,
+      "step": 5250
+    },
+    {
+      "epoch": 0.510560412301616,
+      "grad_norm": 0.02122749388217926,
+      "learning_rate": 1.2764932562620425e-05,
+      "loss": 0.9754,
+      "step": 5300
+    },
+    {
+      "epoch": 0.5153770199648388,
+      "grad_norm": 0.019833318889141083,
+      "learning_rate": 1.2885356454720617e-05,
+      "loss": 0.9662,
+      "step": 5350
+    },
+    {
+      "epoch": 0.5201936276280615,
+      "grad_norm": 0.023730387911200523,
+      "learning_rate": 1.300578034682081e-05,
+      "loss": 0.969,
+      "step": 5400
+    },
+    {
+      "epoch": 0.5250102352912843,
+      "grad_norm": 0.019496504217386246,
+      "learning_rate": 1.3126204238921004e-05,
+      "loss": 0.9707,
+      "step": 5450
+    },
+    {
+      "epoch": 0.5298268429545071,
+      "grad_norm": 0.02589583210647106,
+      "learning_rate": 1.3246628131021195e-05,
+      "loss": 0.9701,
+      "step": 5500
+    },
+    {
+      "epoch": 0.5346434506177299,
+      "grad_norm": 0.022606389597058296,
+      "learning_rate": 1.3367052023121387e-05,
+      "loss": 0.9726,
+      "step": 5550
+    },
+    {
+      "epoch": 0.5394600582809527,
+      "grad_norm": 0.02263002097606659,
+      "learning_rate": 1.3487475915221582e-05,
+      "loss": 0.9794,
+      "step": 5600
+    },
+    {
+      "epoch": 0.5442766659441756,
+      "grad_norm": 0.02536887302994728,
+      "learning_rate": 1.3607899807321774e-05,
+      "loss": 0.9669,
+      "step": 5650
+    },
+    {
+      "epoch": 0.5490932736073983,
+      "grad_norm": 0.0196990929543972,
+      "learning_rate": 1.3728323699421966e-05,
+      "loss": 0.9703,
+      "step": 5700
+    },
+    {
+      "epoch": 0.5539098812706211,
+      "grad_norm": 0.02041424624621868,
+      "learning_rate": 1.3848747591522157e-05,
+      "loss": 0.9667,
+      "step": 5750
+    },
+    {
+      "epoch": 0.5587264889338439,
+      "grad_norm": 0.019019950181245804,
+      "learning_rate": 1.3969171483622352e-05,
+      "loss": 0.9703,
+      "step": 5800
+    },
+    {
+      "epoch": 0.5635430965970667,
+      "grad_norm": 0.02298571914434433,
+      "learning_rate": 1.4089595375722544e-05,
+      "loss": 0.9688,
+      "step": 5850
+    },
+    {
+      "epoch": 0.5683597042602895,
+      "grad_norm": 0.025440840050578117,
+      "learning_rate": 1.4210019267822736e-05,
+      "loss": 0.9704,
+      "step": 5900
+    },
+    {
+      "epoch": 0.5731763119235123,
+      "grad_norm": 0.019567478448152542,
+      "learning_rate": 1.433044315992293e-05,
+      "loss": 0.978,
+      "step": 5950
+    },
+    {
+      "epoch": 0.577992919586735,
+      "grad_norm": 0.021922102198004723,
+      "learning_rate": 1.4450867052023123e-05,
+      "loss": 0.972,
+      "step": 6000
+    },
+    {
+      "epoch": 0.5828095272499578,
+      "grad_norm": 0.023248879238963127,
+      "learning_rate": 1.4571290944123316e-05,
+      "loss": 0.9751,
+      "step": 6050
+    },
+    {
+      "epoch": 0.5876261349131806,
+      "grad_norm": 0.025605713948607445,
+      "learning_rate": 1.4691714836223508e-05,
+      "loss": 0.9706,
+      "step": 6100
+    },
+    {
+      "epoch": 0.5924427425764034,
+      "grad_norm": 0.022256705909967422,
+      "learning_rate": 1.4812138728323701e-05,
+      "loss": 0.9711,
+      "step": 6150
+    },
+    {
+      "epoch": 0.5972593502396263,
+      "grad_norm": 0.019437307491898537,
+      "learning_rate": 1.4932562620423895e-05,
+      "loss": 0.9777,
+      "step": 6200
+    },
+    {
+      "epoch": 0.6020759579028491,
+      "grad_norm": 0.02306896448135376,
+      "learning_rate": 1.5052986512524086e-05,
+      "loss": 0.9743,
+      "step": 6250
+    },
+    {
+      "epoch": 0.6068925655660719,
+      "grad_norm": 0.025738820433616638,
+      "learning_rate": 1.5173410404624278e-05,
+      "loss": 0.97,
+      "step": 6300
+    },
+    {
+      "epoch": 0.6117091732292946,
+      "grad_norm": 0.019557103514671326,
+      "learning_rate": 1.5293834296724473e-05,
+      "loss": 0.97,
+      "step": 6350
+    },
+    {
+      "epoch": 0.6165257808925174,
+      "grad_norm": 0.025096602737903595,
+      "learning_rate": 1.5414258188824665e-05,
+      "loss": 0.9658,
+      "step": 6400
+    },
+    {
+      "epoch": 0.6213423885557402,
+      "grad_norm": 0.028057411313056946,
+      "learning_rate": 1.5534682080924857e-05,
+      "loss": 0.9709,
+      "step": 6450
+    },
+    {
+      "epoch": 0.626158996218963,
+      "grad_norm": 0.03152346611022949,
+      "learning_rate": 1.5655105973025048e-05,
+      "loss": 0.9751,
+      "step": 6500
+    },
+    {
+      "epoch": 0.6309756038821858,
+      "grad_norm": 0.017900671809911728,
+      "learning_rate": 1.5775529865125243e-05,
+      "loss": 0.9702,
+      "step": 6550
+    },
+    {
+      "epoch": 0.6357922115454085,
+      "grad_norm": 0.022004351019859314,
+      "learning_rate": 1.5895953757225435e-05,
+      "loss": 0.9681,
+      "step": 6600
+    },
+    {
+      "epoch": 0.6406088192086313,
+      "grad_norm": 0.021472521126270294,
+      "learning_rate": 1.6016377649325627e-05,
+      "loss": 0.9709,
+      "step": 6650
+    },
+    {
+      "epoch": 0.6454254268718541,
+      "grad_norm": 0.01908615604043007,
+      "learning_rate": 1.613680154142582e-05,
+      "loss": 0.9716,
+      "step": 6700
+    },
+    {
+      "epoch": 0.6502420345350769,
+      "grad_norm": 0.02205970697104931,
+      "learning_rate": 1.6257225433526014e-05,
+      "loss": 0.9774,
+      "step": 6750
+    },
+    {
+      "epoch": 0.6550586421982998,
+      "grad_norm": 0.02467629499733448,
+      "learning_rate": 1.6377649325626205e-05,
+      "loss": 0.9682,
+      "step": 6800
+    },
+    {
+      "epoch": 0.6598752498615226,
+      "grad_norm": 0.01893242448568344,
+      "learning_rate": 1.6498073217726397e-05,
+      "loss": 0.9761,
+      "step": 6850
+    },
+    {
+      "epoch": 0.6646918575247454,
+      "grad_norm": 0.02502221241593361,
+      "learning_rate": 1.661849710982659e-05,
+      "loss": 0.9726,
+      "step": 6900
+    },
+    {
+      "epoch": 0.6695084651879681,
+      "grad_norm": 0.02121950313448906,
+      "learning_rate": 1.6738921001926784e-05,
+      "loss": 0.9671,
+      "step": 6950
+    },
+    {
+      "epoch": 0.6743250728511909,
+      "grad_norm": 0.019996950402855873,
+      "learning_rate": 1.6859344894026976e-05,
+      "loss": 0.9734,
+      "step": 7000
+    },
+    {
+      "epoch": 0.6791416805144137,
+      "grad_norm": 0.023754192516207695,
+      "learning_rate": 1.6979768786127167e-05,
+      "loss": 0.9657,
+      "step": 7050
+    },
+    {
+      "epoch": 0.6839582881776365,
+      "grad_norm": 0.019974833354353905,
+      "learning_rate": 1.7100192678227362e-05,
+      "loss": 0.9699,
+      "step": 7100
+    },
+    {
+      "epoch": 0.6887748958408593,
+      "grad_norm": 0.019718438386917114,
+      "learning_rate": 1.7220616570327554e-05,
+      "loss": 0.9774,
+      "step": 7150
+    },
+    {
+      "epoch": 0.693591503504082,
+      "grad_norm": 0.02473635785281658,
+      "learning_rate": 1.7341040462427746e-05,
+      "loss": 0.9705,
+      "step": 7200
+    },
+    {
+      "epoch": 0.6984081111673048,
+      "grad_norm": 0.0264342799782753,
+      "learning_rate": 1.746146435452794e-05,
+      "loss": 0.9729,
+      "step": 7250
+    },
+    {
+      "epoch": 0.7032247188305276,
+      "grad_norm": 0.021187305450439453,
+      "learning_rate": 1.7581888246628133e-05,
+      "loss": 0.9687,
+      "step": 7300
+    },
+    {
+      "epoch": 0.7080413264937504,
+      "grad_norm": 0.01752212457358837,
+      "learning_rate": 1.7702312138728324e-05,
+      "loss": 0.9675,
+      "step": 7350
+    },
+    {
+      "epoch": 0.7128579341569733,
+      "grad_norm": 0.02413749136030674,
+      "learning_rate": 1.782273603082852e-05,
+      "loss": 0.9681,
+      "step": 7400
+    },
+    {
+      "epoch": 0.7176745418201961,
+      "grad_norm": 0.023940233513712883,
+      "learning_rate": 1.794315992292871e-05,
+      "loss": 0.9721,
+      "step": 7450
+    },
+    {
+      "epoch": 0.7224911494834189,
+      "grad_norm": 0.024347305297851562,
+      "learning_rate": 1.8063583815028903e-05,
+      "loss": 0.9655,
+      "step": 7500
+    },
+    {
+      "epoch": 0.7273077571466416,
+      "grad_norm": 0.023215830326080322,
+      "learning_rate": 1.8184007707129098e-05,
+      "loss": 0.9708,
+      "step": 7550
+    },
+    {
+      "epoch": 0.7321243648098644,
+      "grad_norm": 0.019564125686883926,
+      "learning_rate": 1.830443159922929e-05,
+      "loss": 0.9658,
+      "step": 7600
+    },
+    {
+      "epoch": 0.7369409724730872,
+      "grad_norm": 0.02049618400633335,
+      "learning_rate": 1.842485549132948e-05,
+      "loss": 0.9662,
+      "step": 7650
+    },
+    {
+      "epoch": 0.74175758013631,
+      "grad_norm": 0.031806960701942444,
+      "learning_rate": 1.8545279383429673e-05,
+      "loss": 0.9668,
+      "step": 7700
+    },
+    {
+      "epoch": 0.7465741877995328,
+      "grad_norm": 0.02331661805510521,
+      "learning_rate": 1.8665703275529868e-05,
+      "loss": 0.972,
+      "step": 7750
+    },
+    {
+      "epoch": 0.7513907954627556,
+      "grad_norm": 0.020196113735437393,
+      "learning_rate": 1.878612716763006e-05,
+      "loss": 0.9765,
+      "step": 7800
+    },
+    {
+      "epoch": 0.7562074031259783,
+      "grad_norm": 0.028458353132009506,
+      "learning_rate": 1.890655105973025e-05,
+      "loss": 0.9658,
+      "step": 7850
+    },
+    {
+      "epoch": 0.7610240107892011,
+      "grad_norm": 0.025394223630428314,
+      "learning_rate": 1.9026974951830443e-05,
+      "loss": 0.9747,
+      "step": 7900
+    },
+    {
+      "epoch": 0.7658406184524239,
+      "grad_norm": 0.02368360199034214,
+      "learning_rate": 1.914739884393064e-05,
+      "loss": 0.9815,
+      "step": 7950
+    },
+    {
+      "epoch": 0.7706572261156468,
+      "grad_norm": 0.021498555317521095,
+      "learning_rate": 1.926782273603083e-05,
+      "loss": 0.9709,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7754738337788696,
+      "grad_norm": 0.027243509888648987,
+      "learning_rate": 1.9388246628131022e-05,
+      "loss": 0.9745,
+      "step": 8050
+    },
+    {
+      "epoch": 0.7802904414420924,
+      "grad_norm": 0.019903521984815598,
+      "learning_rate": 1.9508670520231217e-05,
+      "loss": 0.9694,
+      "step": 8100
+    },
+    {
+      "epoch": 0.7851070491053151,
+      "grad_norm": 0.02099510096013546,
+      "learning_rate": 1.962909441233141e-05,
+      "loss": 0.9709,
+      "step": 8150
+    },
+    {
+      "epoch": 0.7899236567685379,
+      "grad_norm": 0.025477971881628036,
+      "learning_rate": 1.97495183044316e-05,
+      "loss": 0.9693,
+      "step": 8200
+    },
+    {
+      "epoch": 0.7947402644317607,
+      "grad_norm": 0.018335288390517235,
+      "learning_rate": 1.9869942196531792e-05,
+      "loss": 0.9682,
+      "step": 8250
+    },
+    {
+      "epoch": 0.7995568720949835,
+      "grad_norm": 0.021306857466697693,
+      "learning_rate": 1.9990366088631987e-05,
+      "loss": 0.9646,
+      "step": 8300
+    },
+    {
+      "epoch": 0.8043734797582063,
+      "grad_norm": 0.015945710241794586,
+      "learning_rate": 1.9999981307496558e-05,
+      "loss": 0.9738,
+      "step": 8350
+    },
+    {
+      "epoch": 0.8091900874214291,
+      "grad_norm": 0.022564787417650223,
+      "learning_rate": 1.9999918586988815e-05,
+      "loss": 0.9702,
+      "step": 8400
+    },
+    {
+      "epoch": 0.8140066950846518,
+      "grad_norm": 0.02257794328033924,
+      "learning_rate": 1.9999811697411585e-05,
+      "loss": 0.9634,
+      "step": 8450
+    },
+    {
+      "epoch": 0.8188233027478746,
+      "grad_norm": 0.017230728641152382,
+      "learning_rate": 1.9999660639236997e-05,
+      "loss": 0.9757,
+      "step": 8500
+    },
+    {
+      "epoch": 0.8236399104110974,
+      "grad_norm": 0.02081149071455002,
+      "learning_rate": 1.999946541313226e-05,
+      "loss": 0.9674,
+      "step": 8550
+    },
+    {
+      "epoch": 0.8284565180743203,
+      "grad_norm": 0.019852489233016968,
+      "learning_rate": 1.9999226019959675e-05,
+      "loss": 0.9753,
+      "step": 8600
+    },
+    {
+      "epoch": 0.8332731257375431,
+      "grad_norm": 0.022209197282791138,
+      "learning_rate": 1.9998942460776637e-05,
+      "loss": 0.967,
+      "step": 8650
+    },
+    {
+      "epoch": 0.8380897334007659,
+      "grad_norm": 0.01641988568007946,
+      "learning_rate": 1.99986147368356e-05,
+      "loss": 0.9691,
+      "step": 8700
+    },
+    {
+      "epoch": 0.8429063410639887,
+      "grad_norm": 0.022373568266630173,
+      "learning_rate": 1.999824284958411e-05,
+      "loss": 0.9714,
+      "step": 8750
+    },
+    {
+      "epoch": 0.8477229487272114,
+      "grad_norm": 0.01713249646127224,
+      "learning_rate": 1.9997826800664773e-05,
+      "loss": 0.9675,
+      "step": 8800
+    },
+    {
+      "epoch": 0.8525395563904342,
+      "grad_norm": 0.022914381697773933,
+      "learning_rate": 1.9997366591915246e-05,
+      "loss": 0.9723,
+      "step": 8850
+    },
+    {
+      "epoch": 0.857356164053657,
+      "grad_norm": 0.018057918176054955,
+      "learning_rate": 1.9996862225368248e-05,
+      "loss": 0.9728,
+      "step": 8900
+    },
+    {
+      "epoch": 0.8621727717168798,
+      "grad_norm": 0.022914033383131027,
+      "learning_rate": 1.9996313703251536e-05,
+      "loss": 0.9693,
+      "step": 8950
+    },
+    {
+      "epoch": 0.8669893793801026,
+      "grad_norm": 0.028229426592588425,
+      "learning_rate": 1.9995721027987903e-05,
+      "loss": 0.9695,
+      "step": 9000
+    },
+    {
+      "epoch": 0.8718059870433253,
+      "grad_norm": 0.022879110649228096,
+      "learning_rate": 1.999508420219516e-05,
+      "loss": 0.9739,
+      "step": 9050
+    },
+    {
+      "epoch": 0.8766225947065481,
+      "grad_norm": 0.016597425565123558,
+      "learning_rate": 1.9994403228686134e-05,
+      "loss": 0.9693,
+      "step": 9100
+    },
+    {
+      "epoch": 0.881439202369771,
+      "grad_norm": 0.020313039422035217,
+      "learning_rate": 1.9993678110468642e-05,
+      "loss": 0.9781,
+      "step": 9150
+    },
+    {
+      "epoch": 0.8862558100329938,
+      "grad_norm": 0.023865938186645508,
+      "learning_rate": 1.999290885074549e-05,
+      "loss": 0.9676,
+      "step": 9200
+    },
+    {
+      "epoch": 0.8910724176962166,
+      "grad_norm": 0.02183787152171135,
+      "learning_rate": 1.9992095452914454e-05,
+      "loss": 0.9794,
+      "step": 9250
+    },
+    {
+      "epoch": 0.8958890253594394,
+      "grad_norm": 0.029220541939139366,
+      "learning_rate": 1.9991237920568272e-05,
+      "loss": 0.9728,
+      "step": 9300
+    },
+    {
+      "epoch": 0.9007056330226622,
+      "grad_norm": 0.02130264975130558,
+      "learning_rate": 1.9990336257494607e-05,
+      "loss": 0.9743,
+      "step": 9350
+    },
+    {
+      "epoch": 0.9055222406858849,
+      "grad_norm": 0.02516760677099228,
+      "learning_rate": 1.9989390467676057e-05,
+      "loss": 0.9726,
+      "step": 9400
+    },
+    {
+      "epoch": 0.9103388483491077,
+      "grad_norm": 0.024124667048454285,
+      "learning_rate": 1.998840055529012e-05,
+      "loss": 0.9687,
+      "step": 9450
+    },
+    {
+      "epoch": 0.9151554560123305,
+      "grad_norm": 0.020920995622873306,
+      "learning_rate": 1.9987366524709187e-05,
+      "loss": 0.9826,
+      "step": 9500
+    },
+    {
+      "epoch": 0.9199720636755533,
+      "grad_norm": 0.016224917024374008,
+      "learning_rate": 1.9986288380500508e-05,
+      "loss": 0.9695,
+      "step": 9550
+    },
+    {
+      "epoch": 0.9247886713387761,
+      "grad_norm": 0.023870129138231277,
+      "learning_rate": 1.9985166127426186e-05,
+      "loss": 0.968,
+      "step": 9600
+    },
+    {
+      "epoch": 0.9296052790019989,
+      "grad_norm": 0.018101558089256287,
+      "learning_rate": 1.998399977044315e-05,
+      "loss": 0.968,
+      "step": 9650
+    },
+    {
+      "epoch": 0.9344218866652216,
+      "grad_norm": 0.021635858342051506,
+      "learning_rate": 1.9982789314703126e-05,
+      "loss": 0.967,
+      "step": 9700
+    },
+    {
+      "epoch": 0.9392384943284445,
+      "grad_norm": 0.02077612280845642,
+      "learning_rate": 1.9981534765552638e-05,
+      "loss": 0.9729,
+      "step": 9750
+    },
+    {
+      "epoch": 0.9440551019916673,
+      "grad_norm": 0.018736233934760094,
+      "learning_rate": 1.9980236128532948e-05,
+      "loss": 0.9637,
+      "step": 9800
+    },
+    {
+      "epoch": 0.9488717096548901,
+      "grad_norm": 0.019599338993430138,
+      "learning_rate": 1.9978893409380063e-05,
+      "loss": 0.972,
+      "step": 9850
+    },
+    {
+      "epoch": 0.9536883173181129,
+      "grad_norm": 0.024034442380070686,
+      "learning_rate": 1.9977506614024706e-05,
+      "loss": 0.9711,
+      "step": 9900
+    },
+    {
+      "epoch": 0.9585049249813357,
+      "grad_norm": 0.023441381752490997,
+      "learning_rate": 1.9976075748592264e-05,
+      "loss": 0.9668,
+      "step": 9950
+    },
+    {
+      "epoch": 0.9633215326445584,
+      "grad_norm": 0.03189970180392265,
+      "learning_rate": 1.997460081940279e-05,
+      "loss": 0.9695,
+      "step": 10000
+    },
+    {
+      "epoch": 0.9681381403077812,
+      "grad_norm": 0.022853758186101913,
+      "learning_rate": 1.9973081832970962e-05,
+      "loss": 0.9718,
+      "step": 10050
+    },
+    {
+      "epoch": 0.972954747971004,
+      "grad_norm": 0.020372973755002022,
+      "learning_rate": 1.9971550488396247e-05,
+      "loss": 0.9749,
+      "step": 10100
+    },
+    {
+      "epoch": 0.9777713556342268,
+      "grad_norm": 0.02032754011452198,
+      "learning_rate": 1.996994428860578e-05,
+      "loss": 0.9709,
+      "step": 10150
+    },
+    {
+      "epoch": 0.9825879632974496,
+      "grad_norm": 0.01894865557551384,
+      "learning_rate": 1.996829405214059e-05,
+      "loss": 0.9709,
+      "step": 10200
+    },
+    {
+      "epoch": 0.9874045709606724,
+      "grad_norm": 0.023153427988290787,
+      "learning_rate": 1.9966599786289677e-05,
+      "loss": 0.9652,
+      "step": 10250
+    },
+    {
+      "epoch": 0.9922211786238951,
+      "grad_norm": 0.016725238412618637,
+      "learning_rate": 1.9964861498536514e-05,
+      "loss": 0.9671,
+      "step": 10300
+    },
+    {
+      "epoch": 0.997037786287118,
+      "grad_norm": 0.01910654455423355,
+      "learning_rate": 1.9963079196559025e-05,
+      "loss": 0.9654,
+      "step": 10350
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 20760,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.516209204815695e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-10380/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:daf4af21635e2a3d5153e5b199fe36a29ba0574d6cbf377a6c2c41dc1a46333f
+size 5304

checkpoint-20760/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: ./result/tabx
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.14.0

checkpoint-20760/adapter_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "./result/tabx",
+  "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_bias": false,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-20760/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08cd0f0f5a59d518581465f26a1c45663c27eebcfe895ab0ac879ab3de4e80df
+size 15746352

checkpoint-20760/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f4908c5b123e03bcfecadf208eb488abcb87364e3b559ada45160e112931f85
+size 31560890

checkpoint-20760/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eaf0f15ec7f8c675cad3cb86a2ce987fdceae103ec4a68a1cbc5e6f87ad52b99
+size 14244

checkpoint-20760/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ceb51089b5d0bb0fdc3c9852c56f29e5bd8b9a9529b9585225d4a6383c29fb2d
+size 1000

checkpoint-20760/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2938 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9999277508850517,
+  "eval_steps": 500,
+  "global_step": 20760,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004816607663222792,
+      "grad_norm": 0.006126338616013527,
+      "learning_rate": 1.204238921001927e-07,
+      "loss": 0.9708,
+      "step": 50
+    },
+    {
+      "epoch": 0.009633215326445585,
+      "grad_norm": 0.005320949479937553,
+      "learning_rate": 2.408477842003854e-07,
+      "loss": 0.9695,
+      "step": 100
+    },
+    {
+      "epoch": 0.014449822989668376,
+      "grad_norm": 0.007401228882372379,
+      "learning_rate": 3.612716763005781e-07,
+      "loss": 0.9666,
+      "step": 150
+    },
+    {
+      "epoch": 0.01926643065289117,
+      "grad_norm": 0.007720685563981533,
+      "learning_rate": 4.816955684007708e-07,
+      "loss": 0.9658,
+      "step": 200
+    },
+    {
+      "epoch": 0.024083038316113962,
+      "grad_norm": 0.0045981802977621555,
+      "learning_rate": 6.021194605009634e-07,
+      "loss": 0.9782,
+      "step": 250
+    },
+    {
+      "epoch": 0.028899645979336752,
+      "grad_norm": 0.0035435317549854517,
+      "learning_rate": 7.225433526011562e-07,
+      "loss": 0.9763,
+      "step": 300
+    },
+    {
+      "epoch": 0.03371625364255954,
+      "grad_norm": 0.00575470644980669,
+      "learning_rate": 8.429672447013489e-07,
+      "loss": 0.9679,
+      "step": 350
+    },
+    {
+      "epoch": 0.03853286130578234,
+      "grad_norm": 0.00474235974252224,
+      "learning_rate": 9.633911368015416e-07,
+      "loss": 0.9723,
+      "step": 400
+    },
+    {
+      "epoch": 0.04334946896900513,
+      "grad_norm": 0.005123383365571499,
+      "learning_rate": 1.0838150289017341e-06,
+      "loss": 0.9689,
+      "step": 450
+    },
+    {
+      "epoch": 0.048166076632227925,
+      "grad_norm": 0.004203244112432003,
+      "learning_rate": 1.2042389210019269e-06,
+      "loss": 0.9715,
+      "step": 500
+    },
+    {
+      "epoch": 0.052982684295450715,
+      "grad_norm": 0.004875039681792259,
+      "learning_rate": 1.3246628131021197e-06,
+      "loss": 0.9722,
+      "step": 550
+    },
+    {
+      "epoch": 0.057799291958673504,
+      "grad_norm": 0.004557117819786072,
+      "learning_rate": 1.4450867052023124e-06,
+      "loss": 0.9703,
+      "step": 600
+    },
+    {
+      "epoch": 0.0626158996218963,
+      "grad_norm": 0.005739388056099415,
+      "learning_rate": 1.565510597302505e-06,
+      "loss": 0.9736,
+      "step": 650
+    },
+    {
+      "epoch": 0.06743250728511908,
+      "grad_norm": 0.006271078251302242,
+      "learning_rate": 1.6859344894026978e-06,
+      "loss": 0.9665,
+      "step": 700
+    },
+    {
+      "epoch": 0.07224911494834188,
+      "grad_norm": 0.005068830214440823,
+      "learning_rate": 1.8063583815028903e-06,
+      "loss": 0.9706,
+      "step": 750
+    },
+    {
+      "epoch": 0.07706572261156468,
+      "grad_norm": 0.00502425990998745,
+      "learning_rate": 1.926782273603083e-06,
+      "loss": 0.973,
+      "step": 800
+    },
+    {
+      "epoch": 0.08188233027478747,
+      "grad_norm": 0.0058668977580964565,
+      "learning_rate": 2.0472061657032757e-06,
+      "loss": 0.9671,
+      "step": 850
+    },
+    {
+      "epoch": 0.08669893793801026,
+      "grad_norm": 0.006117091979831457,
+      "learning_rate": 2.1676300578034682e-06,
+      "loss": 0.9742,
+      "step": 900
+    },
+    {
+      "epoch": 0.09151554560123305,
+      "grad_norm": 0.00683088693767786,
+      "learning_rate": 2.288053949903661e-06,
+      "loss": 0.9759,
+      "step": 950
+    },
+    {
+      "epoch": 0.09633215326445585,
+      "grad_norm": 0.006263008341193199,
+      "learning_rate": 2.4084778420038538e-06,
+      "loss": 0.9734,
+      "step": 1000
+    },
+    {
+      "epoch": 0.10114876092767863,
+      "grad_norm": 0.008486876264214516,
+      "learning_rate": 2.5289017341040468e-06,
+      "loss": 0.9711,
+      "step": 1050
+    },
+    {
+      "epoch": 0.10596536859090143,
+      "grad_norm": 0.009161265566945076,
+      "learning_rate": 2.6493256262042393e-06,
+      "loss": 0.9681,
+      "step": 1100
+    },
+    {
+      "epoch": 0.11078197625412423,
+      "grad_norm": 0.011058177798986435,
+      "learning_rate": 2.769749518304432e-06,
+      "loss": 0.9746,
+      "step": 1150
+    },
+    {
+      "epoch": 0.11559858391734701,
+      "grad_norm": 0.007972915656864643,
+      "learning_rate": 2.890173410404625e-06,
+      "loss": 0.9764,
+      "step": 1200
+    },
+    {
+      "epoch": 0.1204151915805698,
+      "grad_norm": 0.012226037681102753,
+      "learning_rate": 3.0105973025048174e-06,
+      "loss": 0.9772,
+      "step": 1250
+    },
+    {
+      "epoch": 0.1252317992437926,
+      "grad_norm": 0.00945008173584938,
+      "learning_rate": 3.13102119460501e-06,
+      "loss": 0.9646,
+      "step": 1300
+    },
+    {
+      "epoch": 0.13004840690701538,
+      "grad_norm": 0.009660482406616211,
+      "learning_rate": 3.2514450867052026e-06,
+      "loss": 0.9687,
+      "step": 1350
+    },
+    {
+      "epoch": 0.13486501457023817,
+      "grad_norm": 0.011101615615189075,
+      "learning_rate": 3.3718689788053955e-06,
+      "loss": 0.9706,
+      "step": 1400
+    },
+    {
+      "epoch": 0.13968162223346098,
+      "grad_norm": 0.010446416214108467,
+      "learning_rate": 3.492292870905588e-06,
+      "loss": 0.973,
+      "step": 1450
+    },
+    {
+      "epoch": 0.14449822989668376,
+      "grad_norm": 0.008989120833575726,
+      "learning_rate": 3.6127167630057807e-06,
+      "loss": 0.9749,
+      "step": 1500
+    },
+    {
+      "epoch": 0.14931483755990657,
+      "grad_norm": 0.013530201278626919,
+      "learning_rate": 3.7331406551059736e-06,
+      "loss": 0.9676,
+      "step": 1550
+    },
+    {
+      "epoch": 0.15413144522312935,
+      "grad_norm": 0.01546582579612732,
+      "learning_rate": 3.853564547206166e-06,
+      "loss": 0.9696,
+      "step": 1600
+    },
+    {
+      "epoch": 0.15894805288635214,
+      "grad_norm": 0.011816772632300854,
+      "learning_rate": 3.973988439306359e-06,
+      "loss": 0.97,
+      "step": 1650
+    },
+    {
+      "epoch": 0.16376466054957495,
+      "grad_norm": 0.017899101600050926,
+      "learning_rate": 4.094412331406551e-06,
+      "loss": 0.9739,
+      "step": 1700
+    },
+    {
+      "epoch": 0.16858126821279773,
+      "grad_norm": 0.010724999010562897,
+      "learning_rate": 4.214836223506744e-06,
+      "loss": 0.9754,
+      "step": 1750
+    },
+    {
+      "epoch": 0.1733978758760205,
+      "grad_norm": 0.009775185026228428,
+      "learning_rate": 4.3352601156069365e-06,
+      "loss": 0.9719,
+      "step": 1800
+    },
+    {
+      "epoch": 0.17821448353924332,
+      "grad_norm": 0.013262300752103329,
+      "learning_rate": 4.45568400770713e-06,
+      "loss": 0.9671,
+      "step": 1850
+    },
+    {
+      "epoch": 0.1830310912024661,
+      "grad_norm": 0.016223512589931488,
+      "learning_rate": 4.576107899807322e-06,
+      "loss": 0.9718,
+      "step": 1900
+    },
+    {
+      "epoch": 0.1878476988656889,
+      "grad_norm": 0.014330854639410973,
+      "learning_rate": 4.696531791907515e-06,
+      "loss": 0.9691,
+      "step": 1950
+    },
+    {
+      "epoch": 0.1926643065289117,
+      "grad_norm": 0.013619545847177505,
+      "learning_rate": 4.8169556840077075e-06,
+      "loss": 0.97,
+      "step": 2000
+    },
+    {
+      "epoch": 0.19748091419213448,
+      "grad_norm": 0.01791592873632908,
+      "learning_rate": 4.9373795761079e-06,
+      "loss": 0.97,
+      "step": 2050
+    },
+    {
+      "epoch": 0.20229752185535727,
+      "grad_norm": 0.01708158478140831,
+      "learning_rate": 5.0578034682080935e-06,
+      "loss": 0.9673,
+      "step": 2100
+    },
+    {
+      "epoch": 0.20711412951858008,
+      "grad_norm": 0.01698676496744156,
+      "learning_rate": 5.178227360308285e-06,
+      "loss": 0.9704,
+      "step": 2150
+    },
+    {
+      "epoch": 0.21193073718180286,
+      "grad_norm": 0.019560791552066803,
+      "learning_rate": 5.298651252408479e-06,
+      "loss": 0.9672,
+      "step": 2200
+    },
+    {
+      "epoch": 0.21674734484502564,
+      "grad_norm": 0.013388896360993385,
+      "learning_rate": 5.419075144508671e-06,
+      "loss": 0.9666,
+      "step": 2250
+    },
+    {
+      "epoch": 0.22156395250824845,
+      "grad_norm": 0.014111978933215141,
+      "learning_rate": 5.539499036608864e-06,
+      "loss": 0.9681,
+      "step": 2300
+    },
+    {
+      "epoch": 0.22638056017147123,
+      "grad_norm": 0.014271333813667297,
+      "learning_rate": 5.659922928709056e-06,
+      "loss": 0.9686,
+      "step": 2350
+    },
+    {
+      "epoch": 0.23119716783469402,
+      "grad_norm": 0.015145047567784786,
+      "learning_rate": 5.78034682080925e-06,
+      "loss": 0.9761,
+      "step": 2400
+    },
+    {
+      "epoch": 0.23601377549791683,
+      "grad_norm": 0.01296105608344078,
+      "learning_rate": 5.9007707129094414e-06,
+      "loss": 0.9707,
+      "step": 2450
+    },
+    {
+      "epoch": 0.2408303831611396,
+      "grad_norm": 0.020001647993922234,
+      "learning_rate": 6.021194605009635e-06,
+      "loss": 0.971,
+      "step": 2500
+    },
+    {
+      "epoch": 0.2456469908243624,
+      "grad_norm": 0.016972048208117485,
+      "learning_rate": 6.1416184971098266e-06,
+      "loss": 0.9687,
+      "step": 2550
+    },
+    {
+      "epoch": 0.2504635984875852,
+      "grad_norm": 0.014618949964642525,
+      "learning_rate": 6.26204238921002e-06,
+      "loss": 0.9754,
+      "step": 2600
+    },
+    {
+      "epoch": 0.255280206150808,
+      "grad_norm": 0.01802586205303669,
+      "learning_rate": 6.3824662813102125e-06,
+      "loss": 0.9774,
+      "step": 2650
+    },
+    {
+      "epoch": 0.26009681381403077,
+      "grad_norm": 0.014718293212354183,
+      "learning_rate": 6.502890173410405e-06,
+      "loss": 0.9657,
+      "step": 2700
+    },
+    {
+      "epoch": 0.26491342147725355,
+      "grad_norm": 0.015037412755191326,
+      "learning_rate": 6.623314065510598e-06,
+      "loss": 0.9739,
+      "step": 2750
+    },
+    {
+      "epoch": 0.26973002914047634,
+      "grad_norm": 0.01608668453991413,
+      "learning_rate": 6.743737957610791e-06,
+      "loss": 0.9722,
+      "step": 2800
+    },
+    {
+      "epoch": 0.2745466368036992,
+      "grad_norm": 0.018442656844854355,
+      "learning_rate": 6.864161849710983e-06,
+      "loss": 0.9772,
+      "step": 2850
+    },
+    {
+      "epoch": 0.27936324446692196,
+      "grad_norm": 0.01769097149372101,
+      "learning_rate": 6.984585741811176e-06,
+      "loss": 0.9733,
+      "step": 2900
+    },
+    {
+      "epoch": 0.28417985213014474,
+      "grad_norm": 0.019516944885253906,
+      "learning_rate": 7.105009633911368e-06,
+      "loss": 0.9723,
+      "step": 2950
+    },
+    {
+      "epoch": 0.2889964597933675,
+      "grad_norm": 0.01777079701423645,
+      "learning_rate": 7.225433526011561e-06,
+      "loss": 0.9688,
+      "step": 3000
+    },
+    {
+      "epoch": 0.2938130674565903,
+      "grad_norm": 0.016445022076368332,
+      "learning_rate": 7.345857418111754e-06,
+      "loss": 0.9646,
+      "step": 3050
+    },
+    {
+      "epoch": 0.29862967511981314,
+      "grad_norm": 0.018231108784675598,
+      "learning_rate": 7.466281310211947e-06,
+      "loss": 0.9713,
+      "step": 3100
+    },
+    {
+      "epoch": 0.3034462827830359,
+      "grad_norm": 0.018171431496739388,
+      "learning_rate": 7.586705202312139e-06,
+      "loss": 0.9727,
+      "step": 3150
+    },
+    {
+      "epoch": 0.3082628904462587,
+      "grad_norm": 0.021160680800676346,
+      "learning_rate": 7.707129094412332e-06,
+      "loss": 0.9678,
+      "step": 3200
+    },
+    {
+      "epoch": 0.3130794981094815,
+      "grad_norm": 0.016429034993052483,
+      "learning_rate": 7.827552986512524e-06,
+      "loss": 0.9747,
+      "step": 3250
+    },
+    {
+      "epoch": 0.3178961057727043,
+      "grad_norm": 0.01525623258203268,
+      "learning_rate": 7.947976878612718e-06,
+      "loss": 0.9772,
+      "step": 3300
+    },
+    {
+      "epoch": 0.32271271343592706,
+      "grad_norm": 0.01664959080517292,
+      "learning_rate": 8.06840077071291e-06,
+      "loss": 0.9698,
+      "step": 3350
+    },
+    {
+      "epoch": 0.3275293210991499,
+      "grad_norm": 0.01823030784726143,
+      "learning_rate": 8.188824662813103e-06,
+      "loss": 0.9692,
+      "step": 3400
+    },
+    {
+      "epoch": 0.3323459287623727,
+      "grad_norm": 0.016893787309527397,
+      "learning_rate": 8.309248554913294e-06,
+      "loss": 0.9746,
+      "step": 3450
+    },
+    {
+      "epoch": 0.33716253642559546,
+      "grad_norm": 0.017619503661990166,
+      "learning_rate": 8.429672447013488e-06,
+      "loss": 0.9716,
+      "step": 3500
+    },
+    {
+      "epoch": 0.34197914408881824,
+      "grad_norm": 0.017689380794763565,
+      "learning_rate": 8.550096339113681e-06,
+      "loss": 0.9705,
+      "step": 3550
+    },
+    {
+      "epoch": 0.346795751752041,
+      "grad_norm": 0.021607734262943268,
+      "learning_rate": 8.670520231213873e-06,
+      "loss": 0.9706,
+      "step": 3600
+    },
+    {
+      "epoch": 0.3516123594152638,
+      "grad_norm": 0.014947572723031044,
+      "learning_rate": 8.790944123314066e-06,
+      "loss": 0.9712,
+      "step": 3650
+    },
+    {
+      "epoch": 0.35642896707848665,
+      "grad_norm": 0.020626170560717583,
+      "learning_rate": 8.91136801541426e-06,
+      "loss": 0.9675,
+      "step": 3700
+    },
+    {
+      "epoch": 0.36124557474170943,
+      "grad_norm": 0.022836238145828247,
+      "learning_rate": 9.031791907514451e-06,
+      "loss": 0.9715,
+      "step": 3750
+    },
+    {
+      "epoch": 0.3660621824049322,
+      "grad_norm": 0.018653474748134613,
+      "learning_rate": 9.152215799614645e-06,
+      "loss": 0.9675,
+      "step": 3800
+    },
+    {
+      "epoch": 0.370878790068155,
+      "grad_norm": 0.02013775333762169,
+      "learning_rate": 9.272639691714837e-06,
+      "loss": 0.9668,
+      "step": 3850
+    },
+    {
+      "epoch": 0.3756953977313778,
+      "grad_norm": 0.017947306856513023,
+      "learning_rate": 9.39306358381503e-06,
+      "loss": 0.9774,
+      "step": 3900
+    },
+    {
+      "epoch": 0.38051200539460056,
+      "grad_norm": 0.01862495392560959,
+      "learning_rate": 9.513487475915222e-06,
+      "loss": 0.9731,
+      "step": 3950
+    },
+    {
+      "epoch": 0.3853286130578234,
+      "grad_norm": 0.019523387774825096,
+      "learning_rate": 9.633911368015415e-06,
+      "loss": 0.9684,
+      "step": 4000
+    },
+    {
+      "epoch": 0.3901452207210462,
+      "grad_norm": 0.02111661061644554,
+      "learning_rate": 9.754335260115609e-06,
+      "loss": 0.9652,
+      "step": 4050
+    },
+    {
+      "epoch": 0.39496182838426896,
+      "grad_norm": 0.02122378721833229,
+      "learning_rate": 9.8747591522158e-06,
+      "loss": 0.9679,
+      "step": 4100
+    },
+    {
+      "epoch": 0.39977843604749175,
+      "grad_norm": 0.020203029736876488,
+      "learning_rate": 9.995183044315994e-06,
+      "loss": 0.975,
+      "step": 4150
+    },
+    {
+      "epoch": 0.40459504371071453,
+      "grad_norm": 0.018844136968255043,
+      "learning_rate": 1.0115606936416187e-05,
+      "loss": 0.9725,
+      "step": 4200
+    },
+    {
+      "epoch": 0.4094116513739373,
+      "grad_norm": 0.021215271204710007,
+      "learning_rate": 1.0236030828516379e-05,
+      "loss": 0.965,
+      "step": 4250
+    },
+    {
+      "epoch": 0.41422825903716015,
+      "grad_norm": 0.016644105315208435,
+      "learning_rate": 1.035645472061657e-05,
+      "loss": 0.9732,
+      "step": 4300
+    },
+    {
+      "epoch": 0.41904486670038293,
+      "grad_norm": 0.021778760477900505,
+      "learning_rate": 1.0476878612716764e-05,
+      "loss": 0.9695,
+      "step": 4350
+    },
+    {
+      "epoch": 0.4238614743636057,
+      "grad_norm": 0.02292022295296192,
+      "learning_rate": 1.0597302504816957e-05,
+      "loss": 0.9723,
+      "step": 4400
+    },
+    {
+      "epoch": 0.4286780820268285,
+      "grad_norm": 0.025219304487109184,
+      "learning_rate": 1.0717726396917149e-05,
+      "loss": 0.9705,
+      "step": 4450
+    },
+    {
+      "epoch": 0.4334946896900513,
+      "grad_norm": 0.016190696507692337,
+      "learning_rate": 1.0838150289017342e-05,
+      "loss": 0.9696,
+      "step": 4500
+    },
+    {
+      "epoch": 0.43831129735327407,
+      "grad_norm": 0.022926099598407745,
+      "learning_rate": 1.0958574181117534e-05,
+      "loss": 0.9814,
+      "step": 4550
+    },
+    {
+      "epoch": 0.4431279050164969,
+      "grad_norm": 0.022171182557940483,
+      "learning_rate": 1.1078998073217728e-05,
+      "loss": 0.9714,
+      "step": 4600
+    },
+    {
+      "epoch": 0.4479445126797197,
+      "grad_norm": 0.020946532487869263,
+      "learning_rate": 1.1199421965317921e-05,
+      "loss": 0.9708,
+      "step": 4650
+    },
+    {
+      "epoch": 0.45276112034294247,
+      "grad_norm": 0.024337617680430412,
+      "learning_rate": 1.1319845857418113e-05,
+      "loss": 0.9693,
+      "step": 4700
+    },
+    {
+      "epoch": 0.45757772800616525,
+      "grad_norm": 0.016778983175754547,
+      "learning_rate": 1.1440269749518304e-05,
+      "loss": 0.9761,
+      "step": 4750
+    },
+    {
+      "epoch": 0.46239433566938803,
+      "grad_norm": 0.019471049308776855,
+      "learning_rate": 1.15606936416185e-05,
+      "loss": 0.9692,
+      "step": 4800
+    },
+    {
+      "epoch": 0.4672109433326108,
+      "grad_norm": 0.019639885053038597,
+      "learning_rate": 1.1681117533718691e-05,
+      "loss": 0.97,
+      "step": 4850
+    },
+    {
+      "epoch": 0.47202755099583366,
+      "grad_norm": 0.020082898437976837,
+      "learning_rate": 1.1801541425818883e-05,
+      "loss": 0.9689,
+      "step": 4900
+    },
+    {
+      "epoch": 0.47684415865905644,
+      "grad_norm": 0.024678485468029976,
+      "learning_rate": 1.1921965317919075e-05,
+      "loss": 0.9656,
+      "step": 4950
+    },
+    {
+      "epoch": 0.4816607663222792,
+      "grad_norm": 0.024683095514774323,
+      "learning_rate": 1.204238921001927e-05,
+      "loss": 0.9642,
+      "step": 5000
+    },
+    {
+      "epoch": 0.486477373985502,
+      "grad_norm": 0.01706753671169281,
+      "learning_rate": 1.2162813102119461e-05,
+      "loss": 0.9712,
+      "step": 5050
+    },
+    {
+      "epoch": 0.4912939816487248,
+      "grad_norm": 0.018906202167272568,
+      "learning_rate": 1.2283236994219653e-05,
+      "loss": 0.9698,
+      "step": 5100
+    },
+    {
+      "epoch": 0.49611058931194757,
+      "grad_norm": 0.02169940434396267,
+      "learning_rate": 1.2403660886319847e-05,
+      "loss": 0.9812,
+      "step": 5150
+    },
+    {
+      "epoch": 0.5009271969751704,
+      "grad_norm": 0.019748864695429802,
+      "learning_rate": 1.252408477842004e-05,
+      "loss": 0.9697,
+      "step": 5200
+    },
+    {
+      "epoch": 0.5057438046383932,
+      "grad_norm": 0.025600366294384003,
+      "learning_rate": 1.2644508670520232e-05,
+      "loss": 0.9756,
+      "step": 5250
+    },
+    {
+      "epoch": 0.510560412301616,
+      "grad_norm": 0.02122749388217926,
+      "learning_rate": 1.2764932562620425e-05,
+      "loss": 0.9754,
+      "step": 5300
+    },
+    {
+      "epoch": 0.5153770199648388,
+      "grad_norm": 0.019833318889141083,
+      "learning_rate": 1.2885356454720617e-05,
+      "loss": 0.9662,
+      "step": 5350
+    },
+    {
+      "epoch": 0.5201936276280615,
+      "grad_norm": 0.023730387911200523,
+      "learning_rate": 1.300578034682081e-05,
+      "loss": 0.969,
+      "step": 5400
+    },
+    {
+      "epoch": 0.5250102352912843,
+      "grad_norm": 0.019496504217386246,
+      "learning_rate": 1.3126204238921004e-05,
+      "loss": 0.9707,
+      "step": 5450
+    },
+    {
+      "epoch": 0.5298268429545071,
+      "grad_norm": 0.02589583210647106,
+      "learning_rate": 1.3246628131021195e-05,
+      "loss": 0.9701,
+      "step": 5500
+    },
+    {
+      "epoch": 0.5346434506177299,
+      "grad_norm": 0.022606389597058296,
+      "learning_rate": 1.3367052023121387e-05,
+      "loss": 0.9726,
+      "step": 5550
+    },
+    {
+      "epoch": 0.5394600582809527,
+      "grad_norm": 0.02263002097606659,
+      "learning_rate": 1.3487475915221582e-05,
+      "loss": 0.9794,
+      "step": 5600
+    },
+    {
+      "epoch": 0.5442766659441756,
+      "grad_norm": 0.02536887302994728,
+      "learning_rate": 1.3607899807321774e-05,
+      "loss": 0.9669,
+      "step": 5650
+    },
+    {
+      "epoch": 0.5490932736073983,
+      "grad_norm": 0.0196990929543972,
+      "learning_rate": 1.3728323699421966e-05,
+      "loss": 0.9703,
+      "step": 5700
+    },
+    {
+      "epoch": 0.5539098812706211,
+      "grad_norm": 0.02041424624621868,
+      "learning_rate": 1.3848747591522157e-05,
+      "loss": 0.9667,
+      "step": 5750
+    },
+    {
+      "epoch": 0.5587264889338439,
+      "grad_norm": 0.019019950181245804,
+      "learning_rate": 1.3969171483622352e-05,
+      "loss": 0.9703,
+      "step": 5800
+    },
+    {
+      "epoch": 0.5635430965970667,
+      "grad_norm": 0.02298571914434433,
+      "learning_rate": 1.4089595375722544e-05,
+      "loss": 0.9688,
+      "step": 5850
+    },
+    {
+      "epoch": 0.5683597042602895,
+      "grad_norm": 0.025440840050578117,
+      "learning_rate": 1.4210019267822736e-05,
+      "loss": 0.9704,
+      "step": 5900
+    },
+    {
+      "epoch": 0.5731763119235123,
+      "grad_norm": 0.019567478448152542,
+      "learning_rate": 1.433044315992293e-05,
+      "loss": 0.978,
+      "step": 5950
+    },
+    {
+      "epoch": 0.577992919586735,
+      "grad_norm": 0.021922102198004723,
+      "learning_rate": 1.4450867052023123e-05,
+      "loss": 0.972,
+      "step": 6000
+    },
+    {
+      "epoch": 0.5828095272499578,
+      "grad_norm": 0.023248879238963127,
+      "learning_rate": 1.4571290944123316e-05,
+      "loss": 0.9751,
+      "step": 6050
+    },
+    {
+      "epoch": 0.5876261349131806,
+      "grad_norm": 0.025605713948607445,
+      "learning_rate": 1.4691714836223508e-05,
+      "loss": 0.9706,
+      "step": 6100
+    },
+    {
+      "epoch": 0.5924427425764034,
+      "grad_norm": 0.022256705909967422,
+      "learning_rate": 1.4812138728323701e-05,
+      "loss": 0.9711,
+      "step": 6150
+    },
+    {
+      "epoch": 0.5972593502396263,
+      "grad_norm": 0.019437307491898537,
+      "learning_rate": 1.4932562620423895e-05,
+      "loss": 0.9777,
+      "step": 6200
+    },
+    {
+      "epoch": 0.6020759579028491,
+      "grad_norm": 0.02306896448135376,
+      "learning_rate": 1.5052986512524086e-05,
+      "loss": 0.9743,
+      "step": 6250
+    },
+    {
+      "epoch": 0.6068925655660719,
+      "grad_norm": 0.025738820433616638,
+      "learning_rate": 1.5173410404624278e-05,
+      "loss": 0.97,
+      "step": 6300
+    },
+    {
+      "epoch": 0.6117091732292946,
+      "grad_norm": 0.019557103514671326,
+      "learning_rate": 1.5293834296724473e-05,
+      "loss": 0.97,
+      "step": 6350
+    },
+    {
+      "epoch": 0.6165257808925174,
+      "grad_norm": 0.025096602737903595,
+      "learning_rate": 1.5414258188824665e-05,
+      "loss": 0.9658,
+      "step": 6400
+    },
+    {
+      "epoch": 0.6213423885557402,
+      "grad_norm": 0.028057411313056946,
+      "learning_rate": 1.5534682080924857e-05,
+      "loss": 0.9709,
+      "step": 6450
+    },
+    {
+      "epoch": 0.626158996218963,
+      "grad_norm": 0.03152346611022949,
+      "learning_rate": 1.5655105973025048e-05,
+      "loss": 0.9751,
+      "step": 6500
+    },
+    {
+      "epoch": 0.6309756038821858,
+      "grad_norm": 0.017900671809911728,
+      "learning_rate": 1.5775529865125243e-05,
+      "loss": 0.9702,
+      "step": 6550
+    },
+    {
+      "epoch": 0.6357922115454085,
+      "grad_norm": 0.022004351019859314,
+      "learning_rate": 1.5895953757225435e-05,
+      "loss": 0.9681,
+      "step": 6600
+    },
+    {
+      "epoch": 0.6406088192086313,
+      "grad_norm": 0.021472521126270294,
+      "learning_rate": 1.6016377649325627e-05,
+      "loss": 0.9709,
+      "step": 6650
+    },
+    {
+      "epoch": 0.6454254268718541,
+      "grad_norm": 0.01908615604043007,
+      "learning_rate": 1.613680154142582e-05,
+      "loss": 0.9716,
+      "step": 6700
+    },
+    {
+      "epoch": 0.6502420345350769,
+      "grad_norm": 0.02205970697104931,
+      "learning_rate": 1.6257225433526014e-05,
+      "loss": 0.9774,
+      "step": 6750
+    },
+    {
+      "epoch": 0.6550586421982998,
+      "grad_norm": 0.02467629499733448,
+      "learning_rate": 1.6377649325626205e-05,
+      "loss": 0.9682,
+      "step": 6800
+    },
+    {
+      "epoch": 0.6598752498615226,
+      "grad_norm": 0.01893242448568344,
+      "learning_rate": 1.6498073217726397e-05,
+      "loss": 0.9761,
+      "step": 6850
+    },
+    {
+      "epoch": 0.6646918575247454,
+      "grad_norm": 0.02502221241593361,
+      "learning_rate": 1.661849710982659e-05,
+      "loss": 0.9726,
+      "step": 6900
+    },
+    {
+      "epoch": 0.6695084651879681,
+      "grad_norm": 0.02121950313448906,
+      "learning_rate": 1.6738921001926784e-05,
+      "loss": 0.9671,
+      "step": 6950
+    },
+    {
+      "epoch": 0.6743250728511909,
+      "grad_norm": 0.019996950402855873,
+      "learning_rate": 1.6859344894026976e-05,
+      "loss": 0.9734,
+      "step": 7000
+    },
+    {
+      "epoch": 0.6791416805144137,
+      "grad_norm": 0.023754192516207695,
+      "learning_rate": 1.6979768786127167e-05,
+      "loss": 0.9657,
+      "step": 7050
+    },
+    {
+      "epoch": 0.6839582881776365,
+      "grad_norm": 0.019974833354353905,
+      "learning_rate": 1.7100192678227362e-05,
+      "loss": 0.9699,
+      "step": 7100
+    },
+    {
+      "epoch": 0.6887748958408593,
+      "grad_norm": 0.019718438386917114,
+      "learning_rate": 1.7220616570327554e-05,
+      "loss": 0.9774,
+      "step": 7150
+    },
+    {
+      "epoch": 0.693591503504082,
+      "grad_norm": 0.02473635785281658,
+      "learning_rate": 1.7341040462427746e-05,
+      "loss": 0.9705,
+      "step": 7200
+    },
+    {
+      "epoch": 0.6984081111673048,
+      "grad_norm": 0.0264342799782753,
+      "learning_rate": 1.746146435452794e-05,
+      "loss": 0.9729,
+      "step": 7250
+    },
+    {
+      "epoch": 0.7032247188305276,
+      "grad_norm": 0.021187305450439453,
+      "learning_rate": 1.7581888246628133e-05,
+      "loss": 0.9687,
+      "step": 7300
+    },
+    {
+      "epoch": 0.7080413264937504,
+      "grad_norm": 0.01752212457358837,
+      "learning_rate": 1.7702312138728324e-05,
+      "loss": 0.9675,
+      "step": 7350
+    },
+    {
+      "epoch": 0.7128579341569733,
+      "grad_norm": 0.02413749136030674,
+      "learning_rate": 1.782273603082852e-05,
+      "loss": 0.9681,
+      "step": 7400
+    },
+    {
+      "epoch": 0.7176745418201961,
+      "grad_norm": 0.023940233513712883,
+      "learning_rate": 1.794315992292871e-05,
+      "loss": 0.9721,
+      "step": 7450
+    },
+    {
+      "epoch": 0.7224911494834189,
+      "grad_norm": 0.024347305297851562,
+      "learning_rate": 1.8063583815028903e-05,
+      "loss": 0.9655,
+      "step": 7500
+    },
+    {
+      "epoch": 0.7273077571466416,
+      "grad_norm": 0.023215830326080322,
+      "learning_rate": 1.8184007707129098e-05,
+      "loss": 0.9708,
+      "step": 7550
+    },
+    {
+      "epoch": 0.7321243648098644,
+      "grad_norm": 0.019564125686883926,
+      "learning_rate": 1.830443159922929e-05,
+      "loss": 0.9658,
+      "step": 7600
+    },
+    {
+      "epoch": 0.7369409724730872,
+      "grad_norm": 0.02049618400633335,
+      "learning_rate": 1.842485549132948e-05,
+      "loss": 0.9662,
+      "step": 7650
+    },
+    {
+      "epoch": 0.74175758013631,
+      "grad_norm": 0.031806960701942444,
+      "learning_rate": 1.8545279383429673e-05,
+      "loss": 0.9668,
+      "step": 7700
+    },
+    {
+      "epoch": 0.7465741877995328,
+      "grad_norm": 0.02331661805510521,
+      "learning_rate": 1.8665703275529868e-05,
+      "loss": 0.972,
+      "step": 7750
+    },
+    {
+      "epoch": 0.7513907954627556,
+      "grad_norm": 0.020196113735437393,
+      "learning_rate": 1.878612716763006e-05,
+      "loss": 0.9765,
+      "step": 7800
+    },
+    {
+      "epoch": 0.7562074031259783,
+      "grad_norm": 0.028458353132009506,
+      "learning_rate": 1.890655105973025e-05,
+      "loss": 0.9658,
+      "step": 7850
+    },
+    {
+      "epoch": 0.7610240107892011,
+      "grad_norm": 0.025394223630428314,
+      "learning_rate": 1.9026974951830443e-05,
+      "loss": 0.9747,
+      "step": 7900
+    },
+    {
+      "epoch": 0.7658406184524239,
+      "grad_norm": 0.02368360199034214,
+      "learning_rate": 1.914739884393064e-05,
+      "loss": 0.9815,
+      "step": 7950
+    },
+    {
+      "epoch": 0.7706572261156468,
+      "grad_norm": 0.021498555317521095,
+      "learning_rate": 1.926782273603083e-05,
+      "loss": 0.9709,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7754738337788696,
+      "grad_norm": 0.027243509888648987,
+      "learning_rate": 1.9388246628131022e-05,
+      "loss": 0.9745,
+      "step": 8050
+    },
+    {
+      "epoch": 0.7802904414420924,
+      "grad_norm": 0.019903521984815598,
+      "learning_rate": 1.9508670520231217e-05,
+      "loss": 0.9694,
+      "step": 8100
+    },
+    {
+      "epoch": 0.7851070491053151,
+      "grad_norm": 0.02099510096013546,
+      "learning_rate": 1.962909441233141e-05,
+      "loss": 0.9709,
+      "step": 8150
+    },
+    {
+      "epoch": 0.7899236567685379,
+      "grad_norm": 0.025477971881628036,
+      "learning_rate": 1.97495183044316e-05,
+      "loss": 0.9693,
+      "step": 8200
+    },
+    {
+      "epoch": 0.7947402644317607,
+      "grad_norm": 0.018335288390517235,
+      "learning_rate": 1.9869942196531792e-05,
+      "loss": 0.9682,
+      "step": 8250
+    },
+    {
+      "epoch": 0.7995568720949835,
+      "grad_norm": 0.021306857466697693,
+      "learning_rate": 1.9990366088631987e-05,
+      "loss": 0.9646,
+      "step": 8300
+    },
+    {
+      "epoch": 0.8043734797582063,
+      "grad_norm": 0.015945710241794586,
+      "learning_rate": 1.9999981307496558e-05,
+      "loss": 0.9738,
+      "step": 8350
+    },
+    {
+      "epoch": 0.8091900874214291,
+      "grad_norm": 0.022564787417650223,
+      "learning_rate": 1.9999918586988815e-05,
+      "loss": 0.9702,
+      "step": 8400
+    },
+    {
+      "epoch": 0.8140066950846518,
+      "grad_norm": 0.02257794328033924,
+      "learning_rate": 1.9999811697411585e-05,
+      "loss": 0.9634,
+      "step": 8450
+    },
+    {
+      "epoch": 0.8188233027478746,
+      "grad_norm": 0.017230728641152382,
+      "learning_rate": 1.9999660639236997e-05,
+      "loss": 0.9757,
+      "step": 8500
+    },
+    {
+      "epoch": 0.8236399104110974,
+      "grad_norm": 0.02081149071455002,
+      "learning_rate": 1.999946541313226e-05,
+      "loss": 0.9674,
+      "step": 8550
+    },
+    {
+      "epoch": 0.8284565180743203,
+      "grad_norm": 0.019852489233016968,
+      "learning_rate": 1.9999226019959675e-05,
+      "loss": 0.9753,
+      "step": 8600
+    },
+    {
+      "epoch": 0.8332731257375431,
+      "grad_norm": 0.022209197282791138,
+      "learning_rate": 1.9998942460776637e-05,
+      "loss": 0.967,
+      "step": 8650
+    },
+    {
+      "epoch": 0.8380897334007659,
+      "grad_norm": 0.01641988568007946,
+      "learning_rate": 1.99986147368356e-05,
+      "loss": 0.9691,
+      "step": 8700
+    },
+    {
+      "epoch": 0.8429063410639887,
+      "grad_norm": 0.022373568266630173,
+      "learning_rate": 1.999824284958411e-05,
+      "loss": 0.9714,
+      "step": 8750
+    },
+    {
+      "epoch": 0.8477229487272114,
+      "grad_norm": 0.01713249646127224,
+      "learning_rate": 1.9997826800664773e-05,
+      "loss": 0.9675,
+      "step": 8800
+    },
+    {
+      "epoch": 0.8525395563904342,
+      "grad_norm": 0.022914381697773933,
+      "learning_rate": 1.9997366591915246e-05,
+      "loss": 0.9723,
+      "step": 8850
+    },
+    {
+      "epoch": 0.857356164053657,
+      "grad_norm": 0.018057918176054955,
+      "learning_rate": 1.9996862225368248e-05,
+      "loss": 0.9728,
+      "step": 8900
+    },
+    {
+      "epoch": 0.8621727717168798,
+      "grad_norm": 0.022914033383131027,
+      "learning_rate": 1.9996313703251536e-05,
+      "loss": 0.9693,
+      "step": 8950
+    },
+    {
+      "epoch": 0.8669893793801026,
+      "grad_norm": 0.028229426592588425,
+      "learning_rate": 1.9995721027987903e-05,
+      "loss": 0.9695,
+      "step": 9000
+    },
+    {
+      "epoch": 0.8718059870433253,
+      "grad_norm": 0.022879110649228096,
+      "learning_rate": 1.999508420219516e-05,
+      "loss": 0.9739,
+      "step": 9050
+    },
+    {
+      "epoch": 0.8766225947065481,
+      "grad_norm": 0.016597425565123558,
+      "learning_rate": 1.9994403228686134e-05,
+      "loss": 0.9693,
+      "step": 9100
+    },
+    {
+      "epoch": 0.881439202369771,
+      "grad_norm": 0.020313039422035217,
+      "learning_rate": 1.9993678110468642e-05,
+      "loss": 0.9781,
+      "step": 9150
+    },
+    {
+      "epoch": 0.8862558100329938,
+      "grad_norm": 0.023865938186645508,
+      "learning_rate": 1.999290885074549e-05,
+      "loss": 0.9676,
+      "step": 9200
+    },
+    {
+      "epoch": 0.8910724176962166,
+      "grad_norm": 0.02183787152171135,
+      "learning_rate": 1.9992095452914454e-05,
+      "loss": 0.9794,
+      "step": 9250
+    },
+    {
+      "epoch": 0.8958890253594394,
+      "grad_norm": 0.029220541939139366,
+      "learning_rate": 1.9991237920568272e-05,
+      "loss": 0.9728,
+      "step": 9300
+    },
+    {
+      "epoch": 0.9007056330226622,
+      "grad_norm": 0.02130264975130558,
+      "learning_rate": 1.9990336257494607e-05,
+      "loss": 0.9743,
+      "step": 9350
+    },
+    {
+      "epoch": 0.9055222406858849,
+      "grad_norm": 0.02516760677099228,
+      "learning_rate": 1.9989390467676057e-05,
+      "loss": 0.9726,
+      "step": 9400
+    },
+    {
+      "epoch": 0.9103388483491077,
+      "grad_norm": 0.024124667048454285,
+      "learning_rate": 1.998840055529012e-05,
+      "loss": 0.9687,
+      "step": 9450
+    },
+    {
+      "epoch": 0.9151554560123305,
+      "grad_norm": 0.020920995622873306,
+      "learning_rate": 1.9987366524709187e-05,
+      "loss": 0.9826,
+      "step": 9500
+    },
+    {
+      "epoch": 0.9199720636755533,
+      "grad_norm": 0.016224917024374008,
+      "learning_rate": 1.9986288380500508e-05,
+      "loss": 0.9695,
+      "step": 9550
+    },
+    {
+      "epoch": 0.9247886713387761,
+      "grad_norm": 0.023870129138231277,
+      "learning_rate": 1.9985166127426186e-05,
+      "loss": 0.968,
+      "step": 9600
+    },
+    {
+      "epoch": 0.9296052790019989,
+      "grad_norm": 0.018101558089256287,
+      "learning_rate": 1.998399977044315e-05,
+      "loss": 0.968,
+      "step": 9650
+    },
+    {
+      "epoch": 0.9344218866652216,
+      "grad_norm": 0.021635858342051506,
+      "learning_rate": 1.9982789314703126e-05,
+      "loss": 0.967,
+      "step": 9700
+    },
+    {
+      "epoch": 0.9392384943284445,
+      "grad_norm": 0.02077612280845642,
+      "learning_rate": 1.9981534765552638e-05,
+      "loss": 0.9729,
+      "step": 9750
+    },
+    {
+      "epoch": 0.9440551019916673,
+      "grad_norm": 0.018736233934760094,
+      "learning_rate": 1.9980236128532948e-05,
+      "loss": 0.9637,
+      "step": 9800
+    },
+    {
+      "epoch": 0.9488717096548901,
+      "grad_norm": 0.019599338993430138,
+      "learning_rate": 1.9978893409380063e-05,
+      "loss": 0.972,
+      "step": 9850
+    },
+    {
+      "epoch": 0.9536883173181129,
+      "grad_norm": 0.024034442380070686,
+      "learning_rate": 1.9977506614024706e-05,
+      "loss": 0.9711,
+      "step": 9900
+    },
+    {
+      "epoch": 0.9585049249813357,
+      "grad_norm": 0.023441381752490997,
+      "learning_rate": 1.9976075748592264e-05,
+      "loss": 0.9668,
+      "step": 9950
+    },
+    {
+      "epoch": 0.9633215326445584,
+      "grad_norm": 0.03189970180392265,
+      "learning_rate": 1.997460081940279e-05,
+      "loss": 0.9695,
+      "step": 10000
+    },
+    {
+      "epoch": 0.9681381403077812,
+      "grad_norm": 0.022853758186101913,
+      "learning_rate": 1.9973081832970962e-05,
+      "loss": 0.9718,
+      "step": 10050
+    },
+    {
+      "epoch": 0.972954747971004,
+      "grad_norm": 0.020372973755002022,
+      "learning_rate": 1.9971550488396247e-05,
+      "loss": 0.9749,
+      "step": 10100
+    },
+    {
+      "epoch": 0.9777713556342268,
+      "grad_norm": 0.02032754011452198,
+      "learning_rate": 1.996994428860578e-05,
+      "loss": 0.9709,
+      "step": 10150
+    },
+    {
+      "epoch": 0.9825879632974496,
+      "grad_norm": 0.01894865557551384,
+      "learning_rate": 1.996829405214059e-05,
+      "loss": 0.9709,
+      "step": 10200
+    },
+    {
+      "epoch": 0.9874045709606724,
+      "grad_norm": 0.023153427988290787,
+      "learning_rate": 1.9966599786289677e-05,
+      "loss": 0.9652,
+      "step": 10250
+    },
+    {
+      "epoch": 0.9922211786238951,
+      "grad_norm": 0.016725238412618637,
+      "learning_rate": 1.9964861498536514e-05,
+      "loss": 0.9671,
+      "step": 10300
+    },
+    {
+      "epoch": 0.997037786287118,
+      "grad_norm": 0.01910654455423355,
+      "learning_rate": 1.9963079196559025e-05,
+      "loss": 0.9654,
+      "step": 10350
+    },
+    {
+      "epoch": 1.0019266430652891,
+      "grad_norm": 0.016868438571691513,
+      "learning_rate": 1.9961252888229533e-05,
+      "loss": 0.9826,
+      "step": 10400
+    },
+    {
+      "epoch": 1.006743250728512,
+      "grad_norm": 0.024409230798482895,
+      "learning_rate": 1.9959382581614738e-05,
+      "loss": 0.9717,
+      "step": 10450
+    },
+    {
+      "epoch": 1.0115598583917347,
+      "grad_norm": 0.02388002723455429,
+      "learning_rate": 1.9957468284975676e-05,
+      "loss": 0.9704,
+      "step": 10500
+    },
+    {
+      "epoch": 1.0163764660549575,
+      "grad_norm": 0.02049044892191887,
+      "learning_rate": 1.9955510006767688e-05,
+      "loss": 0.9661,
+      "step": 10550
+    },
+    {
+      "epoch": 1.0211930737181802,
+      "grad_norm": 0.02806607447564602,
+      "learning_rate": 1.9953507755640373e-05,
+      "loss": 0.965,
+      "step": 10600
+    },
+    {
+      "epoch": 1.026009681381403,
+      "grad_norm": 0.02697833627462387,
+      "learning_rate": 1.9951461540437568e-05,
+      "loss": 0.9719,
+      "step": 10650
+    },
+    {
+      "epoch": 1.0308262890446258,
+      "grad_norm": 0.024413883686065674,
+      "learning_rate": 1.9949371370197277e-05,
+      "loss": 0.968,
+      "step": 10700
+    },
+    {
+      "epoch": 1.0356428967078486,
+      "grad_norm": 0.026219476014375687,
+      "learning_rate": 1.9947237254151676e-05,
+      "loss": 0.9703,
+      "step": 10750
+    },
+    {
+      "epoch": 1.0404595043710714,
+      "grad_norm": 0.021840987727046013,
+      "learning_rate": 1.9945059201727023e-05,
+      "loss": 0.972,
+      "step": 10800
+    },
+    {
+      "epoch": 1.0452761120342942,
+      "grad_norm": 0.024745196104049683,
+      "learning_rate": 1.9942837222543656e-05,
+      "loss": 0.977,
+      "step": 10850
+    },
+    {
+      "epoch": 1.050092719697517,
+      "grad_norm": 0.029609955847263336,
+      "learning_rate": 1.994057132641593e-05,
+      "loss": 0.9679,
+      "step": 10900
+    },
+    {
+      "epoch": 1.0549093273607397,
+      "grad_norm": 0.026458898559212685,
+      "learning_rate": 1.9938261523352176e-05,
+      "loss": 0.972,
+      "step": 10950
+    },
+    {
+      "epoch": 1.0597259350239627,
+      "grad_norm": 0.023683995008468628,
+      "learning_rate": 1.993590782355467e-05,
+      "loss": 0.9669,
+      "step": 11000
+    },
+    {
+      "epoch": 1.0645425426871855,
+      "grad_norm": 0.026212599128484726,
+      "learning_rate": 1.9933510237419563e-05,
+      "loss": 0.9705,
+      "step": 11050
+    },
+    {
+      "epoch": 1.0693591503504083,
+      "grad_norm": 0.025770004838705063,
+      "learning_rate": 1.9931068775536853e-05,
+      "loss": 0.9748,
+      "step": 11100
+    },
+    {
+      "epoch": 1.074175758013631,
+      "grad_norm": 0.028559479862451553,
+      "learning_rate": 1.9928583448690345e-05,
+      "loss": 0.9708,
+      "step": 11150
+    },
+    {
+      "epoch": 1.0789923656768539,
+      "grad_norm": 0.023568179458379745,
+      "learning_rate": 1.992605426785758e-05,
+      "loss": 0.9618,
+      "step": 11200
+    },
+    {
+      "epoch": 1.0838089733400766,
+      "grad_norm": 0.02477218583226204,
+      "learning_rate": 1.9923481244209812e-05,
+      "loss": 0.9685,
+      "step": 11250
+    },
+    {
+      "epoch": 1.0886255810032994,
+      "grad_norm": 0.02419090084731579,
+      "learning_rate": 1.9920864389111932e-05,
+      "loss": 0.9679,
+      "step": 11300
+    },
+    {
+      "epoch": 1.0934421886665222,
+      "grad_norm": 0.02636454440653324,
+      "learning_rate": 1.9918203714122443e-05,
+      "loss": 0.9699,
+      "step": 11350
+    },
+    {
+      "epoch": 1.098258796329745,
+      "grad_norm": 0.029870351776480675,
+      "learning_rate": 1.99154992309934e-05,
+      "loss": 0.9708,
+      "step": 11400
+    },
+    {
+      "epoch": 1.1030754039929678,
+      "grad_norm": 0.024796070531010628,
+      "learning_rate": 1.9912750951670343e-05,
+      "loss": 0.9692,
+      "step": 11450
+    },
+    {
+      "epoch": 1.1078920116561906,
+      "grad_norm": 0.023329641669988632,
+      "learning_rate": 1.9909958888292264e-05,
+      "loss": 0.9712,
+      "step": 11500
+    },
+    {
+      "epoch": 1.1127086193194133,
+      "grad_norm": 0.017567068338394165,
+      "learning_rate": 1.9907123053191552e-05,
+      "loss": 0.9666,
+      "step": 11550
+    },
+    {
+      "epoch": 1.1175252269826361,
+      "grad_norm": 0.027991535142064095,
+      "learning_rate": 1.990424345889393e-05,
+      "loss": 0.9641,
+      "step": 11600
+    },
+    {
+      "epoch": 1.122341834645859,
+      "grad_norm": 0.02564748004078865,
+      "learning_rate": 1.9901320118118396e-05,
+      "loss": 0.9743,
+      "step": 11650
+    },
+    {
+      "epoch": 1.1271584423090817,
+      "grad_norm": 0.02555004321038723,
+      "learning_rate": 1.9898353043777184e-05,
+      "loss": 0.9721,
+      "step": 11700
+    },
+    {
+      "epoch": 1.1319750499723045,
+      "grad_norm": 0.02131088450551033,
+      "learning_rate": 1.989534224897569e-05,
+      "loss": 0.9758,
+      "step": 11750
+    },
+    {
+      "epoch": 1.1367916576355273,
+      "grad_norm": 0.026900706812739372,
+      "learning_rate": 1.9892287747012424e-05,
+      "loss": 0.9724,
+      "step": 11800
+    },
+    {
+      "epoch": 1.14160826529875,
+      "grad_norm": 0.029474128037691116,
+      "learning_rate": 1.9889189551378946e-05,
+      "loss": 0.9713,
+      "step": 11850
+    },
+    {
+      "epoch": 1.1464248729619728,
+      "grad_norm": 0.024047445505857468,
+      "learning_rate": 1.9886047675759806e-05,
+      "loss": 0.9717,
+      "step": 11900
+    },
+    {
+      "epoch": 1.1512414806251956,
+      "grad_norm": 0.03356277942657471,
+      "learning_rate": 1.9882862134032496e-05,
+      "loss": 0.9677,
+      "step": 11950
+    },
+    {
+      "epoch": 1.1560580882884184,
+      "grad_norm": 0.021987082436680794,
+      "learning_rate": 1.9879632940267367e-05,
+      "loss": 0.9694,
+      "step": 12000
+    },
+    {
+      "epoch": 1.1608746959516412,
+      "grad_norm": 0.02819712460041046,
+      "learning_rate": 1.9876360108727587e-05,
+      "loss": 0.9698,
+      "step": 12050
+    },
+    {
+      "epoch": 1.1656913036148642,
+      "grad_norm": 0.025663986802101135,
+      "learning_rate": 1.987304365386906e-05,
+      "loss": 0.9644,
+      "step": 12100
+    },
+    {
+      "epoch": 1.170507911278087,
+      "grad_norm": 0.027840405702590942,
+      "learning_rate": 1.986975121888025e-05,
+      "loss": 0.9697,
+      "step": 12150
+    },
+    {
+      "epoch": 1.1753245189413097,
+      "grad_norm": 0.027610784396529198,
+      "learning_rate": 1.986634843325252e-05,
+      "loss": 0.9714,
+      "step": 12200
+    },
+    {
+      "epoch": 1.1801411266045325,
+      "grad_norm": 0.0255660992115736,
+      "learning_rate": 1.9862902068527047e-05,
+      "loss": 0.9686,
+      "step": 12250
+    },
+    {
+      "epoch": 1.1849577342677553,
+      "grad_norm": 0.02563071809709072,
+      "learning_rate": 1.9859412139926226e-05,
+      "loss": 0.9772,
+      "step": 12300
+    },
+    {
+      "epoch": 1.189774341930978,
+      "grad_norm": 0.02713589556515217,
+      "learning_rate": 1.985587866286487e-05,
+      "loss": 0.9657,
+      "step": 12350
+    },
+    {
+      "epoch": 1.1945909495942009,
+      "grad_norm": 0.022765563800930977,
+      "learning_rate": 1.9852301652950153e-05,
+      "loss": 0.9735,
+      "step": 12400
+    },
+    {
+      "epoch": 1.1994075572574237,
+      "grad_norm": 0.02689959481358528,
+      "learning_rate": 1.9848681125981514e-05,
+      "loss": 0.9649,
+      "step": 12450
+    },
+    {
+      "epoch": 1.2042241649206464,
+      "grad_norm": 0.028635011985898018,
+      "learning_rate": 1.984501709795062e-05,
+      "loss": 0.9735,
+      "step": 12500
+    },
+    {
+      "epoch": 1.2090407725838692,
+      "grad_norm": 0.02618209645152092,
+      "learning_rate": 1.984130958504127e-05,
+      "loss": 0.9681,
+      "step": 12550
+    },
+    {
+      "epoch": 1.213857380247092,
+      "grad_norm": 0.03409925475716591,
+      "learning_rate": 1.9837558603629342e-05,
+      "loss": 0.9673,
+      "step": 12600
+    },
+    {
+      "epoch": 1.2186739879103148,
+      "grad_norm": 0.024016890674829483,
+      "learning_rate": 1.98337641702827e-05,
+      "loss": 0.9714,
+      "step": 12650
+    },
+    {
+      "epoch": 1.2234905955735376,
+      "grad_norm": 0.02566283568739891,
+      "learning_rate": 1.9829926301761148e-05,
+      "loss": 0.9637,
+      "step": 12700
+    },
+    {
+      "epoch": 1.2283072032367603,
+      "grad_norm": 0.030937056988477707,
+      "learning_rate": 1.9826045015016325e-05,
+      "loss": 0.9638,
+      "step": 12750
+    },
+    {
+      "epoch": 1.2331238108999831,
+      "grad_norm": 0.024775423109531403,
+      "learning_rate": 1.9822120327191656e-05,
+      "loss": 0.9745,
+      "step": 12800
+    },
+    {
+      "epoch": 1.237940418563206,
+      "grad_norm": 0.029670532792806625,
+      "learning_rate": 1.981815225562226e-05,
+      "loss": 0.973,
+      "step": 12850
+    },
+    {
+      "epoch": 1.2427570262264287,
+      "grad_norm": 0.03619584068655968,
+      "learning_rate": 1.9814140817834885e-05,
+      "loss": 0.9683,
+      "step": 12900
+    },
+    {
+      "epoch": 1.2475736338896515,
+      "grad_norm": 0.02621552161872387,
+      "learning_rate": 1.9810086031547824e-05,
+      "loss": 0.9757,
+      "step": 12950
+    },
+    {
+      "epoch": 1.2523902415528743,
+      "grad_norm": 0.029616640880703926,
+      "learning_rate": 1.9805987914670836e-05,
+      "loss": 0.9745,
+      "step": 13000
+    },
+    {
+      "epoch": 1.257206849216097,
+      "grad_norm": 0.03276960924267769,
+      "learning_rate": 1.9801846485305067e-05,
+      "loss": 0.9687,
+      "step": 13050
+    },
+    {
+      "epoch": 1.2620234568793198,
+      "grad_norm": 0.02453836239874363,
+      "learning_rate": 1.9797661761742976e-05,
+      "loss": 0.9741,
+      "step": 13100
+    },
+    {
+      "epoch": 1.2668400645425426,
+      "grad_norm": 0.028019757941365242,
+      "learning_rate": 1.9793433762468247e-05,
+      "loss": 0.9687,
+      "step": 13150
+    },
+    {
+      "epoch": 1.2716566722057654,
+      "grad_norm": 0.03742435574531555,
+      "learning_rate": 1.978916250615571e-05,
+      "loss": 0.9729,
+      "step": 13200
+    },
+    {
+      "epoch": 1.2764732798689882,
+      "grad_norm": 0.030632615089416504,
+      "learning_rate": 1.9784848011671266e-05,
+      "loss": 0.9694,
+      "step": 13250
+    },
+    {
+      "epoch": 1.281289887532211,
+      "grad_norm": 0.029843851923942566,
+      "learning_rate": 1.9780490298071783e-05,
+      "loss": 0.9681,
+      "step": 13300
+    },
+    {
+      "epoch": 1.2861064951954337,
+      "grad_norm": 0.030314400792121887,
+      "learning_rate": 1.9776089384605042e-05,
+      "loss": 0.9685,
+      "step": 13350
+    },
+    {
+      "epoch": 1.2909231028586565,
+      "grad_norm": 0.03156287223100662,
+      "learning_rate": 1.9771645290709617e-05,
+      "loss": 0.9706,
+      "step": 13400
+    },
+    {
+      "epoch": 1.2957397105218793,
+      "grad_norm": 0.023538535460829735,
+      "learning_rate": 1.9767158036014826e-05,
+      "loss": 0.9758,
+      "step": 13450
+    },
+    {
+      "epoch": 1.3005563181851023,
+      "grad_norm": 0.024605972692370415,
+      "learning_rate": 1.9762627640340608e-05,
+      "loss": 0.9701,
+      "step": 13500
+    },
+    {
+      "epoch": 1.305372925848325,
+      "grad_norm": 0.030106617137789726,
+      "learning_rate": 1.975805412369747e-05,
+      "loss": 0.9636,
+      "step": 13550
+    },
+    {
+      "epoch": 1.3101895335115479,
+      "grad_norm": 0.026056772097945213,
+      "learning_rate": 1.975343750628637e-05,
+      "loss": 0.9737,
+      "step": 13600
+    },
+    {
+      "epoch": 1.3150061411747707,
+      "grad_norm": 0.028378983959555626,
+      "learning_rate": 1.9748777808498644e-05,
+      "loss": 0.9746,
+      "step": 13650
+    },
+    {
+      "epoch": 1.3198227488379934,
+      "grad_norm": 0.034412529319524765,
+      "learning_rate": 1.974407505091591e-05,
+      "loss": 0.9743,
+      "step": 13700
+    },
+    {
+      "epoch": 1.3246393565012162,
+      "grad_norm": 0.031644053757190704,
+      "learning_rate": 1.973932925430998e-05,
+      "loss": 0.9732,
+      "step": 13750
+    },
+    {
+      "epoch": 1.329455964164439,
+      "grad_norm": 0.02847512625157833,
+      "learning_rate": 1.973454043964277e-05,
+      "loss": 0.9652,
+      "step": 13800
+    },
+    {
+      "epoch": 1.3342725718276618,
+      "grad_norm": 0.0374007448554039,
+      "learning_rate": 1.9729708628066196e-05,
+      "loss": 0.9692,
+      "step": 13850
+    },
+    {
+      "epoch": 1.3390891794908846,
+      "grad_norm": 0.025235909968614578,
+      "learning_rate": 1.9724833840922097e-05,
+      "loss": 0.9685,
+      "step": 13900
+    },
+    {
+      "epoch": 1.3439057871541074,
+      "grad_norm": 0.025667540729045868,
+      "learning_rate": 1.9719916099742132e-05,
+      "loss": 0.9723,
+      "step": 13950
+    },
+    {
+      "epoch": 1.3487223948173301,
+      "grad_norm": 0.023921718820929527,
+      "learning_rate": 1.9714955426247678e-05,
+      "loss": 0.9662,
+      "step": 14000
+    },
+    {
+      "epoch": 1.353539002480553,
+      "grad_norm": 0.02556893602013588,
+      "learning_rate": 1.9709951842349748e-05,
+      "loss": 0.9741,
+      "step": 14050
+    },
+    {
+      "epoch": 1.3583556101437757,
+      "grad_norm": 0.026045670732855797,
+      "learning_rate": 1.9704905370148887e-05,
+      "loss": 0.9624,
+      "step": 14100
+    },
+    {
+      "epoch": 1.3631722178069985,
+      "grad_norm": 0.023858319967985153,
+      "learning_rate": 1.9699816031935074e-05,
+      "loss": 0.9674,
+      "step": 14150
+    },
+    {
+      "epoch": 1.3679888254702213,
+      "grad_norm": 0.0322500616312027,
+      "learning_rate": 1.9694786913542897e-05,
+      "loss": 0.977,
+      "step": 14200
+    },
+    {
+      "epoch": 1.372805433133444,
+      "grad_norm": 0.03224671259522438,
+      "learning_rate": 1.9689612767124294e-05,
+      "loss": 0.9689,
+      "step": 14250
+    },
+    {
+      "epoch": 1.3776220407966668,
+      "grad_norm": 0.03843426704406738,
+      "learning_rate": 1.9684395822239297e-05,
+      "loss": 0.9752,
+      "step": 14300
+    },
+    {
+      "epoch": 1.3824386484598896,
+      "grad_norm": 0.026064148172736168,
+      "learning_rate": 1.9679136101930848e-05,
+      "loss": 0.9778,
+      "step": 14350
+    },
+    {
+      "epoch": 1.3872552561231126,
+      "grad_norm": 0.025711484253406525,
+      "learning_rate": 1.9673833629430832e-05,
+      "loss": 0.9689,
+      "step": 14400
+    },
+    {
+      "epoch": 1.3920718637863354,
+      "grad_norm": 0.0261895302683115,
+      "learning_rate": 1.9668488428159973e-05,
+      "loss": 0.9644,
+      "step": 14450
+    },
+    {
+      "epoch": 1.3968884714495582,
+      "grad_norm": 0.03175192326307297,
+      "learning_rate": 1.9663100521727716e-05,
+      "loss": 0.9691,
+      "step": 14500
+    },
+    {
+      "epoch": 1.401705079112781,
+      "grad_norm": 0.03027217462658882,
+      "learning_rate": 1.9657669933932136e-05,
+      "loss": 0.971,
+      "step": 14550
+    },
+    {
+      "epoch": 1.4065216867760038,
+      "grad_norm": 0.024579547345638275,
+      "learning_rate": 1.9652196688759827e-05,
+      "loss": 0.9703,
+      "step": 14600
+    },
+    {
+      "epoch": 1.4113382944392265,
+      "grad_norm": 0.028914442285895348,
+      "learning_rate": 1.9646680810385804e-05,
+      "loss": 0.9674,
+      "step": 14650
+    },
+    {
+      "epoch": 1.4161549021024493,
+      "grad_norm": 0.03456846624612808,
+      "learning_rate": 1.964112232317339e-05,
+      "loss": 0.9781,
+      "step": 14700
+    },
+    {
+      "epoch": 1.420971509765672,
+      "grad_norm": 0.028025124222040176,
+      "learning_rate": 1.9635521251674098e-05,
+      "loss": 0.9707,
+      "step": 14750
+    },
+    {
+      "epoch": 1.4257881174288949,
+      "grad_norm": 0.05355874449014664,
+      "learning_rate": 1.9629877620627546e-05,
+      "loss": 0.9692,
+      "step": 14800
+    },
+    {
+      "epoch": 1.4306047250921177,
+      "grad_norm": 0.03182777762413025,
+      "learning_rate": 1.9624191454961325e-05,
+      "loss": 0.9711,
+      "step": 14850
+    },
+    {
+      "epoch": 1.4354213327553405,
+      "grad_norm": 0.05597613751888275,
+      "learning_rate": 1.961846277979091e-05,
+      "loss": 0.9683,
+      "step": 14900
+    },
+    {
+      "epoch": 1.4402379404185632,
+      "grad_norm": 0.030285140499472618,
+      "learning_rate": 1.961269162041953e-05,
+      "loss": 0.9732,
+      "step": 14950
+    },
+    {
+      "epoch": 1.445054548081786,
+      "grad_norm": 0.03114873729646206,
+      "learning_rate": 1.960687800233807e-05,
+      "loss": 0.9725,
+      "step": 15000
+    },
+    {
+      "epoch": 1.4498711557450088,
+      "grad_norm": 0.03588712215423584,
+      "learning_rate": 1.9601021951224944e-05,
+      "loss": 0.9719,
+      "step": 15050
+    },
+    {
+      "epoch": 1.4546877634082316,
+      "grad_norm": 0.030071932822465897,
+      "learning_rate": 1.9595123492945993e-05,
+      "loss": 0.969,
+      "step": 15100
+    },
+    {
+      "epoch": 1.4595043710714544,
+      "grad_norm": 0.027533281594514847,
+      "learning_rate": 1.958918265355438e-05,
+      "loss": 0.9661,
+      "step": 15150
+    },
+    {
+      "epoch": 1.4643209787346771,
+      "grad_norm": 0.0330142118036747,
+      "learning_rate": 1.9583199459290446e-05,
+      "loss": 0.965,
+      "step": 15200
+    },
+    {
+      "epoch": 1.4691375863979,
+      "grad_norm": 0.022118212655186653,
+      "learning_rate": 1.957717393658162e-05,
+      "loss": 0.9664,
+      "step": 15250
+    },
+    {
+      "epoch": 1.4739541940611227,
+      "grad_norm": 0.032654423266649246,
+      "learning_rate": 1.957110611204229e-05,
+      "loss": 0.9715,
+      "step": 15300
+    },
+    {
+      "epoch": 1.4787708017243455,
+      "grad_norm": 0.02691168710589409,
+      "learning_rate": 1.9564996012473694e-05,
+      "loss": 0.9706,
+      "step": 15350
+    },
+    {
+      "epoch": 1.4835874093875683,
+      "grad_norm": 0.03887908160686493,
+      "learning_rate": 1.9558843664863795e-05,
+      "loss": 0.9662,
+      "step": 15400
+    },
+    {
+      "epoch": 1.488404017050791,
+      "grad_norm": 0.0344851128757,
+      "learning_rate": 1.9552649096387153e-05,
+      "loss": 0.9761,
+      "step": 15450
+    },
+    {
+      "epoch": 1.4932206247140138,
+      "grad_norm": 0.03265225887298584,
+      "learning_rate": 1.9546412334404832e-05,
+      "loss": 0.9681,
+      "step": 15500
+    },
+    {
+      "epoch": 1.4980372323772366,
+      "grad_norm": 0.029123323038220406,
+      "learning_rate": 1.9540133406464247e-05,
+      "loss": 0.9651,
+      "step": 15550
+    },
+    {
+      "epoch": 1.5028538400404594,
+      "grad_norm": 0.02822013758122921,
+      "learning_rate": 1.953381234029907e-05,
+      "loss": 0.9673,
+      "step": 15600
+    },
+    {
+      "epoch": 1.5076704477036822,
+      "grad_norm": 0.02857852540910244,
+      "learning_rate": 1.9527449163829084e-05,
+      "loss": 0.9684,
+      "step": 15650
+    },
+    {
+      "epoch": 1.512487055366905,
+      "grad_norm": 0.027361080050468445,
+      "learning_rate": 1.952104390516008e-05,
+      "loss": 0.9711,
+      "step": 15700
+    },
+    {
+      "epoch": 1.5173036630301278,
+      "grad_norm": 0.03336118161678314,
+      "learning_rate": 1.9514596592583718e-05,
+      "loss": 0.9661,
+      "step": 15750
+    },
+    {
+      "epoch": 1.5221202706933505,
+      "grad_norm": 0.033473215997219086,
+      "learning_rate": 1.950810725457741e-05,
+      "loss": 0.9759,
+      "step": 15800
+    },
+    {
+      "epoch": 1.5269368783565733,
+      "grad_norm": 0.030235016718506813,
+      "learning_rate": 1.9501575919804192e-05,
+      "loss": 0.9744,
+      "step": 15850
+    },
+    {
+      "epoch": 1.531753486019796,
+      "grad_norm": 0.035084497183561325,
+      "learning_rate": 1.9495002617112594e-05,
+      "loss": 0.9684,
+      "step": 15900
+    },
+    {
+      "epoch": 1.536570093683019,
+      "grad_norm": 0.036444876343011856,
+      "learning_rate": 1.9488387375536525e-05,
+      "loss": 0.9733,
+      "step": 15950
+    },
+    {
+      "epoch": 1.541386701346242,
+      "grad_norm": 0.03955389931797981,
+      "learning_rate": 1.9481730224295123e-05,
+      "loss": 0.9702,
+      "step": 16000
+    },
+    {
+      "epoch": 1.5462033090094647,
+      "grad_norm": 0.03296295925974846,
+      "learning_rate": 1.9475031192792648e-05,
+      "loss": 0.9719,
+      "step": 16050
+    },
+    {
+      "epoch": 1.5510199166726875,
+      "grad_norm": 0.0423264279961586,
+      "learning_rate": 1.946829031061834e-05,
+      "loss": 0.9738,
+      "step": 16100
+    },
+    {
+      "epoch": 1.5558365243359102,
+      "grad_norm": 0.028733521699905396,
+      "learning_rate": 1.9461507607546286e-05,
+      "loss": 0.9709,
+      "step": 16150
+    },
+    {
+      "epoch": 1.560653131999133,
+      "grad_norm": 0.024974407628178596,
+      "learning_rate": 1.9454683113535306e-05,
+      "loss": 0.9722,
+      "step": 16200
+    },
+    {
+      "epoch": 1.5654697396623558,
+      "grad_norm": 0.035207174718379974,
+      "learning_rate": 1.9447816858728793e-05,
+      "loss": 0.9691,
+      "step": 16250
+    },
+    {
+      "epoch": 1.5702863473255786,
+      "grad_norm": 0.029747210443019867,
+      "learning_rate": 1.9441047441921626e-05,
+      "loss": 0.9738,
+      "step": 16300
+    },
+    {
+      "epoch": 1.5751029549888014,
+      "grad_norm": 0.024529732763767242,
+      "learning_rate": 1.9434098590390843e-05,
+      "loss": 0.975,
+      "step": 16350
+    },
+    {
+      "epoch": 1.5799195626520242,
+      "grad_norm": 0.03319941461086273,
+      "learning_rate": 1.9427108068985197e-05,
+      "loss": 0.9789,
+      "step": 16400
+    },
+    {
+      "epoch": 1.584736170315247,
+      "grad_norm": 0.03864700347185135,
+      "learning_rate": 1.9420075908581416e-05,
+      "loss": 0.9652,
+      "step": 16450
+    },
+    {
+      "epoch": 1.5895527779784697,
+      "grad_norm": 0.03296511247754097,
+      "learning_rate": 1.9413002140240153e-05,
+      "loss": 0.9644,
+      "step": 16500
+    },
+    {
+      "epoch": 1.5943693856416925,
+      "grad_norm": 0.031712450087070465,
+      "learning_rate": 1.940588679520584e-05,
+      "loss": 0.969,
+      "step": 16550
+    },
+    {
+      "epoch": 1.5991859933049155,
+      "grad_norm": 0.028867822140455246,
+      "learning_rate": 1.939872990490655e-05,
+      "loss": 0.9658,
+      "step": 16600
+    },
+    {
+      "epoch": 1.6040026009681383,
+      "grad_norm": 0.03712575510144234,
+      "learning_rate": 1.9391531500953856e-05,
+      "loss": 0.9723,
+      "step": 16650
+    },
+    {
+      "epoch": 1.608819208631361,
+      "grad_norm": 0.03416059911251068,
+      "learning_rate": 1.9384291615142705e-05,
+      "loss": 0.9689,
+      "step": 16700
+    },
+    {
+      "epoch": 1.6136358162945839,
+      "grad_norm": 0.028371134772896767,
+      "learning_rate": 1.9377010279451248e-05,
+      "loss": 0.9641,
+      "step": 16750
+    },
+    {
+      "epoch": 1.6184524239578066,
+      "grad_norm": 0.02121553383767605,
+      "learning_rate": 1.9369687526040738e-05,
+      "loss": 0.973,
+      "step": 16800
+    },
+    {
+      "epoch": 1.6232690316210294,
+      "grad_norm": 0.035169586539268494,
+      "learning_rate": 1.9362323387255358e-05,
+      "loss": 0.9699,
+      "step": 16850
+    },
+    {
+      "epoch": 1.6280856392842522,
+      "grad_norm": 0.04021048918366432,
+      "learning_rate": 1.9354917895622084e-05,
+      "loss": 0.9658,
+      "step": 16900
+    },
+    {
+      "epoch": 1.632902246947475,
+      "grad_norm": 0.030784184113144875,
+      "learning_rate": 1.934747108385055e-05,
+      "loss": 0.9712,
+      "step": 16950
+    },
+    {
+      "epoch": 1.6377188546106978,
+      "grad_norm": 0.028953375294804573,
+      "learning_rate": 1.9339982984832904e-05,
+      "loss": 0.9745,
+      "step": 17000
+    },
+    {
+      "epoch": 1.6425354622739206,
+      "grad_norm": 0.02870544232428074,
+      "learning_rate": 1.933245363164365e-05,
+      "loss": 0.9662,
+      "step": 17050
+    },
+    {
+      "epoch": 1.6473520699371433,
+      "grad_norm": 0.03799861669540405,
+      "learning_rate": 1.9324883057539506e-05,
+      "loss": 0.9625,
+      "step": 17100
+    },
+    {
+      "epoch": 1.6521686776003661,
+      "grad_norm": 0.03466878831386566,
+      "learning_rate": 1.931727129595927e-05,
+      "loss": 0.9705,
+      "step": 17150
+    },
+    {
+      "epoch": 1.656985285263589,
+      "grad_norm": 0.026363851502537727,
+      "learning_rate": 1.930961838052366e-05,
+      "loss": 0.9743,
+      "step": 17200
+    },
+    {
+      "epoch": 1.6618018929268117,
+      "grad_norm": 0.03705060854554176,
+      "learning_rate": 1.9301924345035162e-05,
+      "loss": 0.9737,
+      "step": 17250
+    },
+    {
+      "epoch": 1.6666185005900345,
+      "grad_norm": 0.03183252364397049,
+      "learning_rate": 1.9294189223477895e-05,
+      "loss": 0.9645,
+      "step": 17300
+    },
+    {
+      "epoch": 1.6714351082532573,
+      "grad_norm": 0.030151918530464172,
+      "learning_rate": 1.9286413050017446e-05,
+      "loss": 0.9818,
+      "step": 17350
+    },
+    {
+      "epoch": 1.67625171591648,
+      "grad_norm": 0.03267509490251541,
+      "learning_rate": 1.9278595859000732e-05,
+      "loss": 0.9684,
+      "step": 17400
+    },
+    {
+      "epoch": 1.6810683235797028,
+      "grad_norm": 0.04097314551472664,
+      "learning_rate": 1.9270737684955842e-05,
+      "loss": 0.9747,
+      "step": 17450
+    },
+    {
+      "epoch": 1.6858849312429256,
+      "grad_norm": 0.03502653166651726,
+      "learning_rate": 1.9262838562591876e-05,
+      "loss": 0.9684,
+      "step": 17500
+    },
+    {
+      "epoch": 1.6907015389061484,
+      "grad_norm": 0.03247523680329323,
+      "learning_rate": 1.9254898526798808e-05,
+      "loss": 0.9849,
+      "step": 17550
+    },
+    {
+      "epoch": 1.6955181465693712,
+      "grad_norm": 0.04047703742980957,
+      "learning_rate": 1.9246917612647323e-05,
+      "loss": 0.9644,
+      "step": 17600
+    },
+    {
+      "epoch": 1.700334754232594,
+      "grad_norm": 0.029567096382379532,
+      "learning_rate": 1.923889585538867e-05,
+      "loss": 0.969,
+      "step": 17650
+    },
+    {
+      "epoch": 1.7051513618958167,
+      "grad_norm": 0.027141790837049484,
+      "learning_rate": 1.923083329045448e-05,
+      "loss": 0.9689,
+      "step": 17700
+    },
+    {
+      "epoch": 1.7099679695590395,
+      "grad_norm": 0.03246340900659561,
+      "learning_rate": 1.9222729953456654e-05,
+      "loss": 0.9736,
+      "step": 17750
+    },
+    {
+      "epoch": 1.7147845772222623,
+      "grad_norm": 0.03585787117481232,
+      "learning_rate": 1.921458588018716e-05,
+      "loss": 0.9723,
+      "step": 17800
+    },
+    {
+      "epoch": 1.719601184885485,
+      "grad_norm": 0.032114990055561066,
+      "learning_rate": 1.920640110661791e-05,
+      "loss": 0.967,
+      "step": 17850
+    },
+    {
+      "epoch": 1.7244177925487079,
+      "grad_norm": 0.029773587360978127,
+      "learning_rate": 1.9198175668900584e-05,
+      "loss": 0.9743,
+      "step": 17900
+    },
+    {
+      "epoch": 1.7292344002119306,
+      "grad_norm": 0.04874695837497711,
+      "learning_rate": 1.9189909603366463e-05,
+      "loss": 0.9672,
+      "step": 17950
+    },
+    {
+      "epoch": 1.7340510078751534,
+      "grad_norm": 0.03545283526182175,
+      "learning_rate": 1.9181769477220878e-05,
+      "loss": 0.9682,
+      "step": 18000
+    },
+    {
+      "epoch": 1.7388676155383762,
+      "grad_norm": 0.03573315218091011,
+      "learning_rate": 1.9173423076496282e-05,
+      "loss": 0.9683,
+      "step": 18050
+    },
+    {
+      "epoch": 1.743684223201599,
+      "grad_norm": 0.03943735361099243,
+      "learning_rate": 1.9165036157285686e-05,
+      "loss": 0.9744,
+      "step": 18100
+    },
+    {
+      "epoch": 1.7485008308648218,
+      "grad_norm": 0.036090608686208725,
+      "learning_rate": 1.9156608756633628e-05,
+      "loss": 0.9676,
+      "step": 18150
+    },
+    {
+      "epoch": 1.7533174385280446,
+      "grad_norm": 0.02353888936340809,
+      "learning_rate": 1.9148140911763456e-05,
+      "loss": 0.9681,
+      "step": 18200
+    },
+    {
+      "epoch": 1.7581340461912673,
+      "grad_norm": 0.03864511474967003,
+      "learning_rate": 1.913963266007716e-05,
+      "loss": 0.9727,
+      "step": 18250
+    },
+    {
+      "epoch": 1.7629506538544901,
+      "grad_norm": 0.038263238966464996,
+      "learning_rate": 1.91310840391552e-05,
+      "loss": 0.9667,
+      "step": 18300
+    },
+    {
+      "epoch": 1.7677672615177131,
+      "grad_norm": 0.03713950514793396,
+      "learning_rate": 1.912249508675635e-05,
+      "loss": 0.9718,
+      "step": 18350
+    },
+    {
+      "epoch": 1.772583869180936,
+      "grad_norm": 0.03242368623614311,
+      "learning_rate": 1.9113865840817515e-05,
+      "loss": 0.9719,
+      "step": 18400
+    },
+    {
+      "epoch": 1.7774004768441587,
+      "grad_norm": 0.027840277180075645,
+      "learning_rate": 1.9105196339453587e-05,
+      "loss": 0.9692,
+      "step": 18450
+    },
+    {
+      "epoch": 1.7822170845073815,
+      "grad_norm": 0.03802412003278732,
+      "learning_rate": 1.9096486620957256e-05,
+      "loss": 0.9659,
+      "step": 18500
+    },
+    {
+      "epoch": 1.7870336921706043,
+      "grad_norm": 0.02906882017850876,
+      "learning_rate": 1.9087736723798858e-05,
+      "loss": 0.975,
+      "step": 18550
+    },
+    {
+      "epoch": 1.791850299833827,
+      "grad_norm": 0.044180627912282944,
+      "learning_rate": 1.907894668662618e-05,
+      "loss": 0.9642,
+      "step": 18600
+    },
+    {
+      "epoch": 1.7966669074970498,
+      "grad_norm": 0.03528657183051109,
+      "learning_rate": 1.9070116548264324e-05,
+      "loss": 0.9611,
+      "step": 18650
+    },
+    {
+      "epoch": 1.8014835151602726,
+      "grad_norm": 0.0406530499458313,
+      "learning_rate": 1.9061246347715497e-05,
+      "loss": 0.9736,
+      "step": 18700
+    },
+    {
+      "epoch": 1.8063001228234954,
+      "grad_norm": 0.051499903202056885,
+      "learning_rate": 1.9052336124158878e-05,
+      "loss": 0.9684,
+      "step": 18750
+    },
+    {
+      "epoch": 1.8111167304867182,
+      "grad_norm": 0.04132218286395073,
+      "learning_rate": 1.9043385916950408e-05,
+      "loss": 0.9712,
+      "step": 18800
+    },
+    {
+      "epoch": 1.815933338149941,
+      "grad_norm": 0.04125228524208069,
+      "learning_rate": 1.9034395765622644e-05,
+      "loss": 0.9702,
+      "step": 18850
+    },
+    {
+      "epoch": 1.8207499458131637,
+      "grad_norm": 0.039924681186676025,
+      "learning_rate": 1.902536570988457e-05,
+      "loss": 0.967,
+      "step": 18900
+    },
+    {
+      "epoch": 1.8255665534763867,
+      "grad_norm": 0.03247521445155144,
+      "learning_rate": 1.901629578962143e-05,
+      "loss": 0.9733,
+      "step": 18950
+    },
+    {
+      "epoch": 1.8303831611396095,
+      "grad_norm": 0.0357697531580925,
+      "learning_rate": 1.900718604489454e-05,
+      "loss": 0.973,
+      "step": 19000
+    },
+    {
+      "epoch": 1.8351997688028323,
+      "grad_norm": 0.038057841360569,
+      "learning_rate": 1.8998036515941126e-05,
+      "loss": 0.968,
+      "step": 19050
+    },
+    {
+      "epoch": 1.840016376466055,
+      "grad_norm": 0.04882153868675232,
+      "learning_rate": 1.8988847243174132e-05,
+      "loss": 0.9756,
+      "step": 19100
+    },
+    {
+      "epoch": 1.8448329841292779,
+      "grad_norm": 0.04649386182427406,
+      "learning_rate": 1.8979618267182055e-05,
+      "loss": 0.9686,
+      "step": 19150
+    },
+    {
+      "epoch": 1.8496495917925007,
+      "grad_norm": 0.03845987841486931,
+      "learning_rate": 1.897034962872875e-05,
+      "loss": 0.9759,
+      "step": 19200
+    },
+    {
+      "epoch": 1.8544661994557234,
+      "grad_norm": 0.028005842119455338,
+      "learning_rate": 1.8961041368753265e-05,
+      "loss": 0.972,
+      "step": 19250
+    },
+    {
+      "epoch": 1.8592828071189462,
+      "grad_norm": 0.04040095955133438,
+      "learning_rate": 1.8951693528369657e-05,
+      "loss": 0.9795,
+      "step": 19300
+    },
+    {
+      "epoch": 1.864099414782169,
+      "grad_norm": 0.0448676161468029,
+      "learning_rate": 1.8942306148866802e-05,
+      "loss": 0.9744,
+      "step": 19350
+    },
+    {
+      "epoch": 1.8689160224453918,
+      "grad_norm": 0.033535186201334,
+      "learning_rate": 1.8932879271708216e-05,
+      "loss": 0.9687,
+      "step": 19400
+    },
+    {
+      "epoch": 1.8737326301086146,
+      "grad_norm": 0.04124687612056732,
+      "learning_rate": 1.8923412938531877e-05,
+      "loss": 0.975,
+      "step": 19450
+    },
+    {
+      "epoch": 1.8785492377718374,
+      "grad_norm": 0.03508332371711731,
+      "learning_rate": 1.8913907191150045e-05,
+      "loss": 0.9701,
+      "step": 19500
+    },
+    {
+      "epoch": 1.8833658454350601,
+      "grad_norm": 0.030656304210424423,
+      "learning_rate": 1.8904362071549057e-05,
+      "loss": 0.9719,
+      "step": 19550
+    },
+    {
+      "epoch": 1.888182453098283,
+      "grad_norm": 0.04930535703897476,
+      "learning_rate": 1.8894777621889162e-05,
+      "loss": 0.9682,
+      "step": 19600
+    },
+    {
+      "epoch": 1.8929990607615057,
+      "grad_norm": 0.047555629163980484,
+      "learning_rate": 1.8885153884504328e-05,
+      "loss": 0.9713,
+      "step": 19650
+    },
+    {
+      "epoch": 1.8978156684247285,
+      "grad_norm": 0.037693556398153305,
+      "learning_rate": 1.8875490901902056e-05,
+      "loss": 0.9657,
+      "step": 19700
+    },
+    {
+      "epoch": 1.9026322760879513,
+      "grad_norm": 0.0341501459479332,
+      "learning_rate": 1.8865788716763185e-05,
+      "loss": 0.9659,
+      "step": 19750
+    },
+    {
+      "epoch": 1.907448883751174,
+      "grad_norm": 0.03856112062931061,
+      "learning_rate": 1.8856047371941714e-05,
+      "loss": 0.9741,
+      "step": 19800
+    },
+    {
+      "epoch": 1.9122654914143968,
+      "grad_norm": 0.03828900679945946,
+      "learning_rate": 1.8846266910464605e-05,
+      "loss": 0.9684,
+      "step": 19850
+    },
+    {
+      "epoch": 1.9170820990776196,
+      "grad_norm": 0.03888611122965813,
+      "learning_rate": 1.8836447375531603e-05,
+      "loss": 0.9655,
+      "step": 19900
+    },
+    {
+      "epoch": 1.9218987067408424,
+      "grad_norm": 0.03091917186975479,
+      "learning_rate": 1.882658881051503e-05,
+      "loss": 0.972,
+      "step": 19950
+    },
+    {
+      "epoch": 1.9267153144040652,
+      "grad_norm": 0.02642899379134178,
+      "learning_rate": 1.8816691258959603e-05,
+      "loss": 0.9623,
+      "step": 20000
+    },
+    {
+      "epoch": 1.931531922067288,
+      "grad_norm": 0.05221928656101227,
+      "learning_rate": 1.8806754764582244e-05,
+      "loss": 0.9632,
+      "step": 20050
+    },
+    {
+      "epoch": 1.9363485297305107,
+      "grad_norm": 0.029367584735155106,
+      "learning_rate": 1.8796779371271883e-05,
+      "loss": 0.9721,
+      "step": 20100
+    },
+    {
+      "epoch": 1.9411651373937335,
+      "grad_norm": 0.0352255254983902,
+      "learning_rate": 1.878676512308926e-05,
+      "loss": 0.9727,
+      "step": 20150
+    },
+    {
+      "epoch": 1.9459817450569563,
+      "grad_norm": 0.035805653780698776,
+      "learning_rate": 1.877671206426674e-05,
+      "loss": 0.9723,
+      "step": 20200
+    },
+    {
+      "epoch": 1.950798352720179,
+      "grad_norm": 0.030969569459557533,
+      "learning_rate": 1.876662023920811e-05,
+      "loss": 0.9723,
+      "step": 20250
+    },
+    {
+      "epoch": 1.9556149603834019,
+      "grad_norm": 0.03802033141255379,
+      "learning_rate": 1.875648969248838e-05,
+      "loss": 0.9739,
+      "step": 20300
+    },
+    {
+      "epoch": 1.9604315680466247,
+      "grad_norm": 0.03381386026740074,
+      "learning_rate": 1.8746320468853602e-05,
+      "loss": 0.9754,
+      "step": 20350
+    },
+    {
+      "epoch": 1.9652481757098474,
+      "grad_norm": 0.050473056733608246,
+      "learning_rate": 1.873631714863555e-05,
+      "loss": 0.9779,
+      "step": 20400
+    },
+    {
+      "epoch": 1.9700647833730702,
+      "grad_norm": 0.028497766703367233,
+      "learning_rate": 1.8726071477387204e-05,
+      "loss": 0.968,
+      "step": 20450
+    },
+    {
+      "epoch": 1.974881391036293,
+      "grad_norm": 0.03649654984474182,
+      "learning_rate": 1.8715787263579322e-05,
+      "loss": 0.9709,
+      "step": 20500
+    },
+    {
+      "epoch": 1.9796979986995158,
+      "grad_norm": 0.03871350362896919,
+      "learning_rate": 1.87054645526367e-05,
+      "loss": 0.9688,
+      "step": 20550
+    },
+    {
+      "epoch": 1.9845146063627386,
+      "grad_norm": 0.04097853973507881,
+      "learning_rate": 1.8695103390154155e-05,
+      "loss": 0.9715,
+      "step": 20600
+    },
+    {
+      "epoch": 1.9893312140259614,
+      "grad_norm": 0.04054868221282959,
+      "learning_rate": 1.8684703821896356e-05,
+      "loss": 0.9669,
+      "step": 20650
+    },
+    {
+      "epoch": 1.9941478216891841,
+      "grad_norm": 0.03923407196998596,
+      "learning_rate": 1.8674265893797595e-05,
+      "loss": 0.9654,
+      "step": 20700
+    },
+    {
+      "epoch": 1.9989644293524071,
+      "grad_norm": 0.03828323259949684,
+      "learning_rate": 1.866378965196161e-05,
+      "loss": 0.9691,
+      "step": 20750
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 20760,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.032348559679028e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-20760/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:daf4af21635e2a3d5153e5b199fe36a29ba0574d6cbf377a6c2c41dc1a46333f
+size 5304

config.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+  "_name_or_path": "./result/tabx",
+  "aligner_config": {
+    "cls": "MlpProjector",
+    "model_type": "aligner",
+    "params": {
+      "depth": 2,
+      "input_dim": 1024,
+      "n_embed": 4096,
+      "projector_type": "mlp_gelu"
+    }
+  },
+  "architectures": [
+    "EnhancedMultiModalModel"
+  ],
+  "gen_aligner_config": {
+    "cls": "MlpProjector",
+    "model_type": "gen_aligner",
+    "params": {
+      "depth": 2,
+      "input_dim": 8,
+      "n_embed": 4096,
+      "projector_type": "mlp_gelu"
+    }
+  },
+  "gen_head_config": {
+    "cls": "vision_head",
+    "model_type": "gen_head",
+    "params": {
+      "image_token_embed": 4096,
+      "image_token_size": 16384,
+      "n_embed": 4096
+    }
+  },
+  "gen_vision_config": {
+    "cls": "VQ-16",
+    "model_type": "gen_vision",
+    "params": {
+      "image_token_size": 16384,
+      "n_embed": 8
+    }
+  },
+  "language_config": {
+    "_attn_implementation_autoset": true,
+    "max_position_embeddings": 16384,
+    "model_type": "llama",
+    "num_hidden_layers": 30,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 102400
+  },
+  "model_type": "multi_modality",
+  "torch_dtype": "float16",
+  "transformers_version": "4.48.1",
+  "vision_config": {
+    "cls": "CLIPVisionTower",
+    "model_type": "vision",
+    "params": {
+      "image_size": 384,
+      "model_name": "siglip_large_patch16_384",
+      "select_feature": "same",
+      "select_layer": -1
+    }
+  }
+}

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e08cb25420cd273c585eb5074179228c7875e0c92e33d51115a84ece5ee20f8
+size 4916850806

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0d7d7a27c4b41cb20b12e5a0c123eeb3c7c1ca5cd815a61b7f3a99d383939a1
+size 4947392384

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf84efbe21b17d0d5a2e4c85b50b4e03471f67639103cb0ac9c43aa5d77f9782
+size 4976742512

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,943 @@

+{
+  "metadata": {
+    "total_size": 14840868118
+  },
+  "weight_map": {
+    "aligner.layers.0.bias": "model-00001-of-00003.safetensors",
+    "aligner.layers.0.weight": "model-00001-of-00003.safetensors",
+    "aligner.layers.2.bias": "model-00001-of-00003.safetensors",
+    "aligner.layers.2.weight": "model-00001-of-00003.safetensors",
+    "gen_aligner.layers.0.bias": "model-00001-of-00003.safetensors",
+    "gen_aligner.layers.0.weight": "model-00001-of-00003.safetensors",
+    "gen_aligner.layers.2.bias": "model-00001-of-00003.safetensors",
+    "gen_aligner.layers.2.weight": "model-00001-of-00003.safetensors",
+    "gen_embed.weight": "model-00001-of-00003.safetensors",
+    "gen_head.output_mlp_projector.bias": "model-00001-of-00003.safetensors",
+    "gen_head.output_mlp_projector.weight": "model-00001-of-00003.safetensors",
+    "gen_head.vision_head.bias": "model-00001-of-00003.safetensors",
+    "gen_head.vision_head.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.0.k.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.0.k.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.0.norm.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.0.norm.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.0.proj_out.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.0.proj_out.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.0.q.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.0.q.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.0.v.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.0.v.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.1.k.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.1.k.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.1.norm.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.1.norm.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.1.proj_out.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.1.proj_out.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.1.q.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.1.q.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.1.v.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.1.v.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.2.k.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.2.k.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.2.norm.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.2.norm.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.2.proj_out.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.2.proj_out.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.2.q.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.2.q.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.2.v.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.attn.2.v.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.0.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.0.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.0.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.0.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.0.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.0.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.1.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.1.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.1.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.1.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.1.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.1.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.1.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.1.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.2.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.2.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.2.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.2.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.2.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.2.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.2.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.res.2.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.upsample.conv.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.0.upsample.conv.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.0.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.0.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.0.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.0.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.0.nin_shortcut.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.0.nin_shortcut.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.0.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.0.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.1.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.1.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.1.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.1.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.1.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.1.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.1.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.1.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.2.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.2.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.2.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.2.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.2.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.2.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.2.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.res.2.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.upsample.conv.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.1.upsample.conv.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.0.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.0.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.0.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.0.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.0.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.0.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.1.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.1.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.1.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.1.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.1.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.1.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.1.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.1.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.2.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.2.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.2.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.2.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.2.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.2.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.2.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.res.2.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.upsample.conv.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.2.upsample.conv.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.0.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.0.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.0.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.0.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.0.nin_shortcut.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.0.nin_shortcut.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.0.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.0.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.1.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.1.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.1.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.1.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.1.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.1.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.1.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.1.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.2.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.2.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.2.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.2.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.2.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.2.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.2.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.res.2.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.upsample.conv.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.3.upsample.conv.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.0.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.0.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.0.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.0.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.0.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.0.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.1.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.1.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.1.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.1.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.1.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.1.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.1.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.1.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.2.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.2.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.2.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.2.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.2.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.2.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.2.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_blocks.4.res.2.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_in.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_in.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_out.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.conv_out.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.0.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.0.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.0.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.0.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.0.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.0.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.1.k.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.1.k.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.1.norm.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.1.norm.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.1.proj_out.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.1.proj_out.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.1.q.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.1.q.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.1.v.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.1.v.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.2.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.2.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.2.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.2.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.2.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.2.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.2.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.mid.2.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.norm_out.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.decoder.norm_out.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.downsample.conv.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.downsample.conv.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.0.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.0.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.0.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.0.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.0.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.0.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.1.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.1.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.1.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.1.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.1.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.1.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.1.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.0.res.1.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.downsample.conv.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.downsample.conv.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.0.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.0.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.0.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.0.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.0.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.0.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.1.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.1.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.1.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.1.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.1.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.1.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.1.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.1.res.1.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.downsample.conv.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.downsample.conv.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.0.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.0.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.0.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.0.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.0.nin_shortcut.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.0.nin_shortcut.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.0.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.0.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.1.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.1.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.1.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.1.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.1.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.1.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.1.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.2.res.1.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.downsample.conv.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.downsample.conv.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.0.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.0.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.0.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.0.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.0.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.0.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.1.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.1.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.1.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.1.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.1.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.1.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.1.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.3.res.1.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.0.k.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.0.k.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.0.norm.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.0.norm.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.0.proj_out.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.0.proj_out.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.0.q.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.0.q.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.0.v.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.0.v.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.1.k.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.1.k.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.1.norm.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.1.norm.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.1.proj_out.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.1.proj_out.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.1.q.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.1.q.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.1.v.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.attn.1.v.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.0.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.0.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.0.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.0.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.0.nin_shortcut.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.0.nin_shortcut.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.0.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.0.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.1.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.1.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.1.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.1.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.1.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.1.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.1.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_blocks.4.res.1.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_in.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_in.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_out.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.conv_out.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.0.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.0.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.0.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.0.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.0.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.0.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.1.k.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.1.k.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.1.norm.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.1.norm.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.1.proj_out.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.1.proj_out.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.1.q.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.1.q.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.1.v.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.1.v.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.2.conv1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.2.conv1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.2.conv2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.2.conv2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.2.norm1.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.2.norm1.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.2.norm2.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.mid.2.norm2.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.norm_out.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.encoder.norm_out.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.post_quant_conv.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.post_quant_conv.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.quant_conv.bias": "model-00001-of-00003.safetensors",
+    "gen_vision_model.quant_conv.weight": "model-00001-of-00003.safetensors",
+    "gen_vision_model.quantize.codebook_used": "model-00001-of-00003.safetensors",
+    "gen_vision_model.quantize.embedding.weight": "model-00001-of-00003.safetensors",
+    "language_model.lm_head.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.10.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.19.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.19.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.20.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.20.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.20.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.21.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.21.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.21.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.22.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.22.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.23.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.23.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.26.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.27.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.27.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.7.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.layers.8.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.8.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.8.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.9.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.9.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.norm.weight": "model-00003-of-00003.safetensors",
+    "vision_model.vision_tower.attn_pool.kv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.attn_pool.kv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.attn_pool.latent": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.attn_pool.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.attn_pool.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.attn_pool.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.attn_pool.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.attn_pool.norm.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.attn_pool.norm.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.attn_pool.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.attn_pool.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.attn_pool.q.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.attn_pool.q.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.0.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.0.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.0.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.0.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.0.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.0.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.0.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.0.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.0.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.0.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.1.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.1.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.1.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.1.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.1.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.1.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.1.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.1.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.1.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.1.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.1.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.1.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.10.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.10.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.10.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.10.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.10.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.10.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.10.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.10.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.10.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.10.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.10.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.10.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.11.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.11.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.11.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.11.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.11.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.11.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.11.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.11.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.11.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.11.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.11.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.11.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.12.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.12.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.12.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.12.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.12.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.12.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.12.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.12.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.12.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.12.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.12.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.12.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.13.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.13.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.13.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.13.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.13.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.13.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.13.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.13.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.13.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.13.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.13.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.13.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.14.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.14.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.14.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.14.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.14.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.14.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.14.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.14.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.14.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.14.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.14.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.14.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.15.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.15.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.15.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.15.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.15.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.15.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.15.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.15.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.15.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.15.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.15.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.15.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.16.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.16.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.16.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.16.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.16.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.16.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.16.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.16.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.16.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.16.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.16.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.16.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.17.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.17.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.17.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.17.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.17.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.17.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.17.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.17.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.17.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.17.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.17.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.17.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.18.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.18.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.18.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.18.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.18.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.18.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.18.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.18.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.18.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.18.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.18.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.18.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.19.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.19.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.19.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.19.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.19.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.19.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.19.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.19.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.19.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.19.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.19.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.19.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.2.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.2.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.2.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.2.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.2.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.2.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.2.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.2.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.2.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.2.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.2.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.2.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.20.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.20.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.20.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.20.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.20.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.20.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.20.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.20.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.20.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.20.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.20.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.20.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.21.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.21.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.21.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.21.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.21.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.21.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.21.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.21.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.21.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.21.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.21.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.21.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.22.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.22.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.22.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.22.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.22.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.22.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.22.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.22.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.22.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.22.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.22.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.22.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.23.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.23.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.23.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.23.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.23.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.23.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.23.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.23.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.23.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.23.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.23.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.23.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.3.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.3.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.3.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.3.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.3.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.3.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.3.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.3.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.3.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.3.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.3.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.3.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.4.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.4.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.4.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.4.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.4.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.4.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.4.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.4.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.4.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.4.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.4.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.4.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.5.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.5.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.5.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.5.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.5.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.5.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.5.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.5.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.5.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.5.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.5.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.5.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.6.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.6.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.6.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.6.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.6.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.6.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.6.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.6.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.6.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.6.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.6.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.6.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.7.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.7.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.7.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.7.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.7.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.7.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.7.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.7.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.7.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.7.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.7.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.7.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.8.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.8.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.8.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.8.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.8.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.8.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.8.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.8.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.8.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.8.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.8.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.8.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.9.attn.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.9.attn.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.9.attn.qkv.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.9.attn.qkv.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.9.mlp.fc1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.9.mlp.fc1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.9.mlp.fc2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.9.mlp.fc2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.9.norm1.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.9.norm1.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.9.norm2.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.blocks.9.norm2.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.norm.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.norm.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.patch_embed.proj.bias": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.patch_embed.proj.weight": "model-00001-of-00003.safetensors",
+    "vision_model.vision_tower.pos_embed": "model-00001-of-00003.safetensors"
+  }
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "background_color": [
+    127,
+    127,
+    127
+  ],
+  "do_normalize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "VLMImageProcessor",
+  "image_size": 384,
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "min_size": 14,
+  "processor_class": "VLChatProcessor",
+  "rescale_factor": 0.00392156862745098
+}

processor_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "add_special_token": false,
+  "ignore_id": -100,
+  "image_end_tag": "<end_of_image>",
+  "image_start_tag": "<begin_of_image>",
+  "image_tag": "<image_placeholder>",
+  "mask_prompt": true,
+  "num_image_tokens": 576,
+  "pad_tag": "<\uff5c\u2581pad\u2581\uff5c>",
+  "processor_class": "VLChatProcessor",
+  "sft_format": "deepseek"
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "additional_special_tokens": [
+    "<image_placeholder>",
+    "<patch_placeholder>",
+    "<|ref|>",
+    "<|/ref|>",
+    "<|det|>",
+    "<|/det|>",
+    "<|grounding|>",
+    "<|User|>",
+    "<|Assistant|>"
+  ],
+  "bos_token": {
+    "content": "<｜begin▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<｜end▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<｜▁pad▁｜>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff