Uploading checkpoint-39000 for mbert - mar-deva

Browse files

Files changed (14) hide show

README.md +67 -0
config.json +37 -0
generation_config.json +5 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +55 -0
trainer_state.json +1281 -0
training_args.bin +3 -0
vocab.txt +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: google-bert/bert-base-multilingual-cased
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: mar-Deva
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# mar-Deva
+This model is a fine-tuned version of [google-bert/bert-base-multilingual-cased](https://huggingface.co/google-bert/bert-base-multilingual-cased) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.7135
+- Accuracy: 0.8574
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- training_steps: 100000
+    ### Citation Information
+    If you use this model in your work, please cite the following paper. Additionally, if you require more details on training and performance, refer to the paper:
+    @misc{gurgurov2025smallmodelsbigimpact,
+        title={Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages},
+        author={Daniil Gurgurov and Ivan Vykopal and Josef van Genabith and Simon Ostermann},
+        year={2025},
+        eprint={2502.10140},
+        archivePrefix={arXiv},
+        primaryClass={cs.CL},
+        url={https://arxiv.org/abs/2502.10140},
+    }

config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "_name_or_path": "google-bert/bert-base-multilingual-cased",
+  "adapters": {
+    "adapters": {},
+    "config_map": {},
+    "fusion_config_map": {},
+    "fusions": {}
+  },
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "_from_model_config": true,
+  "pad_token_id": 0,
+  "transformers_version": "4.45.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d97be4ba73b84b522b977f708967e954f6fdd29e486b6c9a6507eaa56dd4e60a
+size 711921812

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af75d1e9c750b8a41bb084bd62830c98396f28f84543630999be97f95d990420
+size 1423965114

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b3c97cc5ba6f9c5f1da78e171b8371fec9c4f57850e29e313021157482fae26
+size 14512

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b93eb032cf0f7c04cfc959fac8743ac7cddad172035eaf2e12760ebcac3c236b
+size 14512

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df5690e73943bb6cb41f6f10002304bbac2fc340384febcc3a4a53d7d53c7b63
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1281 @@

+{
+  "best_metric": 0.7045323252677917,
+  "best_model_checkpoint": "./model_fine-tune/glot/mbert/mar-Deva/checkpoint-39000",
+  "epoch": 91.54929577464789,
+  "eval_steps": 500,
+  "global_step": 39000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.1737089201877935,
+      "grad_norm": 3.1700332164764404,
+      "learning_rate": 9.95e-05,
+      "loss": 1.3483,
+      "step": 500
+    },
+    {
+      "epoch": 1.1737089201877935,
+      "eval_accuracy": 0.749312885729062,
+      "eval_loss": 1.1869930028915405,
+      "eval_runtime": 145.5506,
+      "eval_samples_per_second": 121.484,
+      "eval_steps_per_second": 3.799,
+      "step": 500
+    },
+    {
+      "epoch": 2.347417840375587,
+      "grad_norm": 2.450835704803467,
+      "learning_rate": 9.900000000000001e-05,
+      "loss": 1.16,
+      "step": 1000
+    },
+    {
+      "epoch": 2.347417840375587,
+      "eval_accuracy": 0.7679429076763364,
+      "eval_loss": 1.1002804040908813,
+      "eval_runtime": 138.5842,
+      "eval_samples_per_second": 127.59,
+      "eval_steps_per_second": 3.99,
+      "step": 1000
+    },
+    {
+      "epoch": 3.52112676056338,
+      "grad_norm": 2.5313944816589355,
+      "learning_rate": 9.850000000000001e-05,
+      "loss": 1.0796,
+      "step": 1500
+    },
+    {
+      "epoch": 3.52112676056338,
+      "eval_accuracy": 0.7788953556992149,
+      "eval_loss": 1.0443540811538696,
+      "eval_runtime": 143.0988,
+      "eval_samples_per_second": 123.565,
+      "eval_steps_per_second": 3.864,
+      "step": 1500
+    },
+    {
+      "epoch": 4.694835680751174,
+      "grad_norm": 2.6745097637176514,
+      "learning_rate": 9.8e-05,
+      "loss": 1.023,
+      "step": 2000
+    },
+    {
+      "epoch": 4.694835680751174,
+      "eval_accuracy": 0.7875008678674885,
+      "eval_loss": 0.9982088208198547,
+      "eval_runtime": 147.3047,
+      "eval_samples_per_second": 120.037,
+      "eval_steps_per_second": 3.754,
+      "step": 2000
+    },
+    {
+      "epoch": 5.868544600938967,
+      "grad_norm": 2.8676445484161377,
+      "learning_rate": 9.75e-05,
+      "loss": 0.9784,
+      "step": 2500
+    },
+    {
+      "epoch": 5.868544600938967,
+      "eval_accuracy": 0.7940504772991072,
+      "eval_loss": 0.964560329914093,
+      "eval_runtime": 137.4737,
+      "eval_samples_per_second": 128.621,
+      "eval_steps_per_second": 4.023,
+      "step": 2500
+    },
+    {
+      "epoch": 7.042253521126761,
+      "grad_norm": 2.3849828243255615,
+      "learning_rate": 9.7e-05,
+      "loss": 0.9394,
+      "step": 3000
+    },
+    {
+      "epoch": 7.042253521126761,
+      "eval_accuracy": 0.7981764510868291,
+      "eval_loss": 0.9444334506988525,
+      "eval_runtime": 147.2364,
+      "eval_samples_per_second": 120.093,
+      "eval_steps_per_second": 3.756,
+      "step": 3000
+    },
+    {
+      "epoch": 8.215962441314554,
+      "grad_norm": 2.1890273094177246,
+      "learning_rate": 9.65e-05,
+      "loss": 0.9119,
+      "step": 3500
+    },
+    {
+      "epoch": 8.215962441314554,
+      "eval_accuracy": 0.8029835860860965,
+      "eval_loss": 0.9215248823165894,
+      "eval_runtime": 147.2738,
+      "eval_samples_per_second": 120.062,
+      "eval_steps_per_second": 3.755,
+      "step": 3500
+    },
+    {
+      "epoch": 9.389671361502348,
+      "grad_norm": 2.342008590698242,
+      "learning_rate": 9.6e-05,
+      "loss": 0.8872,
+      "step": 4000
+    },
+    {
+      "epoch": 9.389671361502348,
+      "eval_accuracy": 0.805941164259263,
+      "eval_loss": 0.916360080242157,
+      "eval_runtime": 147.2413,
+      "eval_samples_per_second": 120.089,
+      "eval_steps_per_second": 3.756,
+      "step": 4000
+    },
+    {
+      "epoch": 10.56338028169014,
+      "grad_norm": 2.2766637802124023,
+      "learning_rate": 9.55e-05,
+      "loss": 0.8629,
+      "step": 4500
+    },
+    {
+      "epoch": 10.56338028169014,
+      "eval_accuracy": 0.8102512145065337,
+      "eval_loss": 0.898952066898346,
+      "eval_runtime": 147.2077,
+      "eval_samples_per_second": 120.116,
+      "eval_steps_per_second": 3.757,
+      "step": 4500
+    },
+    {
+      "epoch": 11.737089201877934,
+      "grad_norm": 2.391869306564331,
+      "learning_rate": 9.5e-05,
+      "loss": 0.8477,
+      "step": 5000
+    },
+    {
+      "epoch": 11.737089201877934,
+      "eval_accuracy": 0.8117510986190105,
+      "eval_loss": 0.8836262822151184,
+      "eval_runtime": 145.6587,
+      "eval_samples_per_second": 121.393,
+      "eval_steps_per_second": 3.797,
+      "step": 5000
+    },
+    {
+      "epoch": 12.910798122065728,
+      "grad_norm": 2.4697470664978027,
+      "learning_rate": 9.449999999999999e-05,
+      "loss": 0.8261,
+      "step": 5500
+    },
+    {
+      "epoch": 12.910798122065728,
+      "eval_accuracy": 0.8150349185540299,
+      "eval_loss": 0.8613038063049316,
+      "eval_runtime": 145.7167,
+      "eval_samples_per_second": 121.345,
+      "eval_steps_per_second": 3.795,
+      "step": 5500
+    },
+    {
+      "epoch": 14.084507042253522,
+      "grad_norm": 2.36245059967041,
+      "learning_rate": 9.4e-05,
+      "loss": 0.8072,
+      "step": 6000
+    },
+    {
+      "epoch": 14.084507042253522,
+      "eval_accuracy": 0.816731876355394,
+      "eval_loss": 0.8536739945411682,
+      "eval_runtime": 147.07,
+      "eval_samples_per_second": 120.228,
+      "eval_steps_per_second": 3.76,
+      "step": 6000
+    },
+    {
+      "epoch": 15.258215962441314,
+      "grad_norm": 2.285848379135132,
+      "learning_rate": 9.350000000000001e-05,
+      "loss": 0.7924,
+      "step": 6500
+    },
+    {
+      "epoch": 15.258215962441314,
+      "eval_accuracy": 0.8197007489640474,
+      "eval_loss": 0.8382024765014648,
+      "eval_runtime": 147.1867,
+      "eval_samples_per_second": 120.133,
+      "eval_steps_per_second": 3.757,
+      "step": 6500
+    },
+    {
+      "epoch": 16.431924882629108,
+      "grad_norm": 2.218266010284424,
+      "learning_rate": 9.300000000000001e-05,
+      "loss": 0.7815,
+      "step": 7000
+    },
+    {
+      "epoch": 16.431924882629108,
+      "eval_accuracy": 0.8211554348763181,
+      "eval_loss": 0.8357976675033569,
+      "eval_runtime": 135.7542,
+      "eval_samples_per_second": 130.25,
+      "eval_steps_per_second": 4.074,
+      "step": 7000
+    },
+    {
+      "epoch": 17.6056338028169,
+      "grad_norm": 2.300184488296509,
+      "learning_rate": 9.250000000000001e-05,
+      "loss": 0.767,
+      "step": 7500
+    },
+    {
+      "epoch": 17.6056338028169,
+      "eval_accuracy": 0.8242465371712792,
+      "eval_loss": 0.8331694006919861,
+      "eval_runtime": 145.3933,
+      "eval_samples_per_second": 121.615,
+      "eval_steps_per_second": 3.803,
+      "step": 7500
+    },
+    {
+      "epoch": 18.779342723004696,
+      "grad_norm": 2.1632742881774902,
+      "learning_rate": 9.200000000000001e-05,
+      "loss": 0.7541,
+      "step": 8000
+    },
+    {
+      "epoch": 18.779342723004696,
+      "eval_accuracy": 0.8246549447936785,
+      "eval_loss": 0.8179985880851746,
+      "eval_runtime": 139.0754,
+      "eval_samples_per_second": 127.14,
+      "eval_steps_per_second": 3.976,
+      "step": 8000
+    },
+    {
+      "epoch": 19.953051643192488,
+      "grad_norm": 2.2807085514068604,
+      "learning_rate": 9.15e-05,
+      "loss": 0.7462,
+      "step": 8500
+    },
+    {
+      "epoch": 19.953051643192488,
+      "eval_accuracy": 0.8256249942473,
+      "eval_loss": 0.8264754414558411,
+      "eval_runtime": 147.2594,
+      "eval_samples_per_second": 120.074,
+      "eval_steps_per_second": 3.755,
+      "step": 8500
+    },
+    {
+      "epoch": 21.12676056338028,
+      "grad_norm": 2.210843563079834,
+      "learning_rate": 9.1e-05,
+      "loss": 0.7323,
+      "step": 9000
+    },
+    {
+      "epoch": 21.12676056338028,
+      "eval_accuracy": 0.8267119847302682,
+      "eval_loss": 0.8105438947677612,
+      "eval_runtime": 136.1823,
+      "eval_samples_per_second": 129.841,
+      "eval_steps_per_second": 4.061,
+      "step": 9000
+    },
+    {
+      "epoch": 22.300469483568076,
+      "grad_norm": 2.389461040496826,
+      "learning_rate": 9.05e-05,
+      "loss": 0.7212,
+      "step": 9500
+    },
+    {
+      "epoch": 22.300469483568076,
+      "eval_accuracy": 0.8280417403957945,
+      "eval_loss": 0.8193202018737793,
+      "eval_runtime": 147.4213,
+      "eval_samples_per_second": 119.942,
+      "eval_steps_per_second": 3.751,
+      "step": 9500
+    },
+    {
+      "epoch": 23.474178403755868,
+      "grad_norm": 2.059155225753784,
+      "learning_rate": 9e-05,
+      "loss": 0.7086,
+      "step": 10000
+    },
+    {
+      "epoch": 23.474178403755868,
+      "eval_accuracy": 0.8300135381668301,
+      "eval_loss": 0.8017289638519287,
+      "eval_runtime": 137.0188,
+      "eval_samples_per_second": 129.048,
+      "eval_steps_per_second": 4.036,
+      "step": 10000
+    },
+    {
+      "epoch": 24.647887323943664,
+      "grad_norm": 2.143441677093506,
+      "learning_rate": 8.950000000000001e-05,
+      "loss": 0.7018,
+      "step": 10500
+    },
+    {
+      "epoch": 24.647887323943664,
+      "eval_accuracy": 0.8309204998181491,
+      "eval_loss": 0.7943059206008911,
+      "eval_runtime": 136.1098,
+      "eval_samples_per_second": 129.91,
+      "eval_steps_per_second": 4.063,
+      "step": 10500
+    },
+    {
+      "epoch": 25.821596244131456,
+      "grad_norm": 2.3048555850982666,
+      "learning_rate": 8.900000000000001e-05,
+      "loss": 0.6949,
+      "step": 11000
+    },
+    {
+      "epoch": 25.821596244131456,
+      "eval_accuracy": 0.8313006683640194,
+      "eval_loss": 0.7950281500816345,
+      "eval_runtime": 147.4239,
+      "eval_samples_per_second": 119.94,
+      "eval_steps_per_second": 3.751,
+      "step": 11000
+    },
+    {
+      "epoch": 26.995305164319248,
+      "grad_norm": 1.9936089515686035,
+      "learning_rate": 8.850000000000001e-05,
+      "loss": 0.6917,
+      "step": 11500
+    },
+    {
+      "epoch": 26.995305164319248,
+      "eval_accuracy": 0.8331900538385245,
+      "eval_loss": 0.7858129143714905,
+      "eval_runtime": 137.4392,
+      "eval_samples_per_second": 128.653,
+      "eval_steps_per_second": 4.024,
+      "step": 11500
+    },
+    {
+      "epoch": 28.169014084507044,
+      "grad_norm": 2.1459641456604004,
+      "learning_rate": 8.800000000000001e-05,
+      "loss": 0.6782,
+      "step": 12000
+    },
+    {
+      "epoch": 28.169014084507044,
+      "eval_accuracy": 0.8343617601040733,
+      "eval_loss": 0.7777819037437439,
+      "eval_runtime": 147.5831,
+      "eval_samples_per_second": 119.81,
+      "eval_steps_per_second": 3.747,
+      "step": 12000
+    },
+    {
+      "epoch": 29.342723004694836,
+      "grad_norm": 2.0599782466888428,
+      "learning_rate": 8.75e-05,
+      "loss": 0.672,
+      "step": 12500
+    },
+    {
+      "epoch": 29.342723004694836,
+      "eval_accuracy": 0.8344647882838259,
+      "eval_loss": 0.7832308411598206,
+      "eval_runtime": 137.4669,
+      "eval_samples_per_second": 128.627,
+      "eval_steps_per_second": 4.023,
+      "step": 12500
+    },
+    {
+      "epoch": 30.516431924882628,
+      "grad_norm": 2.52083158493042,
+      "learning_rate": 8.7e-05,
+      "loss": 0.6612,
+      "step": 13000
+    },
+    {
+      "epoch": 30.516431924882628,
+      "eval_accuracy": 0.835733848691268,
+      "eval_loss": 0.7805770039558411,
+      "eval_runtime": 137.4676,
+      "eval_samples_per_second": 128.627,
+      "eval_steps_per_second": 4.023,
+      "step": 13000
+    },
+    {
+      "epoch": 31.690140845070424,
+      "grad_norm": 2.808067560195923,
+      "learning_rate": 8.65e-05,
+      "loss": 0.653,
+      "step": 13500
+    },
+    {
+      "epoch": 31.690140845070424,
+      "eval_accuracy": 0.8369936505384986,
+      "eval_loss": 0.7829101085662842,
+      "eval_runtime": 147.4085,
+      "eval_samples_per_second": 119.952,
+      "eval_steps_per_second": 3.751,
+      "step": 13500
+    },
+    {
+      "epoch": 32.863849765258216,
+      "grad_norm": 2.1012039184570312,
+      "learning_rate": 8.6e-05,
+      "loss": 0.6509,
+      "step": 14000
+    },
+    {
+      "epoch": 32.863849765258216,
+      "eval_accuracy": 0.8373059658134827,
+      "eval_loss": 0.7640124559402466,
+      "eval_runtime": 137.589,
+      "eval_samples_per_second": 128.513,
+      "eval_steps_per_second": 4.019,
+      "step": 14000
+    },
+    {
+      "epoch": 34.03755868544601,
+      "grad_norm": 2.1211578845977783,
+      "learning_rate": 8.55e-05,
+      "loss": 0.6403,
+      "step": 14500
+    },
+    {
+      "epoch": 34.03755868544601,
+      "eval_accuracy": 0.8385678802262423,
+      "eval_loss": 0.7672787308692932,
+      "eval_runtime": 146.9801,
+      "eval_samples_per_second": 120.302,
+      "eval_steps_per_second": 3.762,
+      "step": 14500
+    },
+    {
+      "epoch": 35.2112676056338,
+      "grad_norm": 2.017094135284424,
+      "learning_rate": 8.5e-05,
+      "loss": 0.6348,
+      "step": 15000
+    },
+    {
+      "epoch": 35.2112676056338,
+      "eval_accuracy": 0.8392093131517121,
+      "eval_loss": 0.7593186497688293,
+      "eval_runtime": 137.1351,
+      "eval_samples_per_second": 128.939,
+      "eval_steps_per_second": 4.033,
+      "step": 15000
+    },
+    {
+      "epoch": 36.3849765258216,
+      "grad_norm": 2.0924570560455322,
+      "learning_rate": 8.450000000000001e-05,
+      "loss": 0.6297,
+      "step": 15500
+    },
+    {
+      "epoch": 36.3849765258216,
+      "eval_accuracy": 0.8399583286650959,
+      "eval_loss": 0.763680636882782,
+      "eval_runtime": 147.5378,
+      "eval_samples_per_second": 119.847,
+      "eval_steps_per_second": 3.748,
+      "step": 15500
+    },
+    {
+      "epoch": 37.55868544600939,
+      "grad_norm": 2.131864070892334,
+      "learning_rate": 8.4e-05,
+      "loss": 0.6238,
+      "step": 16000
+    },
+    {
+      "epoch": 37.55868544600939,
+      "eval_accuracy": 0.840090867939712,
+      "eval_loss": 0.7627538442611694,
+      "eval_runtime": 137.0753,
+      "eval_samples_per_second": 128.995,
+      "eval_steps_per_second": 4.034,
+      "step": 16000
+    },
+    {
+      "epoch": 38.732394366197184,
+      "grad_norm": 2.12919545173645,
+      "learning_rate": 8.35e-05,
+      "loss": 0.6162,
+      "step": 16500
+    },
+    {
+      "epoch": 38.732394366197184,
+      "eval_accuracy": 0.8413376227933144,
+      "eval_loss": 0.7513773441314697,
+      "eval_runtime": 147.6687,
+      "eval_samples_per_second": 119.741,
+      "eval_steps_per_second": 3.745,
+      "step": 16500
+    },
+    {
+      "epoch": 39.906103286384976,
+      "grad_norm": 2.1172847747802734,
+      "learning_rate": 8.3e-05,
+      "loss": 0.6121,
+      "step": 17000
+    },
+    {
+      "epoch": 39.906103286384976,
+      "eval_accuracy": 0.8418376093750392,
+      "eval_loss": 0.753982663154602,
+      "eval_runtime": 136.0303,
+      "eval_samples_per_second": 129.986,
+      "eval_steps_per_second": 4.065,
+      "step": 17000
+    },
+    {
+      "epoch": 41.07981220657277,
+      "grad_norm": 2.195590019226074,
+      "learning_rate": 8.25e-05,
+      "loss": 0.6078,
+      "step": 17500
+    },
+    {
+      "epoch": 41.07981220657277,
+      "eval_accuracy": 0.8428805964270359,
+      "eval_loss": 0.7542482614517212,
+      "eval_runtime": 137.0472,
+      "eval_samples_per_second": 129.021,
+      "eval_steps_per_second": 4.035,
+      "step": 17500
+    },
+    {
+      "epoch": 42.25352112676056,
+      "grad_norm": 2.067308187484741,
+      "learning_rate": 8.2e-05,
+      "loss": 0.601,
+      "step": 18000
+    },
+    {
+      "epoch": 42.25352112676056,
+      "eval_accuracy": 0.8427417329846963,
+      "eval_loss": 0.7472436428070068,
+      "eval_runtime": 136.152,
+      "eval_samples_per_second": 129.87,
+      "eval_steps_per_second": 4.062,
+      "step": 18000
+    },
+    {
+      "epoch": 43.42723004694836,
+      "grad_norm": 2.278040885925293,
+      "learning_rate": 8.15e-05,
+      "loss": 0.5962,
+      "step": 18500
+    },
+    {
+      "epoch": 43.42723004694836,
+      "eval_accuracy": 0.8429750545039596,
+      "eval_loss": 0.7438804507255554,
+      "eval_runtime": 136.1815,
+      "eval_samples_per_second": 129.841,
+      "eval_steps_per_second": 4.061,
+      "step": 18500
+    },
+    {
+      "epoch": 44.60093896713615,
+      "grad_norm": 2.0480079650878906,
+      "learning_rate": 8.1e-05,
+      "loss": 0.5921,
+      "step": 19000
+    },
+    {
+      "epoch": 44.60093896713615,
+      "eval_accuracy": 0.8430666280582005,
+      "eval_loss": 0.7555158734321594,
+      "eval_runtime": 147.7547,
+      "eval_samples_per_second": 119.671,
+      "eval_steps_per_second": 3.743,
+      "step": 19000
+    },
+    {
+      "epoch": 45.774647887323944,
+      "grad_norm": 2.0856966972351074,
+      "learning_rate": 8.05e-05,
+      "loss": 0.5828,
+      "step": 19500
+    },
+    {
+      "epoch": 45.774647887323944,
+      "eval_accuracy": 0.8444825839615888,
+      "eval_loss": 0.7403737902641296,
+      "eval_runtime": 142.7228,
+      "eval_samples_per_second": 123.89,
+      "eval_steps_per_second": 3.875,
+      "step": 19500
+    },
+    {
+      "epoch": 46.948356807511736,
+      "grad_norm": 2.0801377296447754,
+      "learning_rate": 8e-05,
+      "loss": 0.5805,
+      "step": 20000
+    },
+    {
+      "epoch": 46.948356807511736,
+      "eval_accuracy": 0.8456604553444954,
+      "eval_loss": 0.7381341457366943,
+      "eval_runtime": 136.8181,
+      "eval_samples_per_second": 129.237,
+      "eval_steps_per_second": 4.042,
+      "step": 20000
+    },
+    {
+      "epoch": 48.12206572769953,
+      "grad_norm": 2.0854578018188477,
+      "learning_rate": 7.950000000000001e-05,
+      "loss": 0.577,
+      "step": 20500
+    },
+    {
+      "epoch": 48.12206572769953,
+      "eval_accuracy": 0.8459030596342113,
+      "eval_loss": 0.7439441680908203,
+      "eval_runtime": 137.0553,
+      "eval_samples_per_second": 129.014,
+      "eval_steps_per_second": 4.035,
+      "step": 20500
+    },
+    {
+      "epoch": 49.29577464788732,
+      "grad_norm": 2.0203611850738525,
+      "learning_rate": 7.900000000000001e-05,
+      "loss": 0.5702,
+      "step": 21000
+    },
+    {
+      "epoch": 49.29577464788732,
+      "eval_accuracy": 0.8458144906353607,
+      "eval_loss": 0.739824116230011,
+      "eval_runtime": 147.5519,
+      "eval_samples_per_second": 119.836,
+      "eval_steps_per_second": 3.748,
+      "step": 21000
+    },
+    {
+      "epoch": 50.46948356807512,
+      "grad_norm": 2.07930326461792,
+      "learning_rate": 7.850000000000001e-05,
+      "loss": 0.5626,
+      "step": 21500
+    },
+    {
+      "epoch": 50.46948356807512,
+      "eval_accuracy": 0.847225799976582,
+      "eval_loss": 0.7376012206077576,
+      "eval_runtime": 140.7844,
+      "eval_samples_per_second": 125.596,
+      "eval_steps_per_second": 3.928,
+      "step": 21500
+    },
+    {
+      "epoch": 51.64319248826291,
+      "grad_norm": 1.9633455276489258,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 0.5644,
+      "step": 22000
+    },
+    {
+      "epoch": 51.64319248826291,
+      "eval_accuracy": 0.8477510357072401,
+      "eval_loss": 0.7312297224998474,
+      "eval_runtime": 136.8418,
+      "eval_samples_per_second": 129.215,
+      "eval_steps_per_second": 4.041,
+      "step": 22000
+    },
+    {
+      "epoch": 52.816901408450704,
+      "grad_norm": 2.0171732902526855,
+      "learning_rate": 7.75e-05,
+      "loss": 0.5575,
+      "step": 22500
+    },
+    {
+      "epoch": 52.816901408450704,
+      "eval_accuracy": 0.8479556976991851,
+      "eval_loss": 0.7324073314666748,
+      "eval_runtime": 136.8371,
+      "eval_samples_per_second": 129.219,
+      "eval_steps_per_second": 4.041,
+      "step": 22500
+    },
+    {
+      "epoch": 53.990610328638496,
+      "grad_norm": 1.9490004777908325,
+      "learning_rate": 7.7e-05,
+      "loss": 0.5504,
+      "step": 23000
+    },
+    {
+      "epoch": 53.990610328638496,
+      "eval_accuracy": 0.8482885853024055,
+      "eval_loss": 0.739380955696106,
+      "eval_runtime": 136.7899,
+      "eval_samples_per_second": 129.264,
+      "eval_steps_per_second": 4.043,
+      "step": 23000
+    },
+    {
+      "epoch": 55.16431924882629,
+      "grad_norm": 2.1706230640411377,
+      "learning_rate": 7.65e-05,
+      "loss": 0.5467,
+      "step": 23500
+    },
+    {
+      "epoch": 55.16431924882629,
+      "eval_accuracy": 0.8485212684731438,
+      "eval_loss": 0.7348983287811279,
+      "eval_runtime": 137.1652,
+      "eval_samples_per_second": 128.91,
+      "eval_steps_per_second": 4.032,
+      "step": 23500
+    },
+    {
+      "epoch": 56.33802816901409,
+      "grad_norm": 2.046226978302002,
+      "learning_rate": 7.6e-05,
+      "loss": 0.5434,
+      "step": 24000
+    },
+    {
+      "epoch": 56.33802816901409,
+      "eval_accuracy": 0.8486974677705212,
+      "eval_loss": 0.736895740032196,
+      "eval_runtime": 136.9534,
+      "eval_samples_per_second": 129.11,
+      "eval_steps_per_second": 4.038,
+      "step": 24000
+    },
+    {
+      "epoch": 57.51173708920188,
+      "grad_norm": 1.9242944717407227,
+      "learning_rate": 7.55e-05,
+      "loss": 0.5378,
+      "step": 24500
+    },
+    {
+      "epoch": 57.51173708920188,
+      "eval_accuracy": 0.8492700287304648,
+      "eval_loss": 0.7279884815216064,
+      "eval_runtime": 136.7008,
+      "eval_samples_per_second": 129.348,
+      "eval_steps_per_second": 4.045,
+      "step": 24500
+    },
+    {
+      "epoch": 58.68544600938967,
+      "grad_norm": 1.9436827898025513,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.5382,
+      "step": 25000
+    },
+    {
+      "epoch": 58.68544600938967,
+      "eval_accuracy": 0.8496587662017004,
+      "eval_loss": 0.7233351469039917,
+      "eval_runtime": 136.9816,
+      "eval_samples_per_second": 129.083,
+      "eval_steps_per_second": 4.037,
+      "step": 25000
+    },
+    {
+      "epoch": 59.859154929577464,
+      "grad_norm": 2.442077159881592,
+      "learning_rate": 7.450000000000001e-05,
+      "loss": 0.5334,
+      "step": 25500
+    },
+    {
+      "epoch": 59.859154929577464,
+      "eval_accuracy": 0.8502614948790587,
+      "eval_loss": 0.7267663478851318,
+      "eval_runtime": 140.4178,
+      "eval_samples_per_second": 125.924,
+      "eval_steps_per_second": 3.938,
+      "step": 25500
+    },
+    {
+      "epoch": 61.032863849765256,
+      "grad_norm": 2.1809020042419434,
+      "learning_rate": 7.4e-05,
+      "loss": 0.5295,
+      "step": 26000
+    },
+    {
+      "epoch": 61.032863849765256,
+      "eval_accuracy": 0.8492560240081366,
+      "eval_loss": 0.7322823405265808,
+      "eval_runtime": 137.5974,
+      "eval_samples_per_second": 128.505,
+      "eval_steps_per_second": 4.019,
+      "step": 26000
+    },
+    {
+      "epoch": 62.20657276995305,
+      "grad_norm": 2.0946710109710693,
+      "learning_rate": 7.35e-05,
+      "loss": 0.5215,
+      "step": 26500
+    },
+    {
+      "epoch": 62.20657276995305,
+      "eval_accuracy": 0.8505152353921837,
+      "eval_loss": 0.721396803855896,
+      "eval_runtime": 136.7594,
+      "eval_samples_per_second": 129.293,
+      "eval_steps_per_second": 4.044,
+      "step": 26500
+    },
+    {
+      "epoch": 63.38028169014085,
+      "grad_norm": 2.1418216228485107,
+      "learning_rate": 7.3e-05,
+      "loss": 0.5188,
+      "step": 27000
+    },
+    {
+      "epoch": 63.38028169014085,
+      "eval_accuracy": 0.8503667583911142,
+      "eval_loss": 0.7287681698799133,
+      "eval_runtime": 136.8587,
+      "eval_samples_per_second": 129.199,
+      "eval_steps_per_second": 4.041,
+      "step": 27000
+    },
+    {
+      "epoch": 64.55399061032864,
+      "grad_norm": 2.0790982246398926,
+      "learning_rate": 7.25e-05,
+      "loss": 0.5168,
+      "step": 27500
+    },
+    {
+      "epoch": 64.55399061032864,
+      "eval_accuracy": 0.8514007297976166,
+      "eval_loss": 0.7309630513191223,
+      "eval_runtime": 136.1553,
+      "eval_samples_per_second": 129.866,
+      "eval_steps_per_second": 4.062,
+      "step": 27500
+    },
+    {
+      "epoch": 65.72769953051643,
+      "grad_norm": 2.085266351699829,
+      "learning_rate": 7.2e-05,
+      "loss": 0.5125,
+      "step": 28000
+    },
+    {
+      "epoch": 65.72769953051643,
+      "eval_accuracy": 0.8518668186024253,
+      "eval_loss": 0.7231945395469666,
+      "eval_runtime": 147.5131,
+      "eval_samples_per_second": 119.867,
+      "eval_steps_per_second": 3.749,
+      "step": 28000
+    },
+    {
+      "epoch": 66.90140845070422,
+      "grad_norm": 1.7428772449493408,
+      "learning_rate": 7.15e-05,
+      "loss": 0.5076,
+      "step": 28500
+    },
+    {
+      "epoch": 66.90140845070422,
+      "eval_accuracy": 0.8518548866516221,
+      "eval_loss": 0.726669430732727,
+      "eval_runtime": 139.3497,
+      "eval_samples_per_second": 126.889,
+      "eval_steps_per_second": 3.968,
+      "step": 28500
+    },
+    {
+      "epoch": 68.07511737089202,
+      "grad_norm": 1.9387340545654297,
+      "learning_rate": 7.1e-05,
+      "loss": 0.5018,
+      "step": 29000
+    },
+    {
+      "epoch": 68.07511737089202,
+      "eval_accuracy": 0.8516039425023846,
+      "eval_loss": 0.7305765151977539,
+      "eval_runtime": 136.8809,
+      "eval_samples_per_second": 129.178,
+      "eval_steps_per_second": 4.04,
+      "step": 29000
+    },
+    {
+      "epoch": 69.24882629107981,
+      "grad_norm": 2.090191125869751,
+      "learning_rate": 7.05e-05,
+      "loss": 0.5011,
+      "step": 29500
+    },
+    {
+      "epoch": 69.24882629107981,
+      "eval_accuracy": 0.8522613468602297,
+      "eval_loss": 0.723237931728363,
+      "eval_runtime": 137.4062,
+      "eval_samples_per_second": 128.684,
+      "eval_steps_per_second": 4.025,
+      "step": 29500
+    },
+    {
+      "epoch": 70.4225352112676,
+      "grad_norm": 1.8190377950668335,
+      "learning_rate": 7e-05,
+      "loss": 0.4986,
+      "step": 30000
+    },
+    {
+      "epoch": 70.4225352112676,
+      "eval_accuracy": 0.8533026826846422,
+      "eval_loss": 0.7156932353973389,
+      "eval_runtime": 136.1553,
+      "eval_samples_per_second": 129.866,
+      "eval_steps_per_second": 4.062,
+      "step": 30000
+    },
+    {
+      "epoch": 71.59624413145539,
+      "grad_norm": 2.007854700088501,
+      "learning_rate": 6.95e-05,
+      "loss": 0.4915,
+      "step": 30500
+    },
+    {
+      "epoch": 71.59624413145539,
+      "eval_accuracy": 0.8527300721103733,
+      "eval_loss": 0.7252740859985352,
+      "eval_runtime": 136.7888,
+      "eval_samples_per_second": 129.265,
+      "eval_steps_per_second": 4.043,
+      "step": 30500
+    },
+    {
+      "epoch": 72.7699530516432,
+      "grad_norm": 2.4322381019592285,
+      "learning_rate": 6.9e-05,
+      "loss": 0.4934,
+      "step": 31000
+    },
+    {
+      "epoch": 72.7699530516432,
+      "eval_accuracy": 0.8530242933183955,
+      "eval_loss": 0.7319638133049011,
+      "eval_runtime": 144.2929,
+      "eval_samples_per_second": 122.542,
+      "eval_steps_per_second": 3.832,
+      "step": 31000
+    },
+    {
+      "epoch": 73.94366197183099,
+      "grad_norm": 2.21516489982605,
+      "learning_rate": 6.850000000000001e-05,
+      "loss": 0.4895,
+      "step": 31500
+    },
+    {
+      "epoch": 73.94366197183099,
+      "eval_accuracy": 0.8537945053849306,
+      "eval_loss": 0.7180453538894653,
+      "eval_runtime": 141.0891,
+      "eval_samples_per_second": 125.325,
+      "eval_steps_per_second": 3.92,
+      "step": 31500
+    },
+    {
+      "epoch": 75.11737089201878,
+      "grad_norm": 2.0788252353668213,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 0.4822,
+      "step": 32000
+    },
+    {
+      "epoch": 75.11737089201878,
+      "eval_accuracy": 0.8538218958075418,
+      "eval_loss": 0.7125606536865234,
+      "eval_runtime": 137.0269,
+      "eval_samples_per_second": 129.04,
+      "eval_steps_per_second": 4.036,
+      "step": 32000
+    },
+    {
+      "epoch": 76.29107981220658,
+      "grad_norm": 2.038712978363037,
+      "learning_rate": 6.750000000000001e-05,
+      "loss": 0.4807,
+      "step": 32500
+    },
+    {
+      "epoch": 76.29107981220658,
+      "eval_accuracy": 0.8543182928024404,
+      "eval_loss": 0.7191519141197205,
+      "eval_runtime": 136.1481,
+      "eval_samples_per_second": 129.873,
+      "eval_steps_per_second": 4.062,
+      "step": 32500
+    },
+    {
+      "epoch": 77.46478873239437,
+      "grad_norm": 2.133082389831543,
+      "learning_rate": 6.7e-05,
+      "loss": 0.4743,
+      "step": 33000
+    },
+    {
+      "epoch": 77.46478873239437,
+      "eval_accuracy": 0.8547410139669203,
+      "eval_loss": 0.7057022452354431,
+      "eval_runtime": 136.0992,
+      "eval_samples_per_second": 129.92,
+      "eval_steps_per_second": 4.063,
+      "step": 33000
+    },
+    {
+      "epoch": 78.63849765258216,
+      "grad_norm": 1.9323476552963257,
+      "learning_rate": 6.65e-05,
+      "loss": 0.4749,
+      "step": 33500
+    },
+    {
+      "epoch": 78.63849765258216,
+      "eval_accuracy": 0.8546438959333029,
+      "eval_loss": 0.7180441617965698,
+      "eval_runtime": 141.0328,
+      "eval_samples_per_second": 125.375,
+      "eval_steps_per_second": 3.921,
+      "step": 33500
+    },
+    {
+      "epoch": 79.81220657276995,
+      "grad_norm": 2.1482994556427,
+      "learning_rate": 6.6e-05,
+      "loss": 0.4693,
+      "step": 34000
+    },
+    {
+      "epoch": 79.81220657276995,
+      "eval_accuracy": 0.8554924128329217,
+      "eval_loss": 0.7105869054794312,
+      "eval_runtime": 137.5148,
+      "eval_samples_per_second": 128.583,
+      "eval_steps_per_second": 4.021,
+      "step": 34000
+    },
+    {
+      "epoch": 80.98591549295774,
+      "grad_norm": 2.077798366546631,
+      "learning_rate": 6.55e-05,
+      "loss": 0.4675,
+      "step": 34500
+    },
+    {
+      "epoch": 80.98591549295774,
+      "eval_accuracy": 0.8544003573962279,
+      "eval_loss": 0.7216335535049438,
+      "eval_runtime": 142.3955,
+      "eval_samples_per_second": 124.175,
+      "eval_steps_per_second": 3.884,
+      "step": 34500
+    },
+    {
+      "epoch": 82.15962441314554,
+      "grad_norm": 2.2198646068573,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 0.4637,
+      "step": 35000
+    },
+    {
+      "epoch": 82.15962441314554,
+      "eval_accuracy": 0.855125887761347,
+      "eval_loss": 0.717957079410553,
+      "eval_runtime": 137.0613,
+      "eval_samples_per_second": 129.008,
+      "eval_steps_per_second": 4.035,
+      "step": 35000
+    },
+    {
+      "epoch": 83.33333333333333,
+      "grad_norm": 2.155299186706543,
+      "learning_rate": 6.450000000000001e-05,
+      "loss": 0.461,
+      "step": 35500
+    },
+    {
+      "epoch": 83.33333333333333,
+      "eval_accuracy": 0.8554556348895517,
+      "eval_loss": 0.7124961614608765,
+      "eval_runtime": 145.4916,
+      "eval_samples_per_second": 121.533,
+      "eval_steps_per_second": 3.801,
+      "step": 35500
+    },
+    {
+      "epoch": 84.50704225352112,
+      "grad_norm": 2.8300819396972656,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 0.4542,
+      "step": 36000
+    },
+    {
+      "epoch": 84.50704225352112,
+      "eval_accuracy": 0.856205421066434,
+      "eval_loss": 0.7241988182067871,
+      "eval_runtime": 138.1126,
+      "eval_samples_per_second": 128.026,
+      "eval_steps_per_second": 4.004,
+      "step": 36000
+    },
+    {
+      "epoch": 85.68075117370893,
+      "grad_norm": 2.4033689498901367,
+      "learning_rate": 6.35e-05,
+      "loss": 0.4564,
+      "step": 36500
+    },
+    {
+      "epoch": 85.68075117370893,
+      "eval_accuracy": 0.8557880398860113,
+      "eval_loss": 0.7188218832015991,
+      "eval_runtime": 138.5628,
+      "eval_samples_per_second": 127.61,
+      "eval_steps_per_second": 3.991,
+      "step": 36500
+    },
+    {
+      "epoch": 86.85446009389672,
+      "grad_norm": 2.104976177215576,
+      "learning_rate": 6.3e-05,
+      "loss": 0.4497,
+      "step": 37000
+    },
+    {
+      "epoch": 86.85446009389672,
+      "eval_accuracy": 0.8571525482780049,
+      "eval_loss": 0.718337893486023,
+      "eval_runtime": 136.8784,
+      "eval_samples_per_second": 129.18,
+      "eval_steps_per_second": 4.04,
+      "step": 37000
+    },
+    {
+      "epoch": 88.02816901408451,
+      "grad_norm": 1.9449199438095093,
+      "learning_rate": 6.25e-05,
+      "loss": 0.4485,
+      "step": 37500
+    },
+    {
+      "epoch": 88.02816901408451,
+      "eval_accuracy": 0.8572300673528399,
+      "eval_loss": 0.7067864537239075,
+      "eval_runtime": 140.6771,
+      "eval_samples_per_second": 125.692,
+      "eval_steps_per_second": 3.931,
+      "step": 37500
+    },
+    {
+      "epoch": 89.2018779342723,
+      "grad_norm": 2.0170960426330566,
+      "learning_rate": 6.2e-05,
+      "loss": 0.4486,
+      "step": 38000
+    },
+    {
+      "epoch": 89.2018779342723,
+      "eval_accuracy": 0.8567210575027162,
+      "eval_loss": 0.7134066820144653,
+      "eval_runtime": 137.1729,
+      "eval_samples_per_second": 128.903,
+      "eval_steps_per_second": 4.031,
+      "step": 38000
+    },
+    {
+      "epoch": 90.3755868544601,
+      "grad_norm": 2.048830032348633,
+      "learning_rate": 6.15e-05,
+      "loss": 0.4439,
+      "step": 38500
+    },
+    {
+      "epoch": 90.3755868544601,
+      "eval_accuracy": 0.8563134552098389,
+      "eval_loss": 0.7194843292236328,
+      "eval_runtime": 136.9411,
+      "eval_samples_per_second": 129.121,
+      "eval_steps_per_second": 4.038,
+      "step": 38500
+    },
+    {
+      "epoch": 91.54929577464789,
+      "grad_norm": 2.0259907245635986,
+      "learning_rate": 6.1e-05,
+      "loss": 0.4385,
+      "step": 39000
+    },
+    {
+      "epoch": 91.54929577464789,
+      "eval_accuracy": 0.8580620221342309,
+      "eval_loss": 0.7045323252677917,
+      "eval_runtime": 137.122,
+      "eval_samples_per_second": 128.951,
+      "eval_steps_per_second": 4.033,
+      "step": 39000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 100000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 235,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.2882090840162304e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b819e1b54572c6679927fdc0672812a1d6e0ce244f1eba59629d47671b090a7
+size 5176

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff