End of training

Browse files

Files changed (6) hide show

README.md +20 -2
all_results.json +16 -0
eval_results.json +10 -0
runs/Jul18_01-14-07_fe084eaf0329/events.out.tfevents.1721268459.fe084eaf0329.30664.1 +3 -0
train_results.json +9 -0
trainer_state.json +217 -0

README.md CHANGED Viewed

@@ -1,9 +1,24 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
 - name: mini-roberta-javanese
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -11,7 +26,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mini-roberta-javanese
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 ## Model description

 ---
 tags:
 - generated_from_trainer
+datasets:
+- akahana/GlotCC-V1-jav-Latn
+metrics:
+- accuracy
 model-index:
 - name: mini-roberta-javanese
+  results:
+  - task:
+      name: Masked Language Modeling
+      type: fill-mask
+    dataset:
+      name: akahana/GlotCC-V1-jav-Latn default
+      type: akahana/GlotCC-V1-jav-Latn
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.13617949114930072
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # mini-roberta-javanese
+This model is a fine-tuned version of [](https://huggingface.co/) on the akahana/GlotCC-V1-jav-Latn default dataset.
+It achieves the following results on the evaluation set:
+- Loss: 6.6480
+- Accuracy: 0.1362
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.13617949114930072,
+    "eval_loss": 6.647983074188232,
+    "eval_runtime": 53.5181,
+    "eval_samples": 8106,
+    "eval_samples_per_second": 151.463,
+    "eval_steps_per_second": 37.875,
+    "perplexity": 771.2272476651699,
+    "total_flos": 5910924298141440.0,
+    "train_loss": 7.017849675472083,
+    "train_runtime": 3142.2268,
+    "train_samples": 160441,
+    "train_samples_per_second": 510.596,
+    "train_steps_per_second": 3.991
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.13617949114930072,
+    "eval_loss": 6.647983074188232,
+    "eval_runtime": 53.5181,
+    "eval_samples": 8106,
+    "eval_samples_per_second": 151.463,
+    "eval_steps_per_second": 37.875,
+    "perplexity": 771.2272476651699
+}

runs/Jul18_01-14-07_fe084eaf0329/events.out.tfevents.1721268459.fe084eaf0329.30664.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9fbaa8e33cf10be99b2b37313c0df2e9ca517e7c913cdd28ef51565b35826b1d
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "total_flos": 5910924298141440.0,
+    "train_loss": 7.017849675472083,
+    "train_runtime": 3142.2268,
+    "train_samples": 160441,
+    "train_samples_per_second": 510.596,
+    "train_steps_per_second": 3.991
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,217 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 12540,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.39872408293460926,
+      "grad_norm": 0.7819421887397766,
+      "learning_rate": 4.800637958532696e-05,
+      "loss": 8.5954,
+      "step": 500
+    },
+    {
+      "epoch": 0.7974481658692185,
+      "grad_norm": 1.4368996620178223,
+      "learning_rate": 4.6012759170653905e-05,
+      "loss": 7.6895,
+      "step": 1000
+    },
+    {
+      "epoch": 1.1961722488038278,
+      "grad_norm": 1.0771726369857788,
+      "learning_rate": 4.401913875598087e-05,
+      "loss": 7.5338,
+      "step": 1500
+    },
+    {
+      "epoch": 1.594896331738437,
+      "grad_norm": 1.4085040092468262,
+      "learning_rate": 4.2025518341307815e-05,
+      "loss": 7.4062,
+      "step": 2000
+    },
+    {
+      "epoch": 1.9936204146730463,
+      "grad_norm": 1.2863935232162476,
+      "learning_rate": 4.003189792663477e-05,
+      "loss": 7.3026,
+      "step": 2500
+    },
+    {
+      "epoch": 2.3923444976076556,
+      "grad_norm": 1.343314528465271,
+      "learning_rate": 3.8038277511961725e-05,
+      "loss": 7.2067,
+      "step": 3000
+    },
+    {
+      "epoch": 2.7910685805422646,
+      "grad_norm": 1.8292430639266968,
+      "learning_rate": 3.604465709728867e-05,
+      "loss": 7.1446,
+      "step": 3500
+    },
+    {
+      "epoch": 3.189792663476874,
+      "grad_norm": 1.3264261484146118,
+      "learning_rate": 3.4051036682615634e-05,
+      "loss": 7.075,
+      "step": 4000
+    },
+    {
+      "epoch": 3.588516746411483,
+      "grad_norm": 1.511952519416809,
+      "learning_rate": 3.205741626794259e-05,
+      "loss": 7.0362,
+      "step": 4500
+    },
+    {
+      "epoch": 3.9872408293460926,
+      "grad_norm": 1.9909762144088745,
+      "learning_rate": 3.0063795853269537e-05,
+      "loss": 6.9639,
+      "step": 5000
+    },
+    {
+      "epoch": 4.385964912280702,
+      "grad_norm": 1.8488012552261353,
+      "learning_rate": 2.8070175438596492e-05,
+      "loss": 6.9264,
+      "step": 5500
+    },
+    {
+      "epoch": 4.784688995215311,
+      "grad_norm": 1.4738715887069702,
+      "learning_rate": 2.6076555023923443e-05,
+      "loss": 6.9039,
+      "step": 6000
+    },
+    {
+      "epoch": 5.18341307814992,
+      "grad_norm": 1.7991809844970703,
+      "learning_rate": 2.4082934609250398e-05,
+      "loss": 6.8603,
+      "step": 6500
+    },
+    {
+      "epoch": 5.582137161084529,
+      "grad_norm": 1.811631441116333,
+      "learning_rate": 2.2089314194577353e-05,
+      "loss": 6.8354,
+      "step": 7000
+    },
+    {
+      "epoch": 5.980861244019139,
+      "grad_norm": 1.732555627822876,
+      "learning_rate": 2.0095693779904308e-05,
+      "loss": 6.8048,
+      "step": 7500
+    },
+    {
+      "epoch": 6.379585326953748,
+      "grad_norm": 1.7755110263824463,
+      "learning_rate": 1.8102073365231263e-05,
+      "loss": 6.7829,
+      "step": 8000
+    },
+    {
+      "epoch": 6.778309409888357,
+      "grad_norm": 2.225064277648926,
+      "learning_rate": 1.611244019138756e-05,
+      "loss": 6.7659,
+      "step": 8500
+    },
+    {
+      "epoch": 7.177033492822966,
+      "grad_norm": 1.872410774230957,
+      "learning_rate": 1.4118819776714515e-05,
+      "loss": 6.7374,
+      "step": 9000
+    },
+    {
+      "epoch": 7.575757575757576,
+      "grad_norm": 1.7238253355026245,
+      "learning_rate": 1.2125199362041468e-05,
+      "loss": 6.7349,
+      "step": 9500
+    },
+    {
+      "epoch": 7.974481658692185,
+      "grad_norm": 1.8047776222229004,
+      "learning_rate": 1.0131578947368421e-05,
+      "loss": 6.7204,
+      "step": 10000
+    },
+    {
+      "epoch": 8.373205741626794,
+      "grad_norm": 2.0625622272491455,
+      "learning_rate": 8.145933014354067e-06,
+      "loss": 6.6957,
+      "step": 10500
+    },
+    {
+      "epoch": 8.771929824561404,
+      "grad_norm": 1.8150039911270142,
+      "learning_rate": 6.152312599681021e-06,
+      "loss": 6.7014,
+      "step": 11000
+    },
+    {
+      "epoch": 9.170653907496012,
+      "grad_norm": 2.004660129547119,
+      "learning_rate": 4.158692185007974e-06,
+      "loss": 6.6855,
+      "step": 11500
+    },
+    {
+      "epoch": 9.569377990430622,
+      "grad_norm": 2.1859395503997803,
+      "learning_rate": 2.1650717703349284e-06,
+      "loss": 6.6813,
+      "step": 12000
+    },
+    {
+      "epoch": 9.96810207336523,
+      "grad_norm": 2.1167070865631104,
+      "learning_rate": 1.7145135566188198e-07,
+      "loss": 6.6833,
+      "step": 12500
+    },
+    {
+      "epoch": 10.0,
+      "step": 12540,
+      "total_flos": 5910924298141440.0,
+      "train_loss": 7.017849675472083,
+      "train_runtime": 3142.2268,
+      "train_samples_per_second": 510.596,
+      "train_steps_per_second": 3.991
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 12540,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5910924298141440.0,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}