Edresson
/

wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-portuguese

Edresson commited on Jan 19, 2022

Commit

323f6c4

1 Parent(s): 5856826

Add Checkpoints

Browse files

Files changed (14) hide show

README.md +69 -0
all_results.json +23 -0
config.json +84 -0
config_train.json +183 -0
eval_results.json +12 -0
nohup.out +0 -0
preprocessor_config.json +9 -0
pytorch_model.bin +3 -0
special_tokens_map.json +1 -0
tokenizer_config.json +1 -0
train_results.json +14 -0
trainer_state.json +1485 -0
training_args.bin +3 -0
vocab.json +1 -0

README.md ADDED Viewed

	@@ -0,0 +1,69 @@

+---
+language: pt
+datasets:
+- Common Voice
+metrics:
+- wer
+tags:
+- audio
+- speech
+- wav2vec2
+- pt
+- Russian-speech-corpus
+- automatic-speech-recognition
+- speech
+- PyTorch
+license: apache-2.0
+model-index:
+- name: Edresson Casanova Wav2vec2 Large 100k Voxpopuli fine-tuned in Russian using the Common Voice 7.0, TTS-Portuguese Corpus plus data augmentation
+  results:
+  - task:
+      name: Speech Recognition
+      type: automatic-speech-recognition
+    metrics:
+       - name: Test Common Voice 7.0 WER
+         type: wer
+         value: 20.20
+---
+# Wav2vec2 Large 100k Voxpopuli fine-tuned in Russian using the Common Voice 7.0, TTS-Portuguese Corpus plus data augmentation
+[Wav2vec2 Large 100k Voxpopuli](https://huggingface.co/facebook/wav2vec2-large-100k-voxpopuli) Wav2vec2 Large 100k Voxpopuli fine-tuned in Russian using the Common Voice 7.0, M-AILABS plus data augmentation method based on TTS and voice conversion.
+# Use this model
+```python
+from transformers import AutoTokenizer, Wav2Vec2ForCTC
+tokenizer = AutoTokenizer.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-portuguese")
+model = Wav2Vec2ForCTC.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-portuguese")
+```
+# Results
+For the results check the [article (Soon)]()
+# Example test with Common Voice Dataset
+```python
+dataset = load_dataset("common_voice", "pt", split="test", data_dir="./cv-corpus-7.0-2021-07-21")
+resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)
+def map_to_array(batch):
+    speech, _ = torchaudio.load(batch["path"])
+    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
+    batch["sampling_rate"] = resampler.new_freq
+    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("â€™", "'")
+    return batch
+```
+```python
+ds = dataset.map(map_to_array)
+result = ds.map(map_to_pred, batched=True, batch_size=1, remove_columns=list(ds.features.keys()))
+print(wer.compute(predictions=result["predicted"], references=result["target"]))
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+    "epoch": 68.0,
+    "eval_loss": 0.48256802558898926,
+    "eval_mem_cpu_alloc_delta": 779292672,
+    "eval_mem_cpu_peaked_delta": 35237888,
+    "eval_mem_gpu_alloc_delta": 0,
+    "eval_mem_gpu_peaked_delta": 2422320640,
+    "eval_runtime": 267.275,
+    "eval_samples": 7066,
+    "eval_samples_per_second": 26.437,
+    "eval_wer": 0.30902007791429426,
+    "init_mem_cpu_alloc_delta": 1925677056,
+    "init_mem_cpu_peaked_delta": 805134336,
+    "init_mem_gpu_alloc_delta": 1261939712,
+    "init_mem_gpu_peaked_delta": 0,
+    "train_mem_cpu_alloc_delta": 1960361984,
+    "train_mem_cpu_peaked_delta": 24576,
+    "train_mem_gpu_alloc_delta": 3801166848,
+    "train_mem_gpu_peaked_delta": 9917577216,
+    "train_runtime": 220193.78,
+    "train_samples": 43148,
+    "train_samples_per_second": 0.142
+}

config.json ADDED Viewed

	@@ -0,0 +1,84 @@

+{
+  "_name_or_path": "facebook/wav2vec2-large-100k-voxpopuli",
+  "activation_dropout": 0.0,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": true,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "gradient_checkpointing": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 768,
+  "transformers_version": "4.6.1",
+  "vocab_size": 45
+}

config_train.json ADDED Viewed

	@@ -0,0 +1,183 @@

+{
+    "run_name": "Wav2Vec-fine-tuning-TEDx",
+    "run_description": "Fine tuning TEDx",
+    "seed": 42,
+    // AUDIO PARAMS
+    "sampling_rate": 16000,
+    // VOCABULARY PARAMETERS
+    "vocab":{
+        "vocab_path": "example/vocab_example.json", // generic vocab for Portuguese
+        "blank": "<pad>", // blank token for padding
+        "silence": "|", // token between words
+        "unk": "<unk>" // unk token
+    },
+    // TRAINING
+    "batch_size": 8,       // Batch size for training.
+    "mixed_precision": true,     // level of optimization with NVIDIA's apex feature for automatic mixed FP16/FP32 precision (AMP), NOTE: currently only O1 is supported, and use "O1" to activate.
+    "early_stop_epochs": 10, // If 0 disabled else Number of epochs for stop training with validation loss dont decrease
+    "preprocess_dataset": false, // if true, the dataset will be pre-processed and saved in disk, otherwise the audio files will be loaded in each step. Preprocessing makes training faster, but requires much more disk space.
+    // OPTIMIZER
+    "epochs": 140,                // total number of epochs to train.
+    "lr": 0.00003,                  // Initial learning rate.
+    "gradient_accumulation_steps": 24,
+    // LOGGING
+    "logging_steps": 100,    // Number of steps to plot.
+    "load_best_model_at_end": true,
+    "save_total_limit": 3,
+    "warmup_ratio": 0.06666666667, // 0 disable Ratio of total training steps used for a linear warmup from 0 to learning_rate
+    "warmup_steps": 0, // 0 disable  Number of steps used for a linear warmup from 0 to learning_rate
+    // DATA LOADING
+    "num_loader_workers": 8,        // number of training data loader processes. Don't set it too big. 4-8 are goo
+    // MODEL
+    "freeze_feature_extractor": true, // Whether to freeze the feature extractor layers of the model.
+    "attention_dropout": 0.1, // The dropout ratio for the attention probabilities.
+    "activation_dropout": 0.1, // The dropout ratio for activations inside the fully connected layer.
+    "hidden_dropout": 0.1, // The dropout probabilitiy for all fully connected layers in the embeddings, encoder, and pooler.
+    "feat_proj_dropout": 0.1, // The dropout probabilitiy for all 1D convolutional layers in feature extractor.
+    "mask_time_prob": 0.05, //  Propability of each feature vector along the time axis to be chosen as the start of the vector span to be masked.
+    "layerdrop": 0.0,  // The LayerDrop probability.
+    "gradient_checkpointing": true,  // If True, use gradient checkpointing to save memory at the expense of slower backward pass.
+    // ToDo: Implement Time mask and Frequency Mask
+    "audio_augmentation":[
+        // additive noise and room impulse response (RIR) simulation similar to: https://arxiv.org/pdf/2009.14153.pdf
+        {
+            "name": "additive",
+            "sounds_path":"/workspace/scratch/ecasanova/datasets/YourTTS2ASR/musan/speech/", // download: https://www.openslr.org/17/
+            "lru_cache_size": 32, // Maximum size of the LRU cache for storing noise files in memory
+            "min_snr_in_db": 13.0,
+            "max_snr_in_db": 20.0,
+            // "sample_rate": 16000,
+            "p": 0.25
+        },
+        {
+            "name": "additive",
+            "sounds_path":"/workspace/scratch/ecasanova/datasets/YourTTS2ASR/musan/music/", // download: https://www.openslr.org/17/
+            "lru_cache_size": 32, // Maximum size of the LRU cache for storing noise files in memory
+            "min_snr_in_db": 5.0,
+            "max_snr_in_db": 15.0,
+            // "sample_rate": 16000,
+            "p": 0.25
+        },
+        {
+            "name": "additive",
+            "sounds_path":"/workspace/scratch/ecasanova/datasets/YourTTS2ASR/musan/noise/", // download: https://www.openslr.org/17/
+            "lru_cache_size": 32, // Maximum size of the LRU cache for storing noise files in memory
+            "min_snr_in_db": 0.0,
+            "max_snr_in_db": 15.0,
+            // "sample_rate": 16000,
+            "p": 0.25
+        },
+        // rir filter proposed by: https://ieeexplore.ieee.org/document/7953152
+        {
+            "name": "rir",
+            "ir_path": "/workspace/scratch/ecasanova/datasets/YourTTS2ASR/RIRS_NOISES/simulated_rirs/", // download: https://www.openslr.org/28/
+            "lru_cache_size": 128, // Maximum size of the LRU cache for storing noise files in memory
+            // "sample_rate": 16000,
+            "p": 0.25
+        }
+        ,
+        // {
+        //     "name": "gain",
+        //     "min_gain_in_db": -18.0,
+        //     "max_gain_in_db": 6,
+        //     "p": 0.25 // propability of apply this method, 0 is disable
+        // },
+        {
+            "name": "pitch_shift",
+            "min_semitones": -4,
+            "max_semitones": 4,
+            "p": 0.25 // propability of apply this method, 0 is disable
+        },
+        {
+            "name": "gaussian",
+            "min_amplitude": 0.0001,
+            "max_amplitude": 0.001,
+            "p": 0.25 // propability of apply this method, 0 is disable
+        }
+    ],
+    // PATHS
+    "output_path": "../checkpoints/Wav2Vec-voxpopuli/one-speaker/Final-paper/GEN+GT/PT/140-epoch/",
+    // CACHE
+    "dataset_cache": "../datasets/",
+    // DATASETS
+    "datasets":{
+        "files_path": "/workspace/scratch/ecasanova/datasets/YourTTS2ASR/Common_Voice/cv-corpus-7.0-2021-07-21/pt/", // relative path for audios It's will be join with the CS
+        "train":
+            [
+               // this dicts is pass directly for the load dataset see the documentation: https://huggingface.co/docs/datasets/package_reference/loading_methods.html#datasets.load_dataset
+            {
+                "name": "csv",
+                "path": "csv",
+                "data_files": ["/workspace/scratch/ecasanova/datasets/YourTTS2ASR/Common_Voice/cv-corpus-7.0-2021-07-21/pt/train_converted.csv"], // csv files
+                "text_column": "text",
+                "path_column": "file_path"
+            },
+            {
+                "name": "csv",
+                "path": "csv",
+                "data_files": ["/workspace/scratch/ecasanova/datasets/YourTTS2ASR/Common_Voice/cv-corpus-7.0-2021-07-21/pt/train_converted_copy_generated_en_speakers.csv"], // csv files
+                "text_column": "text",
+                "path_column": "file_path"
+            },
+            {
+                "name": "csv",
+                "path": "csv",
+                "data_files": ["/workspace/scratch/ecasanova/datasets/YourTTS2ASR/TTS-Portuguese-Corpus_16khz/train_TTS-Portuguese_Corpus_metadata_converted_to_ASR_copy_generated_VC_en_speakers_5_speakers_per_text_fixed.csv"], // csv files
+                "text_column": "text",
+                "path_column": "file_path"
+            },
+            {
+                "name": "csv",
+                "path": "csv",
+                "data_files": ["/workspace/scratch/ecasanova/datasets/YourTTS2ASR/TTS-Portuguese-Corpus_16khz/train_TTS-Portuguese_Corpus_metadata_converted_to_ASR.csv"], // csv files
+                "text_column": "text",
+                "path_column": "file_path"
+            }
+            ]
+        ,
+        "devel":
+            [
+                {
+                    "name": "csv",
+                    "path": "csv",
+                    "data_files": ["/workspace/scratch/ecasanova/datasets/YourTTS2ASR/Common_Voice/cv-corpus-7.0-2021-07-21/pt/dev_converted.csv"], // csv files
+                    "text_column": "text",
+                    "path_column": "file_path"
+                }
+            ]
+            ,
+        "test":
+            {
+                "name": "csv",
+                "path": "csv",
+                "data_files": ["/workspace/scratch/ecasanova/datasets/YourTTS2ASR/Common_Voice/cv-corpus-7.0-2021-07-21/pt/test_converted.csv"], // csv files
+                "text_column": "text",
+                "path_column": "file_path"
+            }
+    }//,
+    // used only for test
+    // "KenLM":{
+    // "kenlm_model_path": "../../kenLM/binaries/subtitle/4-gram/lm.binary", // Path for KenLM model
+    // "lexicon_path": "example/lexicon.lst", // file with all words for limit the decoder search
+    // "beam": 2048,
+    // "nbest": 1,
+    // "beam_threshold": 25,
+    // "lm_weight": 1,
+    // "word_score": -1,
+    // "sil_weight": 0
+    // }
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 68.0,
+    "eval_loss": 0.48256802558898926,
+    "eval_mem_cpu_alloc_delta": 779292672,
+    "eval_mem_cpu_peaked_delta": 35237888,
+    "eval_mem_gpu_alloc_delta": 0,
+    "eval_mem_gpu_peaked_delta": 2422320640,
+    "eval_runtime": 267.275,
+    "eval_samples": 7066,
+    "eval_samples_per_second": 26.437,
+    "eval_wer": 0.30902007791429426
+}

nohup.out ADDED Viewed

File without changes

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13db776bf6c387dbc3e0fd965a4f29c11af422f6721127bda3f0055240a7b8d4
+size 1262118359

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "<pad>", "do_lower_case": false, "word_delimiter_token": "\|"}

train_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 68.0,
+    "init_mem_cpu_alloc_delta": 1925677056,
+    "init_mem_cpu_peaked_delta": 805134336,
+    "init_mem_gpu_alloc_delta": 1261939712,
+    "init_mem_gpu_peaked_delta": 0,
+    "train_mem_cpu_alloc_delta": 1960361984,
+    "train_mem_cpu_peaked_delta": 24576,
+    "train_mem_gpu_alloc_delta": 3801166848,
+    "train_mem_gpu_peaked_delta": 9917577216,
+    "train_runtime": 220193.78,
+    "train_samples": 43148,
+    "train_samples_per_second": 0.142
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1485 @@

+{
+  "best_metric": 0.45926210284233093,
+  "best_model_checkpoint": "../checkpoints/Wav2Vec-voxpopuli/one-speaker/Final-paper/GEN+GT/PT/140-epoch/checkpoint-12992",
+  "epoch": 67.99666295884316,
+  "global_step": 15232,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.4347202295552368e-08,
+      "loss": 12.1633,
+      "step": 1
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 1.4347202295552367e-06,
+      "loss": 14.1807,
+      "step": 100
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 2.8694404591104733e-06,
+      "loss": 13.7335,
+      "step": 200
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 15.658885955810547,
+      "eval_runtime": 264.6556,
+      "eval_samples_per_second": 26.699,
+      "eval_wer": 1.0,
+      "step": 224
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 4.30416068866571e-06,
+      "loss": 10.6421,
+      "step": 300
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 5.724533715925395e-06,
+      "loss": 8.3543,
+      "step": 400
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 8.12367057800293,
+      "eval_runtime": 266.0146,
+      "eval_samples_per_second": 26.562,
+      "eval_wer": 1.0,
+      "step": 448
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 7.159253945480631e-06,
+      "loss": 6.9831,
+      "step": 500
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 8.593974175035867e-06,
+      "loss": 5.9004,
+      "step": 600
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 5.496402263641357,
+      "eval_runtime": 264.7939,
+      "eval_samples_per_second": 26.685,
+      "eval_wer": 1.0,
+      "step": 672
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 1.0028694404591104e-05,
+      "loss": 5.1757,
+      "step": 700
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 1.1463414634146343e-05,
+      "loss": 4.4451,
+      "step": 800
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 3.941786766052246,
+      "eval_runtime": 267.2314,
+      "eval_samples_per_second": 26.442,
+      "eval_wer": 1.0,
+      "step": 896
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 1.2898134863701579e-05,
+      "loss": 3.9385,
+      "step": 900
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 1.4332855093256816e-05,
+      "loss": 3.4994,
+      "step": 1000
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 1.5767575322812052e-05,
+      "loss": 3.2313,
+      "step": 1100
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 3.2146358489990234,
+      "eval_runtime": 265.1709,
+      "eval_samples_per_second": 26.647,
+      "eval_wer": 1.0,
+      "step": 1120
+    },
+    {
+      "epoch": 5.36,
+      "learning_rate": 1.7202295552367287e-05,
+      "loss": 3.0982,
+      "step": 1200
+    },
+    {
+      "epoch": 5.8,
+      "learning_rate": 1.8637015781922526e-05,
+      "loss": 2.9965,
+      "step": 1300
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 3.0070688724517822,
+      "eval_runtime": 263.6011,
+      "eval_samples_per_second": 26.806,
+      "eval_wer": 1.0,
+      "step": 1344
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 2.0071736011477762e-05,
+      "loss": 2.968,
+      "step": 1400
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 2.1506456241033e-05,
+      "loss": 2.9073,
+      "step": 1500
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 2.9070024490356445,
+      "eval_runtime": 266.8363,
+      "eval_samples_per_second": 26.481,
+      "eval_wer": 1.0,
+      "step": 1568
+    },
+    {
+      "epoch": 7.14,
+      "learning_rate": 2.2941176470588233e-05,
+      "loss": 2.8939,
+      "step": 1600
+    },
+    {
+      "epoch": 7.59,
+      "learning_rate": 2.4375896700143472e-05,
+      "loss": 2.7757,
+      "step": 1700
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 2.5364999771118164,
+      "eval_runtime": 267.9269,
+      "eval_samples_per_second": 26.373,
+      "eval_wer": 0.9864149435620817,
+      "step": 1792
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 2.5810616929698708e-05,
+      "loss": 2.6347,
+      "step": 1800
+    },
+    {
+      "epoch": 8.48,
+      "learning_rate": 2.7245337159253947e-05,
+      "loss": 2.3293,
+      "step": 1900
+    },
+    {
+      "epoch": 8.93,
+      "learning_rate": 2.8680057388809186e-05,
+      "loss": 1.9643,
+      "step": 2000
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 1.6589182615280151,
+      "eval_runtime": 267.6476,
+      "eval_samples_per_second": 26.4,
+      "eval_wer": 0.8792927779442613,
+      "step": 2016
+    },
+    {
+      "epoch": 9.37,
+      "learning_rate": 2.9991800198161877e-05,
+      "loss": 1.6856,
+      "step": 2100
+    },
+    {
+      "epoch": 9.82,
+      "learning_rate": 2.9889302675185352e-05,
+      "loss": 1.4363,
+      "step": 2200
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.1896471977233887,
+      "eval_runtime": 263.8452,
+      "eval_samples_per_second": 26.781,
+      "eval_wer": 0.6924782738987114,
+      "step": 2240
+    },
+    {
+      "epoch": 10.27,
+      "learning_rate": 2.9786805152208823e-05,
+      "loss": 1.2758,
+      "step": 2300
+    },
+    {
+      "epoch": 10.71,
+      "learning_rate": 2.9684307629232295e-05,
+      "loss": 1.1429,
+      "step": 2400
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 0.9722168445587158,
+      "eval_runtime": 263.6087,
+      "eval_samples_per_second": 26.805,
+      "eval_wer": 0.5862151633203476,
+      "step": 2464
+    },
+    {
+      "epoch": 11.16,
+      "learning_rate": 2.9581810106255766e-05,
+      "loss": 1.0663,
+      "step": 2500
+    },
+    {
+      "epoch": 11.61,
+      "learning_rate": 2.9479312583279238e-05,
+      "loss": 0.9901,
+      "step": 2600
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.8682753443717957,
+      "eval_runtime": 264.9373,
+      "eval_samples_per_second": 26.67,
+      "eval_wer": 0.5209070022974728,
+      "step": 2688
+    },
+    {
+      "epoch": 12.05,
+      "learning_rate": 2.937681506030271e-05,
+      "loss": 0.9495,
+      "step": 2700
+    },
+    {
+      "epoch": 12.5,
+      "learning_rate": 2.927431753732618e-05,
+      "loss": 0.9017,
+      "step": 2800
+    },
+    {
+      "epoch": 12.94,
+      "learning_rate": 2.9171820014349655e-05,
+      "loss": 0.8619,
+      "step": 2900
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.8171250820159912,
+      "eval_runtime": 265.9706,
+      "eval_samples_per_second": 26.567,
+      "eval_wer": 0.4934172410348617,
+      "step": 2912
+    },
+    {
+      "epoch": 13.39,
+      "learning_rate": 2.9069322491373127e-05,
+      "loss": 0.8365,
+      "step": 3000
+    },
+    {
+      "epoch": 13.84,
+      "learning_rate": 2.8966824968396598e-05,
+      "loss": 0.8003,
+      "step": 3100
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.7495774626731873,
+      "eval_runtime": 265.4019,
+      "eval_samples_per_second": 26.624,
+      "eval_wer": 0.4719208870242733,
+      "step": 3136
+    },
+    {
+      "epoch": 14.28,
+      "learning_rate": 2.8864327445420073e-05,
+      "loss": 0.7865,
+      "step": 3200
+    },
+    {
+      "epoch": 14.73,
+      "learning_rate": 2.876182992244354e-05,
+      "loss": 0.7599,
+      "step": 3300
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.709526002407074,
+      "eval_runtime": 267.6418,
+      "eval_samples_per_second": 26.401,
+      "eval_wer": 0.4462691039856158,
+      "step": 3360
+    },
+    {
+      "epoch": 15.18,
+      "learning_rate": 2.8659332399467012e-05,
+      "loss": 0.744,
+      "step": 3400
+    },
+    {
+      "epoch": 15.62,
+      "learning_rate": 2.8556834876490484e-05,
+      "loss": 0.7269,
+      "step": 3500
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.6969255805015564,
+      "eval_runtime": 250.8536,
+      "eval_samples_per_second": 28.168,
+      "eval_wer": 0.43817800419538505,
+      "step": 3584
+    },
+    {
+      "epoch": 16.07,
+      "learning_rate": 2.845433735351396e-05,
+      "loss": 0.7145,
+      "step": 3600
+    },
+    {
+      "epoch": 16.52,
+      "learning_rate": 2.835183983053743e-05,
+      "loss": 0.6993,
+      "step": 3700
+    },
+    {
+      "epoch": 16.96,
+      "learning_rate": 2.82493423075609e-05,
+      "loss": 0.6823,
+      "step": 3800
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 0.6924031376838684,
+      "eval_runtime": 249.8747,
+      "eval_samples_per_second": 28.278,
+      "eval_wer": 0.42992708021176707,
+      "step": 3808
+    },
+    {
+      "epoch": 17.41,
+      "learning_rate": 2.8146844784584376e-05,
+      "loss": 0.6733,
+      "step": 3900
+    },
+    {
+      "epoch": 17.85,
+      "learning_rate": 2.8044347261607844e-05,
+      "loss": 0.6537,
+      "step": 4000
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 0.6882328987121582,
+      "eval_runtime": 249.2057,
+      "eval_samples_per_second": 28.354,
+      "eval_wer": 0.42019778243931677,
+      "step": 4032
+    },
+    {
+      "epoch": 18.3,
+      "learning_rate": 2.7941849738631315e-05,
+      "loss": 0.646,
+      "step": 4100
+    },
+    {
+      "epoch": 18.75,
+      "learning_rate": 2.7839352215654787e-05,
+      "loss": 0.633,
+      "step": 4200
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.640243411064148,
+      "eval_runtime": 250.9411,
+      "eval_samples_per_second": 28.158,
+      "eval_wer": 0.40667266007391867,
+      "step": 4256
+    },
+    {
+      "epoch": 19.2,
+      "learning_rate": 2.773685469267826e-05,
+      "loss": 0.6312,
+      "step": 4300
+    },
+    {
+      "epoch": 19.64,
+      "learning_rate": 2.7634357169701733e-05,
+      "loss": 0.615,
+      "step": 4400
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.6481356620788574,
+      "eval_runtime": 250.1538,
+      "eval_samples_per_second": 28.247,
+      "eval_wer": 0.4058335830586355,
+      "step": 4480
+    },
+    {
+      "epoch": 20.09,
+      "learning_rate": 2.7531859646725204e-05,
+      "loss": 0.613,
+      "step": 4500
+    },
+    {
+      "epoch": 20.53,
+      "learning_rate": 2.742936212374868e-05,
+      "loss": 0.5993,
+      "step": 4600
+    },
+    {
+      "epoch": 20.98,
+      "learning_rate": 2.732686460077215e-05,
+      "loss": 0.5938,
+      "step": 4700
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.6299951672554016,
+      "eval_runtime": 247.7743,
+      "eval_samples_per_second": 28.518,
+      "eval_wer": 0.3915293177504745,
+      "step": 4704
+    },
+    {
+      "epoch": 21.43,
+      "learning_rate": 2.722436707779562e-05,
+      "loss": 0.5885,
+      "step": 4800
+    },
+    {
+      "epoch": 21.87,
+      "learning_rate": 2.712186955481909e-05,
+      "loss": 0.5808,
+      "step": 4900
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.6113302111625671,
+      "eval_runtime": 248.3595,
+      "eval_samples_per_second": 28.451,
+      "eval_wer": 0.3864548996104285,
+      "step": 4928
+    },
+    {
+      "epoch": 22.32,
+      "learning_rate": 2.7019372031842565e-05,
+      "loss": 0.5753,
+      "step": 5000
+    },
+    {
+      "epoch": 22.77,
+      "learning_rate": 2.6916874508866036e-05,
+      "loss": 0.5593,
+      "step": 5100
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.5968695282936096,
+      "eval_runtime": 249.8576,
+      "eval_samples_per_second": 28.28,
+      "eval_wer": 0.38301867945260215,
+      "step": 5152
+    },
+    {
+      "epoch": 23.21,
+      "learning_rate": 2.6814376985889508e-05,
+      "loss": 0.5624,
+      "step": 5200
+    },
+    {
+      "epoch": 23.66,
+      "learning_rate": 2.6711879462912982e-05,
+      "loss": 0.5527,
+      "step": 5300
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.591056764125824,
+      "eval_runtime": 249.7302,
+      "eval_samples_per_second": 28.295,
+      "eval_wer": 0.3816202177604635,
+      "step": 5376
+    },
+    {
+      "epoch": 24.11,
+      "learning_rate": 2.6609381939936454e-05,
+      "loss": 0.5495,
+      "step": 5400
+    },
+    {
+      "epoch": 24.55,
+      "learning_rate": 2.6506884416959922e-05,
+      "loss": 0.5345,
+      "step": 5500
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 2.6404386893983397e-05,
+      "loss": 0.535,
+      "step": 5600
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.5810828804969788,
+      "eval_runtime": 249.9622,
+      "eval_samples_per_second": 28.268,
+      "eval_wer": 0.3785236240135851,
+      "step": 5600
+    },
+    {
+      "epoch": 25.44,
+      "learning_rate": 2.6301889371006868e-05,
+      "loss": 0.5293,
+      "step": 5700
+    },
+    {
+      "epoch": 25.89,
+      "learning_rate": 2.619939184803034e-05,
+      "loss": 0.5275,
+      "step": 5800
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.5479044318199158,
+      "eval_runtime": 249.4827,
+      "eval_samples_per_second": 28.323,
+      "eval_wer": 0.3608430726201179,
+      "step": 5824
+    },
+    {
+      "epoch": 26.34,
+      "learning_rate": 2.609689432505381e-05,
+      "loss": 0.5185,
+      "step": 5900
+    },
+    {
+      "epoch": 26.78,
+      "learning_rate": 2.5994396802077286e-05,
+      "loss": 0.5086,
+      "step": 6000
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.5544137954711914,
+      "eval_runtime": 248.6479,
+      "eval_samples_per_second": 28.418,
+      "eval_wer": 0.35974428129058034,
+      "step": 6048
+    },
+    {
+      "epoch": 27.23,
+      "learning_rate": 2.5891899279100757e-05,
+      "loss": 0.5122,
+      "step": 6100
+    },
+    {
+      "epoch": 27.68,
+      "learning_rate": 2.578940175612423e-05,
+      "loss": 0.4998,
+      "step": 6200
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.5547609329223633,
+      "eval_runtime": 250.4753,
+      "eval_samples_per_second": 28.21,
+      "eval_wer": 0.3611627210068924,
+      "step": 6272
+    },
+    {
+      "epoch": 28.12,
+      "learning_rate": 2.56869042331477e-05,
+      "loss": 0.4984,
+      "step": 6300
+    },
+    {
+      "epoch": 28.57,
+      "learning_rate": 2.558440671017117e-05,
+      "loss": 0.4907,
+      "step": 6400
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 0.5520759224891663,
+      "eval_runtime": 249.4826,
+      "eval_samples_per_second": 28.323,
+      "eval_wer": 0.3550494456098292,
+      "step": 6496
+    },
+    {
+      "epoch": 29.02,
+      "learning_rate": 2.5481909187194643e-05,
+      "loss": 0.4992,
+      "step": 6500
+    },
+    {
+      "epoch": 29.46,
+      "learning_rate": 2.5379411664218114e-05,
+      "loss": 0.478,
+      "step": 6600
+    },
+    {
+      "epoch": 29.91,
+      "learning_rate": 2.527691414124159e-05,
+      "loss": 0.484,
+      "step": 6700
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.5502035617828369,
+      "eval_runtime": 248.5969,
+      "eval_samples_per_second": 28.424,
+      "eval_wer": 0.3493157526720607,
+      "step": 6720
+    },
+    {
+      "epoch": 30.36,
+      "learning_rate": 2.517441661826506e-05,
+      "loss": 0.4788,
+      "step": 6800
+    },
+    {
+      "epoch": 30.8,
+      "learning_rate": 2.507191909528853e-05,
+      "loss": 0.4694,
+      "step": 6900
+    },
+    {
+      "epoch": 31.0,
+      "eval_loss": 0.5480467677116394,
+      "eval_runtime": 249.534,
+      "eval_samples_per_second": 28.317,
+      "eval_wer": 0.3475377085206273,
+      "step": 6944
+    },
+    {
+      "epoch": 31.25,
+      "learning_rate": 2.4969421572312003e-05,
+      "loss": 0.4735,
+      "step": 7000
+    },
+    {
+      "epoch": 31.69,
+      "learning_rate": 2.4866924049335474e-05,
+      "loss": 0.467,
+      "step": 7100
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 0.5323254466056824,
+      "eval_runtime": 249.0417,
+      "eval_samples_per_second": 28.373,
+      "eval_wer": 0.3522924782738987,
+      "step": 7168
+    },
+    {
+      "epoch": 32.14,
+      "learning_rate": 2.4764426526358946e-05,
+      "loss": 0.4672,
+      "step": 7200
+    },
+    {
+      "epoch": 32.59,
+      "learning_rate": 2.4661929003382417e-05,
+      "loss": 0.4538,
+      "step": 7300
+    },
+    {
+      "epoch": 33.0,
+      "eval_loss": 0.5301573276519775,
+      "eval_runtime": 264.0308,
+      "eval_samples_per_second": 26.762,
+      "eval_wer": 0.35069423634002594,
+      "step": 7392
+    },
+    {
+      "epoch": 33.04,
+      "learning_rate": 2.4559431480405892e-05,
+      "loss": 0.4595,
+      "step": 7400
+    },
+    {
+      "epoch": 33.48,
+      "learning_rate": 2.4456933957429363e-05,
+      "loss": 0.4531,
+      "step": 7500
+    },
+    {
+      "epoch": 33.93,
+      "learning_rate": 2.4354436434452835e-05,
+      "loss": 0.4508,
+      "step": 7600
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.5232028961181641,
+      "eval_runtime": 266.2235,
+      "eval_samples_per_second": 26.542,
+      "eval_wer": 0.34547997203076614,
+      "step": 7616
+    },
+    {
+      "epoch": 34.37,
+      "learning_rate": 2.425193891147631e-05,
+      "loss": 0.4508,
+      "step": 7700
+    },
+    {
+      "epoch": 34.82,
+      "learning_rate": 2.4149441388499778e-05,
+      "loss": 0.4463,
+      "step": 7800
+    },
+    {
+      "epoch": 35.0,
+      "eval_loss": 0.5229475498199463,
+      "eval_runtime": 265.6277,
+      "eval_samples_per_second": 26.601,
+      "eval_wer": 0.3442413345320148,
+      "step": 7840
+    },
+    {
+      "epoch": 35.27,
+      "learning_rate": 2.404694386552325e-05,
+      "loss": 0.448,
+      "step": 7900
+    },
+    {
+      "epoch": 35.71,
+      "learning_rate": 2.394444634254672e-05,
+      "loss": 0.4358,
+      "step": 8000
+    },
+    {
+      "epoch": 36.0,
+      "eval_loss": 0.5204391479492188,
+      "eval_runtime": 264.7552,
+      "eval_samples_per_second": 26.689,
+      "eval_wer": 0.3393267405853561,
+      "step": 8064
+    },
+    {
+      "epoch": 36.16,
+      "learning_rate": 2.3841948819570195e-05,
+      "loss": 0.4352,
+      "step": 8100
+    },
+    {
+      "epoch": 36.61,
+      "learning_rate": 2.3739451296593667e-05,
+      "loss": 0.4337,
+      "step": 8200
+    },
+    {
+      "epoch": 37.0,
+      "eval_loss": 0.5224471688270569,
+      "eval_runtime": 264.2782,
+      "eval_samples_per_second": 26.737,
+      "eval_wer": 0.3428228948157027,
+      "step": 8288
+    },
+    {
+      "epoch": 37.05,
+      "learning_rate": 2.3636953773617138e-05,
+      "loss": 0.4342,
+      "step": 8300
+    },
+    {
+      "epoch": 37.5,
+      "learning_rate": 2.3534456250640613e-05,
+      "loss": 0.4276,
+      "step": 8400
+    },
+    {
+      "epoch": 37.94,
+      "learning_rate": 2.343195872766408e-05,
+      "loss": 0.4236,
+      "step": 8500
+    },
+    {
+      "epoch": 38.0,
+      "eval_loss": 0.4989425837993622,
+      "eval_runtime": 261.8928,
+      "eval_samples_per_second": 26.981,
+      "eval_wer": 0.32935770652282487,
+      "step": 8512
+    },
+    {
+      "epoch": 38.39,
+      "learning_rate": 2.3329461204687552e-05,
+      "loss": 0.4219,
+      "step": 8600
+    },
+    {
+      "epoch": 38.84,
+      "learning_rate": 2.3226963681711024e-05,
+      "loss": 0.4228,
+      "step": 8700
+    },
+    {
+      "epoch": 39.0,
+      "eval_loss": 0.5081614255905151,
+      "eval_runtime": 248.8196,
+      "eval_samples_per_second": 28.398,
+      "eval_wer": 0.33203476176206176,
+      "step": 8736
+    },
+    {
+      "epoch": 39.28,
+      "learning_rate": 2.31244661587345e-05,
+      "loss": 0.4164,
+      "step": 8800
+    },
+    {
+      "epoch": 39.73,
+      "learning_rate": 2.302196863575797e-05,
+      "loss": 0.4156,
+      "step": 8900
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 0.5086133480072021,
+      "eval_runtime": 249.2299,
+      "eval_samples_per_second": 28.351,
+      "eval_wer": 0.33465188292877834,
+      "step": 8960
+    },
+    {
+      "epoch": 40.18,
+      "learning_rate": 2.291947111278144e-05,
+      "loss": 0.4146,
+      "step": 9000
+    },
+    {
+      "epoch": 40.62,
+      "learning_rate": 2.2816973589804916e-05,
+      "loss": 0.4077,
+      "step": 9100
+    },
+    {
+      "epoch": 41.0,
+      "eval_loss": 0.5125470757484436,
+      "eval_runtime": 248.4193,
+      "eval_samples_per_second": 28.444,
+      "eval_wer": 0.33053640994905603,
+      "step": 9184
+    },
+    {
+      "epoch": 41.07,
+      "learning_rate": 2.2714476066828387e-05,
+      "loss": 0.4145,
+      "step": 9200
+    },
+    {
+      "epoch": 41.52,
+      "learning_rate": 2.2611978543851855e-05,
+      "loss": 0.4076,
+      "step": 9300
+    },
+    {
+      "epoch": 41.96,
+      "learning_rate": 2.250948102087533e-05,
+      "loss": 0.4035,
+      "step": 9400
+    },
+    {
+      "epoch": 42.0,
+      "eval_loss": 0.5019612312316895,
+      "eval_runtime": 249.3438,
+      "eval_samples_per_second": 28.338,
+      "eval_wer": 0.3280990909999001,
+      "step": 9408
+    },
+    {
+      "epoch": 42.41,
+      "learning_rate": 2.24069834978988e-05,
+      "loss": 0.4089,
+      "step": 9500
+    },
+    {
+      "epoch": 42.85,
+      "learning_rate": 2.2304485974922273e-05,
+      "loss": 0.3906,
+      "step": 9600
+    },
+    {
+      "epoch": 43.0,
+      "eval_loss": 0.4984828531742096,
+      "eval_runtime": 249.0113,
+      "eval_samples_per_second": 28.376,
+      "eval_wer": 0.323504145440016,
+      "step": 9632
+    },
+    {
+      "epoch": 43.3,
+      "learning_rate": 2.2201988451945744e-05,
+      "loss": 0.4014,
+      "step": 9700
+    },
+    {
+      "epoch": 43.75,
+      "learning_rate": 2.209949092896922e-05,
+      "loss": 0.3943,
+      "step": 9800
+    },
+    {
+      "epoch": 44.0,
+      "eval_loss": 0.4910255968570709,
+      "eval_runtime": 250.0829,
+      "eval_samples_per_second": 28.255,
+      "eval_wer": 0.3207072220557387,
+      "step": 9856
+    },
+    {
+      "epoch": 44.2,
+      "learning_rate": 2.199699340599269e-05,
+      "loss": 0.3964,
+      "step": 9900
+    },
+    {
+      "epoch": 44.64,
+      "learning_rate": 2.189449588301616e-05,
+      "loss": 0.3864,
+      "step": 10000
+    },
+    {
+      "epoch": 45.0,
+      "eval_loss": 0.4935137927532196,
+      "eval_runtime": 264.5798,
+      "eval_samples_per_second": 26.706,
+      "eval_wer": 0.3207671561282589,
+      "step": 10080
+    },
+    {
+      "epoch": 45.09,
+      "learning_rate": 2.1791998360039633e-05,
+      "loss": 0.3939,
+      "step": 10100
+    },
+    {
+      "epoch": 45.53,
+      "learning_rate": 2.1689500837063105e-05,
+      "loss": 0.3844,
+      "step": 10200
+    },
+    {
+      "epoch": 45.98,
+      "learning_rate": 2.1587003314086576e-05,
+      "loss": 0.3861,
+      "step": 10300
+    },
+    {
+      "epoch": 46.0,
+      "eval_loss": 0.5032411217689514,
+      "eval_runtime": 265.3535,
+      "eval_samples_per_second": 26.629,
+      "eval_wer": 0.3212865847567676,
+      "step": 10304
+    },
+    {
+      "epoch": 46.43,
+      "learning_rate": 2.1485530766339816e-05,
+      "loss": 0.3878,
+      "step": 10400
+    },
+    {
+      "epoch": 46.87,
+      "learning_rate": 2.1383033243363284e-05,
+      "loss": 0.3794,
+      "step": 10500
+    },
+    {
+      "epoch": 47.0,
+      "eval_loss": 0.49085402488708496,
+      "eval_runtime": 267.5564,
+      "eval_samples_per_second": 26.409,
+      "eval_wer": 0.32348416741584257,
+      "step": 10528
+    },
+    {
+      "epoch": 47.32,
+      "learning_rate": 2.1280535720386756e-05,
+      "loss": 0.3795,
+      "step": 10600
+    },
+    {
+      "epoch": 47.77,
+      "learning_rate": 2.1179063172639996e-05,
+      "loss": 0.381,
+      "step": 10700
+    },
+    {
+      "epoch": 48.0,
+      "eval_loss": 0.5050879120826721,
+      "eval_runtime": 266.1277,
+      "eval_samples_per_second": 26.551,
+      "eval_wer": 0.32192588153031665,
+      "step": 10752
+    },
+    {
+      "epoch": 48.21,
+      "learning_rate": 2.1076565649663468e-05,
+      "loss": 0.3883,
+      "step": 10800
+    },
+    {
+      "epoch": 48.66,
+      "learning_rate": 2.097406812668694e-05,
+      "loss": 0.372,
+      "step": 10900
+    },
+    {
+      "epoch": 49.0,
+      "eval_loss": 0.48373815417289734,
+      "eval_runtime": 266.8477,
+      "eval_samples_per_second": 26.48,
+      "eval_wer": 0.31886924383178505,
+      "step": 10976
+    },
+    {
+      "epoch": 49.11,
+      "learning_rate": 2.087157060371041e-05,
+      "loss": 0.3785,
+      "step": 11000
+    },
+    {
+      "epoch": 49.55,
+      "learning_rate": 2.0769073080733882e-05,
+      "loss": 0.3731,
+      "step": 11100
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 2.0667600532987122e-05,
+      "loss": 0.3712,
+      "step": 11200
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 0.49898475408554077,
+      "eval_runtime": 266.6932,
+      "eval_samples_per_second": 26.495,
+      "eval_wer": 0.32030766157227053,
+      "step": 11200
+    },
+    {
+      "epoch": 50.44,
+      "learning_rate": 2.0565103010010593e-05,
+      "loss": 0.3654,
+      "step": 11300
+    },
+    {
+      "epoch": 50.89,
+      "learning_rate": 2.046260548703406e-05,
+      "loss": 0.3698,
+      "step": 11400
+    },
+    {
+      "epoch": 51.0,
+      "eval_loss": 0.4853329360485077,
+      "eval_runtime": 264.7299,
+      "eval_samples_per_second": 26.691,
+      "eval_wer": 0.31541304564978523,
+      "step": 11424
+    },
+    {
+      "epoch": 51.34,
+      "learning_rate": 2.0360107964057536e-05,
+      "loss": 0.3631,
+      "step": 11500
+    },
+    {
+      "epoch": 51.78,
+      "learning_rate": 2.0257610441081008e-05,
+      "loss": 0.3612,
+      "step": 11600
+    },
+    {
+      "epoch": 52.0,
+      "eval_loss": 0.47510215640068054,
+      "eval_runtime": 266.3888,
+      "eval_samples_per_second": 26.525,
+      "eval_wer": 0.3107581660173809,
+      "step": 11648
+    },
+    {
+      "epoch": 52.23,
+      "learning_rate": 2.015511291810448e-05,
+      "loss": 0.3729,
+      "step": 11700
+    },
+    {
+      "epoch": 52.68,
+      "learning_rate": 2.005261539512795e-05,
+      "loss": 0.3605,
+      "step": 11800
+    },
+    {
+      "epoch": 53.0,
+      "eval_loss": 0.48146626353263855,
+      "eval_runtime": 264.1052,
+      "eval_samples_per_second": 26.754,
+      "eval_wer": 0.30985915492957744,
+      "step": 11872
+    },
+    {
+      "epoch": 53.12,
+      "learning_rate": 1.9950117872151425e-05,
+      "loss": 0.3614,
+      "step": 11900
+    },
+    {
+      "epoch": 53.57,
+      "learning_rate": 1.9847620349174897e-05,
+      "loss": 0.3606,
+      "step": 12000
+    },
+    {
+      "epoch": 54.0,
+      "eval_loss": 0.4759066104888916,
+      "eval_runtime": 264.5573,
+      "eval_samples_per_second": 26.709,
+      "eval_wer": 0.3130955948456698,
+      "step": 12096
+    },
+    {
+      "epoch": 54.02,
+      "learning_rate": 1.9745122826198365e-05,
+      "loss": 0.3666,
+      "step": 12100
+    },
+    {
+      "epoch": 54.46,
+      "learning_rate": 1.964262530322184e-05,
+      "loss": 0.3558,
+      "step": 12200
+    },
+    {
+      "epoch": 54.91,
+      "learning_rate": 1.954012778024531e-05,
+      "loss": 0.352,
+      "step": 12300
+    },
+    {
+      "epoch": 55.0,
+      "eval_loss": 0.4765022099018097,
+      "eval_runtime": 249.482,
+      "eval_samples_per_second": 28.323,
+      "eval_wer": 0.3093397263010688,
+      "step": 12320
+    },
+    {
+      "epoch": 55.36,
+      "learning_rate": 1.9437630257268782e-05,
+      "loss": 0.3541,
+      "step": 12400
+    },
+    {
+      "epoch": 55.8,
+      "learning_rate": 1.9335132734292254e-05,
+      "loss": 0.3482,
+      "step": 12500
+    },
+    {
+      "epoch": 56.0,
+      "eval_loss": 0.48431241512298584,
+      "eval_runtime": 265.8869,
+      "eval_samples_per_second": 26.575,
+      "eval_wer": 0.3150734192388373,
+      "step": 12544
+    },
+    {
+      "epoch": 56.25,
+      "learning_rate": 1.923263521131573e-05,
+      "loss": 0.3525,
+      "step": 12600
+    },
+    {
+      "epoch": 56.69,
+      "learning_rate": 1.91301376883392e-05,
+      "loss": 0.3415,
+      "step": 12700
+    },
+    {
+      "epoch": 57.0,
+      "eval_loss": 0.4636407792568207,
+      "eval_runtime": 265.1389,
+      "eval_samples_per_second": 26.65,
+      "eval_wer": 0.3062431325541904,
+      "step": 12768
+    },
+    {
+      "epoch": 57.14,
+      "learning_rate": 1.902764016536267e-05,
+      "loss": 0.3535,
+      "step": 12800
+    },
+    {
+      "epoch": 57.59,
+      "learning_rate": 1.8925142642386143e-05,
+      "loss": 0.3453,
+      "step": 12900
+    },
+    {
+      "epoch": 58.0,
+      "eval_loss": 0.45926210284233093,
+      "eval_runtime": 265.3325,
+      "eval_samples_per_second": 26.631,
+      "eval_wer": 0.304465088402757,
+      "step": 12992
+    },
+    {
+      "epoch": 58.04,
+      "learning_rate": 1.8822645119409614e-05,
+      "loss": 0.3483,
+      "step": 13000
+    },
+    {
+      "epoch": 58.48,
+      "learning_rate": 1.8720147596433085e-05,
+      "loss": 0.3415,
+      "step": 13100
+    },
+    {
+      "epoch": 58.93,
+      "learning_rate": 1.861765007345656e-05,
+      "loss": 0.3453,
+      "step": 13200
+    },
+    {
+      "epoch": 59.0,
+      "eval_loss": 0.47979551553726196,
+      "eval_runtime": 265.8894,
+      "eval_samples_per_second": 26.575,
+      "eval_wer": 0.30870042952751975,
+      "step": 13216
+    },
+    {
+      "epoch": 59.37,
+      "learning_rate": 1.851515255048003e-05,
+      "loss": 0.3481,
+      "step": 13300
+    },
+    {
+      "epoch": 59.82,
+      "learning_rate": 1.8412655027503503e-05,
+      "loss": 0.3374,
+      "step": 13400
+    },
+    {
+      "epoch": 60.0,
+      "eval_loss": 0.48173215985298157,
+      "eval_runtime": 265.1586,
+      "eval_samples_per_second": 26.648,
+      "eval_wer": 0.3076016381979822,
+      "step": 13440
+    },
+    {
+      "epoch": 60.27,
+      "learning_rate": 1.8310157504526974e-05,
+      "loss": 0.3356,
+      "step": 13500
+    },
+    {
+      "epoch": 60.71,
+      "learning_rate": 1.8207659981550446e-05,
+      "loss": 0.3391,
+      "step": 13600
+    },
+    {
+      "epoch": 61.0,
+      "eval_loss": 0.48153436183929443,
+      "eval_runtime": 264.7829,
+      "eval_samples_per_second": 26.686,
+      "eval_wer": 0.3010288682449306,
+      "step": 13664
+    },
+    {
+      "epoch": 61.16,
+      "learning_rate": 1.8105162458573917e-05,
+      "loss": 0.3419,
+      "step": 13700
+    },
+    {
+      "epoch": 61.61,
+      "learning_rate": 1.800266493559739e-05,
+      "loss": 0.3367,
+      "step": 13800
+    },
+    {
+      "epoch": 62.0,
+      "eval_loss": 0.47306931018829346,
+      "eval_runtime": 265.6318,
+      "eval_samples_per_second": 26.601,
+      "eval_wer": 0.30338627509739285,
+      "step": 13888
+    },
+    {
+      "epoch": 62.05,
+      "learning_rate": 1.790119238785063e-05,
+      "loss": 0.3424,
+      "step": 13900
+    },
+    {
+      "epoch": 62.5,
+      "learning_rate": 1.77986948648741e-05,
+      "loss": 0.3307,
+      "step": 14000
+    },
+    {
+      "epoch": 62.94,
+      "learning_rate": 1.7696197341897568e-05,
+      "loss": 0.3348,
+      "step": 14100
+    },
+    {
+      "epoch": 63.0,
+      "eval_loss": 0.4744071662425995,
+      "eval_runtime": 266.0028,
+      "eval_samples_per_second": 26.564,
+      "eval_wer": 0.30504445110378586,
+      "step": 14112
+    },
+    {
+      "epoch": 63.39,
+      "learning_rate": 1.7593699818921043e-05,
+      "loss": 0.3312,
+      "step": 14200
+    },
+    {
+      "epoch": 63.84,
+      "learning_rate": 1.7491202295944514e-05,
+      "loss": 0.3374,
+      "step": 14300
+    },
+    {
+      "epoch": 64.0,
+      "eval_loss": 0.47662630677223206,
+      "eval_runtime": 265.2366,
+      "eval_samples_per_second": 26.64,
+      "eval_wer": 0.3032264509040056,
+      "step": 14336
+    },
+    {
+      "epoch": 64.28,
+      "learning_rate": 1.7388704772967986e-05,
+      "loss": 0.3323,
+      "step": 14400
+    },
+    {
+      "epoch": 64.73,
+      "learning_rate": 1.728620724999146e-05,
+      "loss": 0.3305,
+      "step": 14500
+    },
+    {
+      "epoch": 65.0,
+      "eval_loss": 0.4713532328605652,
+      "eval_runtime": 269.7835,
+      "eval_samples_per_second": 26.191,
+      "eval_wer": 0.3014484067525722,
+      "step": 14560
+    },
+    {
+      "epoch": 65.18,
+      "learning_rate": 1.7183709727014932e-05,
+      "loss": 0.3323,
+      "step": 14600
+    },
+    {
+      "epoch": 65.62,
+      "learning_rate": 1.7081212204038403e-05,
+      "loss": 0.3279,
+      "step": 14700
+    },
+    {
+      "epoch": 66.0,
+      "eval_loss": 0.46987202763557434,
+      "eval_runtime": 267.9186,
+      "eval_samples_per_second": 26.374,
+      "eval_wer": 0.30664269303765856,
+      "step": 14784
+    },
+    {
+      "epoch": 66.07,
+      "learning_rate": 1.6978714681061875e-05,
+      "loss": 0.3256,
+      "step": 14800
+    },
+    {
+      "epoch": 66.52,
+      "learning_rate": 1.6876217158085346e-05,
+      "loss": 0.324,
+      "step": 14900
+    },
+    {
+      "epoch": 66.96,
+      "learning_rate": 1.6773719635108818e-05,
+      "loss": 0.3217,
+      "step": 15000
+    },
+    {
+      "epoch": 67.0,
+      "eval_loss": 0.4754560887813568,
+      "eval_runtime": 265.4267,
+      "eval_samples_per_second": 26.621,
+      "eval_wer": 0.30054939566476874,
+      "step": 15008
+    },
+    {
+      "epoch": 67.41,
+      "learning_rate": 1.667122211213229e-05,
+      "loss": 0.3331,
+      "step": 15100
+    },
+    {
+      "epoch": 67.85,
+      "learning_rate": 1.6568724589155764e-05,
+      "loss": 0.322,
+      "step": 15200
+    },
+    {
+      "epoch": 68.0,
+      "eval_loss": 0.4718279242515564,
+      "eval_runtime": 268.4601,
+      "eval_samples_per_second": 26.32,
+      "eval_wer": 0.29981020877035264,
+      "step": 15232
+    },
+    {
+      "epoch": 68.0,
+      "step": 15232,
+      "total_flos": 0,
+      "train_runtime": 220193.78,
+      "train_samples_per_second": 0.142
+    }
+  ],
+  "max_steps": 31360,
+  "num_train_epochs": 140,
+  "total_flos": 0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06ab4db7cfaa35ef3f10404ad753f20253efb350ccbc67974070c32a3040065d
+size 2543

vocab.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"<pad>": 0, "|": 1, "<unk>": 2, "a": 3, "b": 4, "c": 5, "d": 6, "e": 7, "f": 8, "g": 9, "h": 10, "i": 11, "j": 12, "k": 13, "l": 14, "m": 15, "n": 16, "o": 17, "p": 18, "q": 19, "r": 20, "s": 21, "t": 22, "u": 23, "v": 24, "w": 25, "x": 26, "y": 27, "z": 28, "ç": 29, "ã": 30, "à": 31, "á": 32, "â": 33, "ê": 34, "é": 35, "í": 36, "ó": 37, "ô": 38, "õ": 39, "ú": 40, "û": 41, "-": 42, "<s>": 43, "</s>": 44}