dangtr0408
/

StyleTTS2-lite-vi

Model card Files Files and versions

dangtr0408 commited on May 17

Commit

82da400

·

1 Parent(s): 1016ef2

Update config

Files changed (1) hide show

Models/config.yaml +19 -10

Models/config.yaml CHANGED Viewed

@@ -1,18 +1,25 @@
-log_dir: "Models/Finetune_Extend"
 save_freq: 1
-log_interval: 5
-device: "cuda"
 epochs: 50
-batch_size: 3
-max_len: 210 # maximum number of frames
-pretrained_model: "Models/Finetune_Extend/current_model.pth"
 load_only_params: false # set to true if do not want to load epoch numbers and optimizer parameters
 data_params:
   train_data: "../../Data_Speech/viVoice/train.txt"
   val_data: "../../Data_Speech/combine/combine_val.txt"
   root_path: "../../Data_Speech/"
-  min_length: 50 # sample until texts with this size are obtained for OOD texts
 preprocess_params:
   sr: 24000
@@ -21,14 +28,17 @@ preprocess_params:
     win_length: 1200
     hop_length: 300
 model_params:
   dim_in: 64
   hidden_dim: 512
   max_conv_dim: 512
   n_layer: 3
   n_mels: 80
-  n_token: 189 # number of phoneme tokens
   max_dur: 50 # maximum duration of a single phoneme
   style_dim: 128 # style vector size
@@ -37,7 +47,6 @@ model_params:
   ASR_params:
     input_dim: 80
     hidden_dim: 256
-    n_token: 189 # number of phoneme tokens
     n_layers: 6
     token_embedding_dim: 512

+log_dir: ./Models/Finetune
 save_freq: 1
+log_interval: 10
+device: cuda
 epochs: 50
+batch_size: 2
+max_len: 310 # maximum number of frames
+pretrained_model: ./Models/Finetune/base_model.pth
 load_only_params: false # set to true if do not want to load epoch numbers and optimizer parameters
+debug: true
 data_params:
   train_data: "../../Data_Speech/viVoice/train.txt"
   val_data: "../../Data_Speech/combine/combine_val.txt"
   root_path: "../../Data_Speech/"
+symbol: #Total 189 symbols
+  pad: "$"
+  punctuation: ';:,.!?¡¿—…"«»“” '
+  letters: "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"
+  letters_ipa: "ɑɐɒæɓʙβɔɕçɗɖðʤəɘɚɛɜɝɞɟʄɡɠɢʛɦɧħɥʜɨɪʝɭɬɫɮʟɱɯɰŋɳɲɴøɵɸθœɶʘɹɺɾɻʀʁɽʂʃʈʧʉʊʋⱱʌɣɤʍχʎʏʑʐʒʔʡʕʢǀǁǂǃˈˌːˑʼʴʰʱʲʷˠˤ˞↓↑→↗↘'̩'ᵻ"
+  extend: "∫̆ăη͡123456" #ADD MORE SYMBOLS HERE
 preprocess_params:
   sr: 24000
     win_length: 1200
     hop_length: 300
+training_strats:
+  #All modules: 'decoder', 'predictor', 'text_encoder', 'style_encoder', 'text_aligner', 'pitch_extractor', 'mpd', 'msd'
+  freeze_modules: [''] # Not updated when training.
+  ignore_modules: [''] # Not loading => fresh start. IMPORTANT: 'text_aligner' and 'pitch_extractor' are util pretraineds DO NOT ignore them.
 model_params:
   dim_in: 64
   hidden_dim: 512
   max_conv_dim: 512
   n_layer: 3
   n_mels: 80
   max_dur: 50 # maximum duration of a single phoneme
   style_dim: 128 # style vector size
   ASR_params:
     input_dim: 80
     hidden_dim: 256
     n_layers: 6
     token_embedding_dim: 512