| { | |
| "train": { | |
| "segment_size": 16384 | |
| }, | |
| "data": { | |
| "sampling_rate": 44100, | |
| "filter_length": 2048, | |
| "hop_length": 512, | |
| "add_blank": true, | |
| "n_speakers": 256, | |
| "spk2id": { | |
| "FR": 0 | |
| } | |
| }, | |
| "model": { | |
| "use_spk_conditioned_encoder": true, | |
| "use_noise_scaled_mas": true, | |
| "use_mel_posterior_encoder": false, | |
| "use_duration_discriminator": true, | |
| "inter_channels": 192, | |
| "hidden_channels": 192, | |
| "filter_channels": 768, | |
| "n_heads": 2, | |
| "n_layers": 6, | |
| "n_layers_trans_flow": 3, | |
| "kernel_size": 3, | |
| "p_dropout": 0.1, | |
| "resblock": "1", | |
| "resblock_kernel_sizes": [ | |
| 3, | |
| 7, | |
| 11 | |
| ], | |
| "resblock_dilation_sizes": [ | |
| [ | |
| 1, | |
| 3, | |
| 5 | |
| ], | |
| [ | |
| 1, | |
| 3, | |
| 5 | |
| ], | |
| [ | |
| 1, | |
| 3, | |
| 5 | |
| ] | |
| ], | |
| "upsample_rates": [ | |
| 8, | |
| 8, | |
| 2, | |
| 2, | |
| 2 | |
| ], | |
| "upsample_initial_channel": 512, | |
| "upsample_kernel_sizes": [ | |
| 16, | |
| 16, | |
| 8, | |
| 2, | |
| 2 | |
| ], | |
| "n_layers_q": 3, | |
| "use_spectral_norm": false, | |
| "gin_channels": 256 | |
| }, | |
| "symbols": [ | |
| "_", | |
| "\"", | |
| "(", | |
| ")", | |
| "*", | |
| "/", | |
| ":", | |
| "AA", | |
| "E", | |
| "EE", | |
| "En", | |
| "N", | |
| "OO", | |
| "Q", | |
| "V", | |
| "[", | |
| "\\", | |
| "]", | |
| "^", | |
| "a", | |
| "a:", | |
| "aa", | |
| "ae", | |
| "ah", | |
| "ai", | |
| "an", | |
| "ang", | |
| "ao", | |
| "aw", | |
| "ay", | |
| "b", | |
| "by", | |
| "c", | |
| "ch", | |
| "d", | |
| "dh", | |
| "dy", | |
| "e", | |
| "e:", | |
| "eh", | |
| "ei", | |
| "en", | |
| "eng", | |
| "er", | |
| "ey", | |
| "f", | |
| "g", | |
| "gy", | |
| "h", | |
| "hh", | |
| "hy", | |
| "i", | |
| "i0", | |
| "i:", | |
| "ia", | |
| "ian", | |
| "iang", | |
| "iao", | |
| "ie", | |
| "ih", | |
| "in", | |
| "ing", | |
| "iong", | |
| "ir", | |
| "iu", | |
| "iy", | |
| "j", | |
| "jh", | |
| "k", | |
| "ky", | |
| "l", | |
| "m", | |
| "my", | |
| "n", | |
| "ng", | |
| "ny", | |
| "o", | |
| "o:", | |
| "ong", | |
| "ou", | |
| "ow", | |
| "oy", | |
| "p", | |
| "py", | |
| "q", | |
| "r", | |
| "ry", | |
| "s", | |
| "sh", | |
| "t", | |
| "th", | |
| "ts", | |
| "ty", | |
| "u", | |
| "u:", | |
| "ua", | |
| "uai", | |
| "uan", | |
| "uang", | |
| "uh", | |
| "ui", | |
| "un", | |
| "uo", | |
| "uw", | |
| "v", | |
| "van", | |
| "ve", | |
| "vn", | |
| "w", | |
| "x", | |
| "y", | |
| "z", | |
| "zh", | |
| "zy", | |
| "~", | |
| "¡", | |
| "¿", | |
| "æ", | |
| "ç", | |
| "ð", | |
| "ø", | |
| "ŋ", | |
| "œ", | |
| "ɐ", | |
| "ɑ", | |
| "ɒ", | |
| "ɔ", | |
| "ɕ", | |
| "ə", | |
| "ɛ", | |
| "ɜ", | |
| "ɡ", | |
| "ɣ", | |
| "ɥ", | |
| "ɦ", | |
| "ɪ", | |
| "ɫ", | |
| "ɬ", | |
| "ɭ", | |
| "ɯ", | |
| "ɲ", | |
| "ɵ", | |
| "ɸ", | |
| "ɹ", | |
| "ɾ", | |
| "ʁ", | |
| "ʃ", | |
| "ʊ", | |
| "ʌ", | |
| "ʎ", | |
| "ʏ", | |
| "ʑ", | |
| "ʒ", | |
| "ʝ", | |
| "ʲ", | |
| "ˈ", | |
| "ˌ", | |
| "ː", | |
| "̃", | |
| "̩", | |
| "β", | |
| "θ", | |
| "ᄀ", | |
| "ᄁ", | |
| "ᄂ", | |
| "ᄃ", | |
| "ᄄ", | |
| "ᄅ", | |
| "ᄆ", | |
| "ᄇ", | |
| "ᄈ", | |
| "ᄉ", | |
| "ᄊ", | |
| "ᄋ", | |
| "ᄌ", | |
| "ᄍ", | |
| "ᄎ", | |
| "ᄏ", | |
| "ᄐ", | |
| "ᄑ", | |
| "ᄒ", | |
| "ᅡ", | |
| "ᅢ", | |
| "ᅣ", | |
| "ᅤ", | |
| "ᅥ", | |
| "ᅦ", | |
| "ᅧ", | |
| "ᅨ", | |
| "ᅩ", | |
| "ᅪ", | |
| "ᅫ", | |
| "ᅬ", | |
| "ᅭ", | |
| "ᅮ", | |
| "ᅯ", | |
| "ᅰ", | |
| "ᅱ", | |
| "ᅲ", | |
| "ᅳ", | |
| "ᅴ", | |
| "ᅵ", | |
| "ᆨ", | |
| "ᆫ", | |
| "ᆮ", | |
| "ᆯ", | |
| "ᆷ", | |
| "ᆸ", | |
| "ᆼ", | |
| "ㄸ", | |
| "!", | |
| "?", | |
| "…", | |
| ",", | |
| ".", | |
| "'", | |
| "-", | |
| "SP", | |
| "UNK" | |
| ], | |
| "num_tones": 16, | |
| "num_languages": 10 | |
| } |