Initial upload of the TTS model files

Browse files

Files changed (14) hide show

README +5 -0
README.md +3 -0
bigvgan_discriminator.pth +3 -0
bigvgan_generator.pth +3 -0
bpe.model +3 -0
config.yaml +113 -0
dvae.pth +3 -0
gpt.pth +3 -0
unigram_12000.vocab +0 -0
vllm/config.json +33 -0
vllm/generation_config.json +6 -0
vllm/model.safetensors +3 -0
vllm/tokenizer.json +0 -0
vllm/tokenizer_config.json +1 -0

README ADDED Viewed

	@@ -0,0 +1,5 @@

+大更新(效果很不错）：
+1. 大幅增加了英文训练数据，提升英文及跨语种合成效果；
+2. 增大模型参数至0.5B左右；
+3. wer, ss 及 韵律都有明显的提升；
+4. gpt输出：text token 和 mel token 是连在一起的。

README.md ADDED Viewed

	@@ -0,0 +1,3 @@

+---
+license: apache-2.0
+---

bigvgan_discriminator.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46e1f6277f7239363d2393f2f9fe36902cf8995e4acc0ba67ed25a025dbd02f0
+size 1651507545

bigvgan_generator.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2458834d8277e76eb8614c9751b5e8eaa0474eab706f0ecfafcb600023133ed
+size 536176992

bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2a5ce8090d32da3642cc4f81fdc996376bc6dd3f4cd5e3d165f71120d9f2bc8
+size 475997

config.yaml ADDED Viewed

	@@ -0,0 +1,113 @@

+dataset:
+    bpe_model: bpe.model
+    sample_rate: 24000
+    squeeze: false
+    mel:
+        sample_rate: 24000
+        n_fft: 1024
+        hop_length: 256
+        win_length: 1024
+        n_mels: 100
+        mel_fmin: 0
+        normalize: false
+gpt:
+    model_dim: 1280
+    max_mel_tokens: 800
+    max_text_tokens: 600
+    heads: 20
+    use_mel_codes_as_input: true
+    mel_length_compression: 1024
+    layers: 24
+    number_text_tokens: 12000
+    number_mel_codes: 8194
+    start_mel_token: 8192
+    stop_mel_token: 8193
+    start_text_token: 0
+    stop_text_token: 1
+    train_solo_embeddings: false
+    condition_type: "conformer_perceiver"
+    condition_module:
+        output_size: 512
+        linear_units: 2048
+        attention_heads: 8
+        num_blocks: 6
+        input_layer: "conv2d2"
+        perceiver_mult: 2
+vqvae:
+    channels: 100
+    num_tokens: 8192
+    hidden_dim: 512
+    num_resnet_blocks: 3
+    codebook_dim: 512
+    num_layers: 2
+    positional_dims: 1
+    kernel_size: 3
+    smooth_l1_loss: true
+    use_transposed_convs: false
+bigvgan:
+    adam_b1: 0.8
+    adam_b2: 0.99
+    lr_decay: 0.999998
+    seed: 1234
+    resblock: "1"
+    upsample_rates: [4,4,4,4,2,2]
+    upsample_kernel_sizes: [8,8,4,4,4,4]
+    upsample_initial_channel: 1536
+    resblock_kernel_sizes: [3,7,11]
+    resblock_dilation_sizes: [[1,3,5], [1,3,5], [1,3,5]]
+    feat_upsample: false
+    speaker_embedding_dim: 512
+    cond_d_vector_in_each_upsampling_layer: true
+    gpt_dim: 1280
+    activation: "snakebeta"
+    snake_logscale: true
+    use_cqtd_instead_of_mrd: true
+    cqtd_filters: 128
+    cqtd_max_filters: 1024
+    cqtd_filters_scale: 1
+    cqtd_dilations: [1, 2, 4]
+    cqtd_hop_lengths: [512, 256, 256]
+    cqtd_n_octaves: [9, 9, 9]
+    cqtd_bins_per_octaves: [24, 36, 48]
+    resolutions: [[1024, 120, 600], [2048, 240, 1200], [512, 50, 240]]
+    mpd_reshapes: [2, 3, 5, 7, 11]
+    use_spectral_norm: false
+    discriminator_channel_mult: 1
+    use_multiscale_melloss: true
+    lambda_melloss: 15
+    clip_grad_norm: 1000
+    segment_size: 16384
+    num_mels: 100
+    num_freq: 1025
+    n_fft: 1024
+    hop_size: 256
+    win_size: 1024
+    sampling_rate: 24000
+    fmin: 0
+    fmax: null
+    fmax_for_loss: null
+    mel_type: "pytorch"
+    num_workers: 2
+    dist_config:
+        dist_backend: "nccl"
+        dist_url: "tcp://localhost:54321"
+        world_size: 1
+dvae_checkpoint: dvae.pth
+gpt_checkpoint: gpt.pth
+bigvgan_checkpoint: bigvgan_generator.pth
+version: 1.5

dvae.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69e841bf8cd97a32806ea8a439c50017c991ac9e8bb795db89ec47828cae4d5d
+size 243316270

gpt.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44460b820a8afd58f68f3d3e69113e7900c8730bf519ecf158c081f2b8991240
+size 1171228980

unigram_12000.vocab ADDED Viewed

The diff for this file is too large to render. See raw diff

vllm/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2InferenceModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 8192,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 8193,
+  "gradient_checkpointing": false,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1402,
+  "n_embd": 1280,
+  "n_head": 20,
+  "n_inner": null,
+  "n_layer": 24,
+  "n_positions": 803,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 8194
+}

vllm/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 8192,
+  "eos_token_id": 8193,
+  "transformers_version": "4.52.4"
+}

vllm/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f47ae9eb8b56340359609971f0a383a5effd541519927d7e0fb46380bb0e41c2
+size 1977136200

vllm/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

vllm/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"model_max_length": 1024}