facebook
/

hf-seamless-m4t-medium

@@ -3,7 +3,6 @@
   "activation_function": "relu",
   "adaptor_dropout": 0.1,
   "adaptor_kernel_size": 8,
-  "adaptor_layer_norm": true,
   "adaptor_stride": 8,
   "add_adapter": true,
   "architectures": [
@@ -11,35 +10,8 @@
   ],
   "attention_dropout": 0.1,
   "bos_token_id": 2,
-  "conv_bias": false,
   "conv_depthwise_kernel_size": 31,
-  "conv_dim": [
-    512,
-    512,
-    512,
-    512,
-    512,
-    512,
-    160
-  ],
-  "conv_kernel": [
-    10,
-    3,
-    3,
-    3,
-    3,
-    2,
-    2
-  ],
-  "conv_stride": [
-    5,
-    2,
-    2,
-    2,
-    2,
-    2,
-    2
-  ],
   "decoder_attention_heads": 16,
   "decoder_ffn_dim": 4096,
   "decoder_layerdrop": 0.05,
@@ -51,26 +23,22 @@
   "encoder_layerdrop": 0.05,
   "encoder_layers": 12,
   "eos_token_id": 3,
-  "hidden_act": "gelu",
   "hidden_size": 1024,
-  "init_std": 0.02,
   "initializer_range": 0.02,
   "is_encoder_decoder": true,
   "lang_embed_dim": 256,
   "layer_norm_eps": 1e-05,
-  "layerdrop": 0.1,
   "leaky_relu_slope": 0.1,
   "max_new_tokens": 256,
   "max_position_embeddings": 4096,
   "max_source_positions": 4096,
-  "model_in_dim": 1792,
   "model_type": "seamless_m4t",
   "num_adapter_layers": 1,
   "num_attention_heads": 16,
   "num_conv_pos_embedding_groups": 16,
   "num_conv_pos_embeddings": 128,
   "num_hidden_layers": 12,
-  "output_hidden_size": null,
   "pad_token_id": 0,
   "position_embeddings_type": "relative",
   "resblock_dilation_sizes": [
@@ -102,6 +70,7 @@
   "speech_encoder_dropout": 0.0,
   "speech_encoder_hidden_act": "swish",
   "speech_encoder_intermediate_size": 4096,
   "speech_encoder_layers": 12,
   "spkr_embed_dim": 256,
   "t2u_bos_token_id": 0,
@@ -114,7 +83,9 @@
   "t2u_encoder_layers": 4,
   "t2u_eos_token_id": 2,
   "t2u_max_new_tokens": 1024,
   "t2u_num_langs": 38,
   "t2u_pad_token_id": 1,
   "torch_dtype": "float32",
   "transformers_version": "4.33.0.dev0",

   "activation_function": "relu",
   "adaptor_dropout": 0.1,
   "adaptor_kernel_size": 8,
   "adaptor_stride": 8,
   "add_adapter": true,
   "architectures": [
   ],
   "attention_dropout": 0.1,
   "bos_token_id": 2,
+  "control_symbol_vocoder_offset": 4,
   "conv_depthwise_kernel_size": 31,
   "decoder_attention_heads": 16,
   "decoder_ffn_dim": 4096,
   "decoder_layerdrop": 0.05,
   "encoder_layerdrop": 0.05,
   "encoder_layers": 12,
   "eos_token_id": 3,
+  "feature_projection_input_dim": 160,
   "hidden_size": 1024,
   "initializer_range": 0.02,
   "is_encoder_decoder": true,
   "lang_embed_dim": 256,
   "layer_norm_eps": 1e-05,
   "leaky_relu_slope": 0.1,
   "max_new_tokens": 256,
   "max_position_embeddings": 4096,
   "max_source_positions": 4096,
   "model_type": "seamless_m4t",
   "num_adapter_layers": 1,
   "num_attention_heads": 16,
   "num_conv_pos_embedding_groups": 16,
   "num_conv_pos_embeddings": 128,
   "num_hidden_layers": 12,
   "pad_token_id": 0,
   "position_embeddings_type": "relative",
   "resblock_dilation_sizes": [
   "speech_encoder_dropout": 0.0,
   "speech_encoder_hidden_act": "swish",
   "speech_encoder_intermediate_size": 4096,
+  "speech_encoder_layerdrop": 0.1,
   "speech_encoder_layers": 12,
   "spkr_embed_dim": 256,
   "t2u_bos_token_id": 0,
   "t2u_encoder_layers": 4,
   "t2u_eos_token_id": 2,
   "t2u_max_new_tokens": 1024,
+  "t2u_max_position_embeddings": 2048,
   "t2u_num_langs": 38,
+  "t2u_offset_tgt_lang": 10005,
   "t2u_pad_token_id": 1,
   "torch_dtype": "float32",
   "transformers_version": "4.33.0.dev0",