mistralai
/

Voxtral-Mini-3B-2507

@@ -8,20 +8,22 @@ language:
 - pt
 - nl
 - hi
 license: apache-2.0
-library_name: vllm
-inference: false
-extra_gated_description: >-
-  If you want to learn more about how we process your personal data, please read
-  our <a href="https://mistral.ai/terms/">Privacy Policy</a>.
 pipeline_tag: audio-text-to-text
 tags:
 - transformers
 ---
 # Voxtral Mini 1.0 (3B) - 2507
 Voxtral Mini is an enhancement of [Ministral 3B](https://mistral.ai/news/ministraux), incorporating state-of-the-art audio input capabilities while retaining best-in-class text performance. It excels at speech transcription, translation and audio understanding.
 Learn more about Voxtral in our blog post [here](https://mistral.ai/news/voxtral).
 ## Key Features
@@ -151,7 +153,9 @@ user_msg = UserMessage(content=[file_to_chunk(obama_file), file_to_chunk(bcn_fil
 print(30 * "=" + "USER 1" + 30 * "=")
 print(text_chunk.text)
-print("\n\n")
 response = client.chat.completions.create(
     model=model,
@@ -163,7 +167,9 @@ content = response.choices[0].message.content
 print(30 * "=" + "BOT 1" + 30 * "=")
 print(content)
-print("\n\n")
 # The speaker who is more inspiring is the one who delivered the farewell address, as they express
 # gratitude, optimism, and a strong commitment to the nation and its citizens. They emphasize the importance of
 # self-government and active citizenship, encouraging everyone to participate in the democratic process. In contrast,
@@ -182,7 +188,9 @@ messages = [
 ]
 print(30 * "=" + "USER 2" + 30 * "=")
 print(messages[-1]["content"])
-print("\n\n")
 response = client.chat.completions.create(
     model=model,
@@ -292,7 +300,8 @@ inputs = inputs.to(device, dtype=torch.bfloat16)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
-print("\nGenerated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
@@ -350,7 +359,8 @@ inputs = inputs.to(device, dtype=torch.bfloat16)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
-print("\nGenerated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
@@ -389,7 +399,8 @@ inputs = inputs.to(device, dtype=torch.bfloat16)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
-print("\nGenerated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
@@ -428,7 +439,8 @@ inputs = inputs.to(device, dtype=torch.bfloat16)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
-print("\nGenerated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
@@ -489,7 +501,8 @@ inputs = inputs.to(device, dtype=torch.bfloat16)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
-print("\nGenerated responses:")
 print("=" * 80)
 for decoded_output in decoded_outputs:
     print(decoded_output)
@@ -518,7 +531,8 @@ inputs = inputs.to(device, dtype=torch.bfloat16)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
-print("\nGenerated responses:")
 print("=" * 80)
 for decoded_output in decoded_outputs:
     print(decoded_output)

 - pt
 - nl
 - hi
+library_name: transformers
 license: apache-2.0
 pipeline_tag: audio-text-to-text
 tags:
 - transformers
+- vllm
+inference: false
+extra_gated_description: If you want to learn more about how we process your personal
+  data, please read our <a href="https://mistral.ai/terms/">Privacy Policy</a>.
 ---
 # Voxtral Mini 1.0 (3B) - 2507
 Voxtral Mini is an enhancement of [Ministral 3B](https://mistral.ai/news/ministraux), incorporating state-of-the-art audio input capabilities while retaining best-in-class text performance. It excels at speech transcription, translation and audio understanding.
+The model was presented in the paper [Voxtral](https://huggingface.co/papers/2507.13264).
 Learn more about Voxtral in our blog post [here](https://mistral.ai/news/voxtral).
 ## Key Features
 print(30 * "=" + "USER 1" + 30 * "=")
 print(text_chunk.text)
+print("
+")
 response = client.chat.completions.create(
     model=model,
 print(30 * "=" + "BOT 1" + 30 * "=")
 print(content)
+print("
+")
 # The speaker who is more inspiring is the one who delivered the farewell address, as they express
 # gratitude, optimism, and a strong commitment to the nation and its citizens. They emphasize the importance of
 # self-government and active citizenship, encouraging everyone to participate in the democratic process. In contrast,
 ]
 print(30 * "=" + "USER 2" + 30 * "=")
 print(messages[-1]["content"])
+print("
+")
 response = client.chat.completions.create(
     model=model,
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
+print("
+Generated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
+print("
+Generated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
+print("
+Generated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
+print("
+Generated response:")
 print("=" * 80)
 print(decoded_outputs[0])
 print("=" * 80)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
+print("
+Generated responses:")
 print("=" * 80)
 for decoded_output in decoded_outputs:
     print(decoded_output)
 outputs = model.generate(**inputs, max_new_tokens=500)
 decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
+print("
+Generated responses:")
 print("=" * 80)
 for decoded_output in decoded_outputs:
     print(decoded_output)