Spaces:

synonym
/

VALLE-X_JPVoiceCloner

Runtime error

App Files Files Community

VALLE-X_JPVoiceCloner / README.md

synonym

Update README.md

43f0406 verified 6 months ago

preview code

raw

history blame contribute delete

2.72 kB

A newer version of the Gradio SDK is available: 5.49.0

Upgrade

metadata

title: VALL‑E‑X_JP-Voice-Cloner
emoji: 🎙️
colorFrom: indigo
colorTo: pink
sdk: gradio
sdk_version: 5.25.2
app_file: app.py
pinned: false
license: mit
short_description: 5秒の音声で話者をクローン

🎙️ VALL‑E‑X_JP-Voice-Cloner

Zero-shot 音声クローンができる日本語対応の音声合成アプリです。
1〜3秒の音声サンプルと台本テキストを入力するだけで、
話者の特徴を保持した新しいセリフ音声を生成できます。
モデルは Microsoft の VALL-E X を再現・公開した
Plachtaa/VALL-E-X に基づいています。

🐾 特徴

🇯🇵 日本語対応：日本語音声の入力・出力が可能
🎙️ Zero-shot Cloning：3秒の音声と文字起こしで話者再現
📜 テキスト合成：好きな台本で喋らせられる
🐱 カジュアルUI：誰でも使いやすい Gradio Web UI

🚀 使い方

左側のパネルから
- クローンしたい話者の音声（WAV）
- その文字起こし（必須）
- 話させたい台本テキスト（任意）を入力
「🎙️ 音声生成」ボタンをクリック
右側に生成音声が再生可能な状態で表示されます🎧

💻 動作環境

推論には CPU でも動作可能ですが、GPU があると高速です
利用している主なライブラリ：
- torch, torchaudio, encodec, gradio, pyopenjtalk-prebuilt, openai-whisper, など

🔗 モデルについて

このアプリは、Plachtaa/VALL-E-X によって公開された
MITライセンスのコードおよび学習済みモデル（vallex-checkpoint.pt）を利用しています。

モデルの詳細やアーキテクチャはこちらのモデルカードをご覧ください。

This app uses the pretrained VALL-E X model by Plachtaa, released under the MIT License.

📜 ライセンス

本アプリケーションおよび構成コードは MIT License に基づいて公開されています。
学習済みモデル・データセットの利用は、各リソースの元ライセンスに従ってください。