Spaces:
Runtime error
Runtime error
File size: 2,663 Bytes
e3b83d6 0ac1e5c e3b83d6 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 0ac1e5c 3fbee3c 4788521 0ac1e5c 3fbee3c 0ac1e5c |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 |
---
title: VALL‑E‑X_JP-Voice-Cloner
emoji: 🎙️
colorFrom: indigo
colorTo: pink
sdk: gradio
sdk_version: "4.44.1"
app_file: app.py
pinned: false
license: mit
---
# 🎙️ VALL‑E‑X_JP-Voice-Cloner
Zero-shot 音声クローンができる日本語対応の音声合成アプリです。
1〜3秒の音声サンプルと台本テキストを入力するだけで、
**話者の特徴を保持した新しいセリフ音声を生成**できます。
モデルは Microsoft の [VALL-E X](https://arxiv.org/pdf/2303.03926) を再現・公開した
[Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X) に基づいています。
---
## 🐾 特徴
- 🇯🇵 **日本語対応**:日本語音声の入力・出力が可能
- 🎙️ **Zero-shot Cloning**:3秒の音声と文字起こしで話者再現
- 📜 **テキスト合成**:好きな台本で喋らせられる
- 🐱 **カジュアルUI**:誰でも使いやすい Gradio Web UI
---
## 🚀 使い方
1. 左側のパネルから
- クローンしたい話者の音声(WAV)
- その文字起こし(必須)
- 話させたい台本テキスト(任意)
を入力
2. 「🎙️ 音声生成」ボタンをクリック
3. 右側に生成音声が再生可能な状態で表示されます🎧
---
## 💻 動作環境
- 推論には CPU でも動作可能ですが、GPU があると高速です
- 利用している主なライブラリ:
- `torch`, `torchaudio`, `encodec`, `gradio`, `pyopenjtalk-prebuilt`, `openai-whisper`, など
---
## 🔗 モデルについて
このアプリは、[Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X) によって公開された
MITライセンスのコードおよび学習済みモデル(vallex-checkpoint.pt)を利用しています。
モデルの詳細やアーキテクチャは[こちらのモデルカード](https://github.com/Plachtaa/VALL-E-X/blob/main/model-card.md)をご覧ください。
> This app uses the pretrained VALL-E X model by [Plachtaa](https://github.com/Plachtaa/VALL-E-X), released under the MIT License.
---
## 📜 ライセンス
本アプリケーションおよび構成コードは **MIT License** に基づいて公開されています。
学習済みモデル・データセットの利用は、各リソースの元ライセンスに従ってください。
---
## 🧠 クレジット・参考文献
- [VALL-E X 論文](https://arxiv.org/pdf/2303.03926)
- [Plachtaa/VALL-E-X](https://github.com/Plachtaa/VALL-E-X)
- [Facebook EnCodec](https://github.com/facebookresearch/encodec)
- [OpenAI Whisper](https://github.com/openai/whisper)
--- |