Update README_JP.md
Browse files- README_JP.md +2 -25
README_JP.md
CHANGED
|
@@ -142,32 +142,9 @@ pip install -r requirements.txt
|
|
| 142 |
|
| 143 |
### 重要な注意事項
|
| 144 |
|
| 145 |
-
|
| 146 |
|
| 147 |
-
|
| 148 |
-
|
| 149 |
-
2. 提供されたサンプルの品質を再現できない、または一貫して良い結果が得られない:
|
| 150 |
-
|
| 151 |
-
***可制御性には代償がかかり、それはユーザビリティの低下です。特に、本質的に非決定的なモジュールで構成されたネットワークの場合に当てはまります。システムはスタイルベクトルの変動に非常に敏感です。ただし、推論パラメーターを慎重に調整し、試行錯誤すれば、ほとんど常に最も印象的な自然な表現を達成できると確信しています。また、一部のスピーカーは特定の感情を一貫して処理できない可能性があるため、別のスピーカーから新しい感情を作り出すことができます。Gradioスペースや推論ノートブックでの詳しい使用方法を説明しています。***
|
| 152 |
-
|
| 153 |
-
3. [RuntimeError: The size of tensor a (512) must match the size of tensor b (some number) at non-singleton dimension 3]:
|
| 154 |
-
|
| 155 |
-
***入力が1回の推論に対して長すぎます。Longform推論機能を使用してください。これは特に、Tsumugi(仮称)チェックポイントでは問題になります。mLSTMレイヤーのコンテキスト長が512に制限されているため、Longform機能を使用しない限り、約10秒以上の音声を生成できません。ただし、他のチェックポイントではこれは問題にはなりません。Longform アルゴリズムのおかげで、出力の長さに理論的な制限はありません。***
|
| 156 |
-
|
| 157 |
-
4. 短い入力が印象的ではない:
|
| 158 |
-
|
| 159 |
-
***2で述べたことがすべて当てはまります。スタイルベクトルが適切かどうかを確認してください。ただし、一般的に非常に短い入力の使用は推奨されません。***
|
| 160 |
-
|
| 161 |
-
5. 2段階目の訓練でNaNが発生:
|
| 162 |
-
|
| 163 |
-
***グラジエントが爆発しているのかもしれません。クリッピングを試すか、バッチサイズが大すぎる可能性があります。それでも解決しない場合は、オリジナルのDPスクリプトを使って最初の数エポックを事前訓練することをお勧めします。または、完全にDPを使用してください。***
|
| 164 |
-
|
| 165 |
-
6. Kotodam inferenceにあるスピーカーさんの名前について;
|
| 166 |
-
|
| 167 |
-
|
| 168 |
-
***全部ランダムでマッピングされていますので、実際の人物やロールなどとは一切関係していません。***
|
| 169 |
-
|
| 170 |
-
7. ご質問があった場合は、遠慮なく教えてください。
|
| 171 |
```
|
| 172 | |
| 173 |
```
|
|
|
|
| 142 |
|
| 143 |
### 重要な注意事項
|
| 144 |
|
| 145 |
+
[こちらへ](https://huggingface.co/Respair/Tsukasa_Speech/blob/main/%E9%87%8D%E8%A6%81%E3%81%AA%E3%83%A1%E3%83%A2.md)
|
| 146 |
|
| 147 |
+
ご質問があった場合は、遠慮なく教えてください。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 148 |
```
|
| 149 | |
| 150 |
```
|