voice-changer/demo/MMVC_Trainer/docs/source/chap3/chap3.rst
2022-12-09 13:15:52 +09:00

148 lines
6.7 KiB
ReStructuredText
Executable File

MMVCの導入
==================
インストール
---------------------------------------------------------------------------
https://github.com/isletennos/MMVC_Trainer をダウンロードして、展開、展開したディレクトリをgoogle drive上にアップロードしてください。
ずんだもんの声になる
---------------------------------------------------------------------------
自分の音声の録音と音声データの配置
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1. 自分の声の音声データを録音します。
| JVSコーパスやITAコーパス等を台本にし、100文程度読み上げます。
| 音声の録音ツールは
| Audacity
| https://forest.watch.impress.co.jp/library/software/audacity/
| OREMO
| http://nwp8861.web.fc2.com/soft/oremo/
| 等があります。
| また、録音した音声は24000Hz 16bit 1chである必要があります。
.. note::
MMVC用にテキストを分割したITAコーパスです。ご利用ください。
https://drive.google.com/file/d/14oXoQqLxRkP8NJK8qMYGee1_q2uEED1z/view?usp=sharing
2. dataset/textful/000_myvoice に音声データとテキストデータを配置します。
| 最終的に下記のようなディレクトリ構成になります。
::
dataset
├── textful
│ ├── 000_myvoice
│ │ ├── text
│ │ │ ├── s_voice_001.txt
│ │ │ ├── s_voice_002.txt
│ │ │ ├── ...
│ │ └── wav
│ │ ├── s_voice_001.wav
│ │ ├── s_voice_002.wav
│ │ ├── ...
│ │── 001_target
│ │ ├── text
│ │ └── wav
│ │
│ └── 1205_zundamon
│ ├── text
│ │ ├── t_voice_001.txt
│ │ ├── t_voice_002.txt
│ │ ├── ...
│ └── wav
│ ├── t_voice_001.wav
│ ├── t_voice_002.wav
│ ├── ...
└── textless
モデルの学習方法
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1. 下記リンクより、「G_180000.pth」「D_180000.pth」をダウンロード。 https://drive.google.com/drive/folders/1XGpW0loNr1KjMtXVVG3WRd47R_ne6_X2?usp=sharing
2. 「G_180000.pth」「D_180000.pth」をfine_modelに配置します。(良く忘れるポイントなので要注意!)
3. notebookディレクトリにある「Create_Configfile_zundamon.ipynb」をgoogle colab 上で実行、学習に必要なconfigファイルを作成します
4. configsに作成されたtrain_config_zundamon.jsonの
* "eval_interval"
modelを保存する間隔です。
* "batch_size"
colabで割り当てたGPUに合わせて調整してください。
上記2項目を環境に応じて最適化してください。わからない方はそのままで大丈夫です。
5. notebookディレクトリにある「Train_MMVC.ipynb」をgoogle colab 上で実行してください。
logs/にモデルが生成されます。
学習したモデルの性能検証
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1. notebookディレクトリにある「MMVC_Interface.ipynb」をgoogle colab 上で実行してください。
好きなキャラクターの声になる
---------------------------------------------------------------------------
自分の音声の録音と音声データの配置 及びターゲット音声データの配置
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1. 自分の声の音声データとその音声データに対応するテキスト、変換したい声の音声データとその音声データに対応するテキストを用意します。
| この時、用意する音声(自分の声の音声データ/変換したい声の音声データ共に)は24000Hz 16bit 1chを強く推奨しております。
| 九州そらと四国めたんのMMVC用のデータは下記リンクからダウンロードください。
| ダウンロード後、2節のように音声データとテキストデータを配置してください。
| https://drive.google.com/drive/folders/1ClIUx_2Wv-uNnuW2LlfG7aTHrUaZ2Asx?usp=sharing
2. 下記のようなディレクトリ構成になるように音声データとテキストデータを配置します。textfulの直下には2ディレクトリになります。
| 1)自分の声の音声データとその音声データに対応するテキスト、変換したい声の音声データとその音声データに対応するテキストを用意します。
| この時、用意する音声(自分の声の音声データ/変換したい声の音声データ共に)は24000Hz 16bit 1chを強く推奨しております。
| 2)下記のようなディレクトリ構成になるように音声データとテキストデータを配置します。textfulの直下には2ディレクトリになります。
::
dataset
├── textful
│ ├── 000_myvoice
│ │ ├── text
│ │ │ ├── s_voice_001.txt
│ │ │ ├── s_voice_002.txt
│ │ │ ├── ...
│ │ └── wav
│ │ ├── s_voice_001.wav
│ │ ├── s_voice_002.wav
│ │ ├── ...
│ │── 001_target
│ │ ├── text
│ │ │ ├── t_voice_001.txt
│ │ │ ├── t_voice_002.txt
│ │ │ ├── ...
│ │ └── wav
│ │ ├── t_voice_001.wav
│ │ ├── t_voice_002.wav
│ │ ├── ...
│ └── 1205_zundamon
│ ├── text
│ │ ├── t_voice_001.txt
│ │ ├── t_voice_002.txt
│ │ ├── ...
│ └── wav
│ ├── t_voice_001.wav
│ ├── t_voice_002.wav
│ ├── ...
└── textless
学習したモデルの性能検証、評価
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1. notebookディレクトリにある「MMVC_Interface.ipynb」をgoogle colab 上で実行してください。
有志による解説
---------------------------------------------------------------------------
| 前準備編
| https://www.nicovideo.jp/watch/sm40415108