MMVCの導入
==================

インストール
---------------------------------------------------------------------------
https://github.com/isletennos/MMVC_Trainer をダウンロードして、展開、展開したディレクトリをgoogle drive上にアップロードしてください。


ずんだもんの声になる
---------------------------------------------------------------------------


自分の音声の録音と音声データの配置
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

1. 自分の声の音声データを録音します。

    | JVSコーパスやITAコーパス等を台本にし、100文程度読み上げます。
    | 音声の録音ツールは
    | Audacity
    | https://forest.watch.impress.co.jp/library/software/audacity/
    | OREMO
    | http://nwp8861.web.fc2.com/soft/oremo/
    | 等があります。
    | また、録音した音声は24000Hz 16bit 1chである必要があります。
    
    .. note::
       MMVC用にテキストを分割したITAコーパスです。ご利用ください。
       https://drive.google.com/file/d/14oXoQqLxRkP8NJK8qMYGee1_q2uEED1z/view?usp=sharing
        

2. dataset/textful/000_myvoice に音声データとテキストデータを配置します。

   | 最終的に下記のようなディレクトリ構成になります。
   
   ::

      dataset
      ├── textful
      │   ├── 000_myvoice
      │   │   ├── text
      │   │   │   ├── s_voice_001.txt
      │   │   │   ├── s_voice_002.txt
      │   │   │   ├── ...
      │   │   └── wav
      │   │        ├── s_voice_001.wav
      │   │        ├── s_voice_002.wav
      │   │        ├── ...
      │   │── 001_target
      │   │   ├── text
      │   │   └── wav
      │   │
      │   └── 1205_zundamon
      │       ├── text
      │       │   ├── t_voice_001.txt
      │       │   ├── t_voice_002.txt
      │       │   ├── ...
      │       └── wav
      │            ├── t_voice_001.wav
      │            ├── t_voice_002.wav
      │            ├── ... 
      │        
      └── textless


モデルの学習方法
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1. 下記リンクより、「G_180000.pth」「D_180000.pth」をダウンロード。 https://drive.google.com/drive/folders/1XGpW0loNr1KjMtXVVG3WRd47R_ne6_X2?usp=sharing
2. 「G_180000.pth」「D_180000.pth」をfine_modelに配置します。(良く忘れるポイントなので要注意！)
3. notebookディレクトリにある「Create_Configfile_zundamon.ipynb」をgoogle colab 上で実行、学習に必要なconfigファイルを作成します
4. configsに作成されたtrain_config_zundamon.jsonの
    * "eval_interval"
        modelを保存する間隔です。
    * "batch_size"
        colabで割り当てたGPUに合わせて調整してください。
    上記2項目を環境に応じて最適化してください。わからない方はそのままで大丈夫です。
5. notebookディレクトリにある「Train_MMVC.ipynb」をgoogle colab 上で実行してください。
    logs/にモデルが生成されます。

学習したモデルの性能検証
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1. notebookディレクトリにある「MMVC_Interface.ipynb」をgoogle colab 上で実行してください。

好きなキャラクターの声になる
---------------------------------------------------------------------------


自分の音声の録音と音声データの配置 及びターゲット音声データの配置
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

1. 自分の声の音声データとその音声データに対応するテキスト、変換したい声の音声データとその音声データに対応するテキストを用意します。

   | この時、用意する音声(自分の声の音声データ/変換したい声の音声データ共に)は24000Hz 16bit 1chを強く推奨しております。
   | 九州そらと四国めたんのMMVC用のデータは下記リンクからダウンロードください。
   | ダウンロード後、2節のように音声データとテキストデータを配置してください。
   | https://drive.google.com/drive/folders/1ClIUx_2Wv-uNnuW2LlfG7aTHrUaZ2Asx?usp=sharing


2. 下記のようなディレクトリ構成になるように音声データとテキストデータを配置します。textfulの直下には2ディレクトリになります。

   | 1)自分の声の音声データとその音声データに対応するテキスト、変換したい声の音声データとその音声データに対応するテキストを用意します。
   | この時、用意する音声(自分の声の音声データ/変換したい声の音声データ共に)は24000Hz 16bit 1chを強く推奨しております。
   | 2)下記のようなディレクトリ構成になるように音声データとテキストデータを配置します。textfulの直下には2ディレクトリになります。
   
   ::

      dataset
      ├── textful
      │   ├── 000_myvoice
      │   │   ├── text
      │   │   │   ├── s_voice_001.txt
      │   │   │   ├── s_voice_002.txt
      │   │   │   ├── ...
      │   │   └── wav
      │   │        ├── s_voice_001.wav
      │   │        ├── s_voice_002.wav
      │   │        ├── ...
      │   │── 001_target
      │   │   ├── text
      │   │   │   ├── t_voice_001.txt
      │   │   │   ├── t_voice_002.txt
      │   │   │   ├── ...
      │   │   └── wav
      │   │        ├── t_voice_001.wav
      │   │        ├── t_voice_002.wav
      │   │        ├── ... 
      │   └── 1205_zundamon
      │       ├── text
      │       │   ├── t_voice_001.txt
      │       │   ├── t_voice_002.txt
      │       │   ├── ...
      │       └── wav
      │            ├── t_voice_001.wav
      │            ├── t_voice_002.wav
      │            ├── ... 
      │        
      └── textless


学習したモデルの性能検証、評価
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1. notebookディレクトリにある「MMVC_Interface.ipynb」をgoogle colab 上で実行してください。

有志による解説
---------------------------------------------------------------------------
| 前準備編
| https://www.nicovideo.jp/watch/sm40415108