client | ||
docker | ||
docker_onnx | ||
docs | ||
script | ||
server | ||
.gitignore | ||
Checklist.md | ||
LICENSE | ||
MMVCTrainerFrontendDemo.ipynb | ||
package-lock.json | ||
package.json | ||
README.md | ||
SoftVcDemo.ipynb | ||
start2.sh | ||
start_v0.1.sh | ||
VoiceChangerDemo_Simple.ipynb | ||
VoiceChangerDemo.ipynb | ||
VoiceRecorder.ipynb |
Voice Changer Trainer and Player
概要
AIを使ったリアルタイムボイスチェンジャーMMVCのヘルパーアプリケーションです。
MMVCで必要となる一連の作業(トレーニング用の音声の録音、トレーニング、ボイスチェンジャ)の中で、音声の録音とボイスチェンジャを各種プラットフォームでお手軽に実行できます。
※ 公式のv1.3.2.0において、トレーニング用ノートブックに大幅なユーザビリティ向上がありました。簡単化を目指していたこちらのトレーニング用アプリの役目は終了したと思われますので開発をストップしています(2023/01/10)。今後は公式のトレーニングの利用を推奨します。
このアプリケーションを用いることで、以下のことを簡単に行うことができます。
- MMVCトレーニング用の音声録音
- MMVCモデルを用いたリアルタイムボイスチェンジャー
- リアルタイム話者切り替え
- CPU/GPU切り替え
- リアルタイム/ニアリアルタイム声質変換
本アプリケーションのリアルタイムボイスチェンジャーは、サーバ・クライアント構成で動きます。MMVCのサーバを別のPC上で動かすことで、ゲーム実況など他の負荷の高い処理への影響を抑えながら動かすことができます。
使用方法
v.1.3.x(2023/01/10~)でボイスチェンジャーの大幅な変更を行っています。
(1) レコーダー(トレーニング用音声録音アプリ)
MMVCトレーニング用の音声を簡単に録音できるアプリです。 Github Pages上で実行できるため、ブラウザのみあれば様々なプラットフォームからご利用可能です。 録音したデータは、ブラウザ上に保存されます。外部に一切漏れることはありません。
詳細についてはwikiをご確認ください。
(2) プレイヤー(ボイスチェンジャーアプリ)
MMVCでボイチェンを行うためのアプリです。
大きく3つの方法でご利用できます。難易度順に次の通りです。
- Google Colaboratoryでの利用
- 事前ビルド済みのBinaryでの利用
- DockerやAnacondaなど環境構築を行った上での利用
本ソフトウェアやMMVCになじみの薄い方は上から徐々に慣れていくとよいと思います。
(2-1) Google Colaboratoryでの利用
Googleが提供している機械学習プラットフォームColaboratory上で実行できます。 MMVCのモデルをトレーニングが完了している場合、既にColaboratoryを利用していると思いますので、事前準備は必要ありません。ただし、ネットワーク環境やColaboratoryの状況によってボイスチェンジャのタイムラグが大きくなる傾向があります。
(2-2) 事前ビルド済みのBinaryでの利用
実行形式のバイナリをダウンロードして実行することができます。 Windows版とMac版を提供しています。事前準備は必要ありません。
・Mac版はダウンロードファイルを解凍したのちに、アイコンをダブルクリックすると開発元を検証できない旨が示されます。コントロールキーを押してくクリックして実行してください。(詳細下記 *1)
・Windows版は、directML版とGPU版を提供しています。
・NvidiaのGPUをお持ちの方はonnxgpuが含まれるファイルをご利用ください。多くの場合はonnxgpu_nocudaの方で動きます。環境によってはgpuが認識されない場合が稀にあります。その場合はonnxgpu_cudaの方をご利用ください。(サイズが大きく違います。起動時間も遅くなります)
・NvidiaのGPUをお持ちでない方はonnxdirectMLが含まれるファイルをご利用ください。多くの場合は、onnxdirectML_nocudavの方で動きます。環境によってはgpuが認識されない場合が稀にあります。その場合はonnxgpu_cudaの方をご利用ください。(サイズが大きく違います。起動時間も遅くなります)
詳細は、こちらのBlogをご確認ください。
(古いボイスチェンジャについては、引き続きwikiをご確認ください。)
*1 本ソフトウェアは開発元の署名しておりません。下記のように警告が出ますが、コントロールキーを押しながらアイコンをクリックすると実行できるようになります。これはAppleのセキュリティポリシーによるものです。実行は自己責任となります。
(2-3) DockerやAnacondaなど環境構築を行った上での利用
本リポジトリをクローンして利用します。WindowsではWSL2の環境構築が必須になります。また、WSL2上でDockerもしくはAnacondaなどの仮想環境の構築が必要となります。MacではAnacondaなどのPythonの仮想環境の構築が必要となります。事前準備が必要となりますが、多くの環境においてこの方法が一番高速で動きます。
説明動画
No | タイトル | リンク |
---|---|---|
01 | ざっくり説明編 | youtube |
02 | ユーザー音声の録音編 | youtube |
03 | トレーニング編 | 作成中 |
04a | Colabでボイチェン編 | youtube |
04b | PCでボイチェン編 | 欠番(ex1, ex2, 04aの内容と被るため) |
ex1 | 番外編:WSL2とDockerのインストール | youtube |
ex2 | 番外編:WSL2とAnacondaのインストール | youtube |
リアルタイム性
GPUを使用するとほとんどタイムラグなく変換可能です。
https://twitter.com/DannadoriYellow/status/1613483372579545088?s=20&t=7CLD79h1F3dfKiTb7M8RUQ
CPUでも最近のであればそれなりの速度で変換可能。
https://twitter.com/DannadoriYellow/status/1613553862773997569?s=20&t=7CLD79h1F3dfKiTb7M8RUQ
古いCPU( i7-4770)だと、1000msecくらいかかってしまう。
Acknowledgments
免責事項
本ソフトウェアの使用または使用不能により生じたいかなる直接損害・間接損害・波及的損害・結果的損害 または特別損害についても、一切責任を負いません。