voice-changer/README.md
2023-03-18 12:06:37 +09:00

14 KiB
Raw Blame History

VC Helper

VC Helperとは

VC HelperMMVC, so-vits-svcなどのAIを使ったリアルタイムボイスチェンジャーのヘルパーアプリケーションです。リアルタイムボイスチェンジャーで必要となるトレーニング用の音声の録音(MMVC向け)とボイスチェンジャを各種プラットフォームでお手軽に実行できます。

解説動画

※ MMVCのトレーニングについては公式ノートブックをご利用ください。 ※ so-vits-svcのトレーニングについては公式を参考に実施してください。

image

特徴

  1. 複数のプラットフォームで動作 Windows, Mac(M1等Apple silicon), Linux, Google Colaboratoryでの動作をサポートしています。

  2. 音声録音用アプリのインストールが不要 音声録音をGithub Pagesにホストしてあるアプリケーション上で実行可能です。全てブラウザ上で動くため、特別なアプリケーションのインストールは不要です。また、完全にブラウザアプリケーションとして動くのでデータがサーバに送信されることもありません。

  3. ボイチェンを別のPC上で実行して負荷を分散 本アプリケーションのリアルタイムボイスチェンジャーは、サーバ・クライアント構成で動きます。MMVCのサーバを別のPC上で動かすことで、ゲーム実況など他の負荷の高い処理への影響を抑えながら動かすことができます。

image

使用方法

詳細はこちら(v.1.3.x)に纏まっています。 (v1.5.xはこちら)

(1) レコーダー(トレーニング用音声録音アプリ)

MMVCトレーニング用の音声を簡単に録音できるアプリです。 Github Pages上で実行できるため、ブラウザのみあれば様々なプラットフォームからご利用可能です。 録音したデータは、ブラウザ上に保存されます。外部に漏れることはありません。

録音アプリ on Github Pages

解説動画

(2) プレイヤー(ボイスチェンジャーアプリ)

MMVCやso-vits-svcでボイチェンを行うためのアプリです。

大きく3つの方法でご利用できます。難易度順に次の通りです。

  • Google Colaboratoryでの利用(MMVCのみ)
  • 事前ビルド済みのBinaryでの利用
  • DockerやAnacondaなど環境構築を行った上での利用

本ソフトウェアやMMVCになじみの薄い方は上から徐々に慣れていくとよいと思います。

(2-1) Google Colaboratoryでの利用(MMVCのみ)

Googleが提供している機械学習プラットフォームColaboratory上で実行できます。 MMVCのモデルをトレーニングが完了している場合、既にColaboratoryを利用していると思いますので、事前準備は必要ありません。ただし、ネットワーク環境やColaboratoryの状況によってボイスチェンジャのタイムラグが大きくなる傾向があります。

解説動画

(2-2) 事前ビルド済みのBinaryでの利用

実行形式のバイナリをダウンロードして実行することができます。 Windows版とMac版を提供しています。

・Mac版はダウンロードファイルを解凍したのちに、使用するVCに応じたstartHttp_xxx.commandをダブルクリックしてください。開発元を検証できない旨が示される場合は、再度コントロールキーを押してクリックして実行してください(or 右クリックから実行してください)。(詳細下記 *1

・Windows版は、ONNX版とONNX+PyTorch版を提供しています。環境に応じたzipファイルをダウンロードしてください。ダウンロードしたzipファイルを解凍して、使用するVCに応じたVCに応じたstart_http_xxx.batを実行してください。

・NvidiaのGPUをお持ちの方は多くの場合はONNX版で動きます。環境によって極まれにgpuが認識されない場合があります。その場合はONNX+PyTorch(cuda)版の方をご利用ください。(サイズが大きく違います。)

・NvidiaのGPUをお持ちでない方は多くの場合はONNX(DirectML)版で動きます。

・リモートからアクセスできるようにする方法など、より詳しくはこちらをご覧ください。

・so-vits-svcは4.0-v2に対応しています。

・so-vits-svcやつくよみちゃんの動作にはcontent vecのモデルが必要となります。こちらのリポジトリから、ContentVec_legacy 500のモデルをダウンロードして、実行するstartHttp_xxx.commandstart_http_xxx.batと同じフォルダに配置してください。

Version OS フレームワーク link サポートVC サイズ
v.1.5.1.6(current) mac(M1) ONNX 通常 MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0v2 571MB
つくよみちゃん so-vits-svc 4.0v2 949MB
windows ONNX 通常 MMVC v.1.5.x, MMVC v.1.3.x 564MB
つくよみちゃん so-vits-svc 4.0v2 694MB
ONNX+PyTorch(cuda) 通常 MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0v2 2.6GB
つくよみちゃん so-vits-svc 4.0v2 2.97GB
ONNX(DirectML) 通常 MMVC v.1.5.x, MMVC v.1.3.x 452MB
ONNX(DirectML)+PyTorch(cuda) 通常 MMVC v.1.5.x, MMVC v.1.3.x 2.47GB

※ MMVC v.1.5.xはExperimentalです。

※ つくよみちゃんはフリー素材キャラクター「つくよみちゃん」が無料公開している音声データを使用しています。(利用規約など、詳細は文末)

過去バージョン

ページの一番下にまとめてあります。

https://user-images.githubusercontent.com/48346627/212569645-e30b7f4e-079d-4504-8cf8-7816c5f40b00.mp4

*1 本ソフトウェアは開発元の署名しておりません。下記のように警告が出ますが、コントロールキーを押しながらアイコンをクリックすると実行できるようになります。これはAppleのセキュリティポリシーによるものです。実行は自己責任となります。

image

(2-3) DockerやAnacondaなど環境構築を行った上での利用

本リポジトリをクローンして利用します。WindowsではWSL2の環境構築が必須になります。また、WSL2上でDockerもしくはAnacondaなどの仮想環境の構築が必要となります。MacではAnacondaなどのPythonの仮想環境の構築が必要となります。事前準備が必要となりますが、多くの環境においてこの方法が一番高速で動きます。 GPUが無くてもそこそこ新しいCPUであれば十分動く可能性があります (下記のリアルタイム性の節を参照)

WSL2とDockerのインストールの解説動画

WSL2とAnacondaのインストールの解説動画

リアルタイム性

GPUを使用するとほとんどタイムラグなく変換可能です。

https://twitter.com/DannadoriYellow/status/1613483372579545088?s=20&t=7CLD79h1F3dfKiTb7M8RUQ

CPUでも最近のであればそれなりの速度で変換可能。

https://twitter.com/DannadoriYellow/status/1613553862773997569?s=20&t=7CLD79h1F3dfKiTb7M8RUQ

古いCPU( i7-4770)だと、1000msecくらいかかってしまう。

過去バージョン

Version OS フレームワーク link サポートVC サイズ
v.1.5.1.4a mac(M1) onnx(cpu) 通常 MMVC v.1.5.x 510MB
windows onnx(cpu) 通常 MMVC v.1.5.x 541MB
onnx(cpu+cuda) 通常 MMVC v.1.5.x 2.55GB
onnx(cpu+DirectML) 通常 MMVC v.1.5.x 430MB
onnx(cpu+DirectML+cuda) 通常 MMVC v.1.5.x 2.45GB
--- --- --- --- --- ---
v.1.3.1.4a mac(M1) onnx(cpu) 通常 MMVC v.1.3.x 510MB
windows onnx(cpu) 通常 MMVC v.1.3.x 541MB
onnx(cpu+cuda) 通常 MMVC v.1.3.x 2.55GB
onnx(cpu+DirectML) 通常 MMVC v.1.3.x 430MB
onnx(cpu+DirectML+cuda) 通常 MMVC v.1.3.x 2.45GB

Acknowledgments

  本ソフトウェアの音声合成には、フリー素材キャラクター「つくよみちゃん」が無料公開している音声データを使用しています。
  ■つくよみちゃんコーパスCV.夢前黎)
  https://tyc.rei-yumesaki.net/material/corpus/
  © Rei Yumesaki

利用規約

リアルタイムボイスチェンジャーつくよみちゃんについては、つくよみちゃんコーパスの利用規約に準じ、次の目的での利用を禁止します。

■人を批判・攻撃すること。(「批判・攻撃」の定義は、つくよみちゃんキャラクターライセンスに準じます)

■特定の政治的立場・宗教・思想への賛同または反対を呼びかけること。

■刺激の強い表現をゾーニングなしで公開すること。

■他者に対して二次利用(素材としての利用)を許可する形で公開すること。
※鑑賞用の作品として配布・販売していただくことは問題ございません。

免責事項

本ソフトウェアの使用または使用不能により生じたいかなる直接損害・間接損害・波及的損害・結果的損害 または特別損害についても、一切責任を負いません。