voice-changer/README.md
2024-10-08 20:10:41 +09:00

202 lines
13 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

## VC Client
[English](/README_en.md) [Korean](/README_ko.md) [Russian](/README_ru.md)
## What's New!
- 姉妹品のText To Speechのクライアントをリリースしました。
- 簡単なIFで音声生成を楽しむことができます。
- 詳細は[こちら](https://github.com/w-okada/ttsclient)。
- Beatrice V2 トレーニングコード公開!!!
- [トレーニングコードリポジトリ](https://huggingface.co/fierce-cats/beatrice-trainer)
- [コラボ版](https://github.com/w-okada/beatrice-trainer-colab)
- v.2.0.65-beta
- [こちらを参照](https://github.com/w-okada/voice-changer/tree/v.2)
- new feature: Beatrice v2 beta.1をサポートしました。さらなる高品質な音声変換が可能になります。 -
- v.2.0.61-alpha
- [こちらを参照](https://github.com/w-okada/voice-changer/tree/v.2)
- feature:
- クロスフェードの時間を指定できるようになりました。
- bugfix:
- モデルマージの際に、使用しないモデルの要素を0にしても動くようになりました。
- v.2.0.60-alpha
- [こちらを参照](https://github.com/w-okada/voice-changer/tree/v.2)
- feature:
- [darkmode](https://github.com/w-okada/voice-changer/issues/1306)
- [re-introduce pytorch rmvpe](https://github.com/w-okada/voice-changer/issues/1319)
- [wasapi 排他モード選択](https://github.com/w-okada/voice-changer/issues/1305)
- v.2.0.58-alpha
- [こちらを参照](https://github.com/w-okada/voice-changer/tree/v.2)
- feature:
- SIO ブロードキャスティング
- embed ngrok(experimental)
- improve:
- for Mobile Phone tuning.
- bugfix:
- macos CUIメッセージ文字化け
- v.2.0.55-alpha
- [こちらを参照](https://github.com/w-okada/voice-changer/tree/v.2)
- improve:
- RVCのCPU負荷を削減
- WebSocket対応
- change
- 起動バッチでno_cuiオプションを有効化
# VC Client とは
1. 各種音声変換 AI(VC, Voice Conversion)を用いてリアルタイム音声変換を行うためのクライアントソフトウェアです。サポートしている音声変換 AI は次のものになります。
- サポートする音声変換 AI (サポート VC
- [MMVC](https://github.com/isletennos/MMVC_Trainer) (only v1)
- [so-vits-svc](https://github.com/svc-develop-team/so-vits-svc) (only v1)
- [RVC(Retrieval-based-Voice-Conversion)](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI)
- [DDSP-SVC](https://github.com/yxlllc/DDSP-SVC) (only v1)
- [Beatrice JVS Corpus Edition](https://prj-beatrice.com/) * experimental, (***NOT MIT License*** see [readme](https://github.com/w-okada/voice-changer/blob/master/server/voice_changer/Beatrice/)) * Only for Windows, CPU dependent (only for v1)
- [Beatrice v2](https://prj-beatrice.com/) (only for v2)
1. 本ソフトウェアは、ネットワークを介した利用も可能であり、ゲームなどの高負荷なアプリケーションと同時に使用する場合などに音声変換処理の負荷を外部にオフロードすることができます。
![image](https://user-images.githubusercontent.com/48346627/206640768-53f6052d-0a96-403b-a06c-6714a0b7471d.png)
3. 複数のプラットフォームに対応しています。
- Windows, Mac(M1), Linux, Google Colab
## 関連ソフトウェア
- [リアルタイムボイスチェンジャ VCClient](https://github.com/w-okada/voice-changer)
- [読み上げソフトウェア TTSClient](https://github.com/w-okada/ttsclient)
- [リアルタイム音声認識ソフトウェア ASRClient](https://github.com/w-okada/asrclient)
# 使用方法
大きく 2 つの方法でご利用できます。難易度順に次の通りです。
- 事前ビルド済みの Binary での利用
- Docker や Anaconda など環境構築を行った上での利用
本ソフトウェアや MMVC になじみの薄い方は上から徐々に慣れていくとよいと思います。
## (1) 事前ビルド済みの Binary での利用
- チュートリアルは[こちら](tutorials/tutorial_rvc_ja_latest.md)をご覧ください。([ネットワークのトラブルシュート](https://github.com/w-okada/voice-changer/blob/master/tutorials/trouble_shoot_communication_ja.md))
- [Google Colaboratory](https://github.com/w-okada/voice-changer/tree/v.2/w_okada's_Voice_Changer_version_2_x.ipynb) で簡単にお試しいただけるようになりました。左上の Open in Colab のボタンから起動できます。
<img src="https://github.com/w-okada/voice-changer/assets/48346627/3f092e2d-6834-42f6-bbfd-7d389111604e" width="400" height="150">
- Windows 版と Mac 版を提供しています。[Hugging Face](https://huggingface.co/wok000/vcclient000/tree/main)からダウンロードできます。
- v2 for windows
- `vcclient_win_std_xxx.zip`をダウンロードして使用してください。gpuを使用しない(ある程度高性能なCPUでの)音声変換や、directmlを用いてgpu(amd, nvidia)を活用した音声変換が可能です。v2では、torch, onnxいずれも対応可能です。
- nvidiaのgpuをお持ちの方は`vcclient_win_cuda_xxx.zip`を使用することでより高速な音声変換ができます。
- v2 for Mac(apple silicon)
- `vcclient_mac_xxx.zip`をダウンロードして使用してください。
- v1
- Windows かつ Nvidia の GPU をご使用の方は、ONNX(cpu,cuda), PyTorch(cpu,cuda)をダウンロードしてください。
- Windows かつ AMD/Intel の GPU をご使用の方は、ONNX(cpu,DirectML), PyTorch(cpu,cuda)をダウンロードしてください。AMD/Intel の GPU は onnx のモデルを使用する場合のみ有効になります。
- いずれの GPU のサポート状況についても、PyTorch、Onnxruntime がサポートしている場合のみ有効になります。
- Windows で GPU をご使用にならない方は、ONNX(cpu,cuda), PyTorch(cpu,cuda)をダウンロードしてください。
- Windows 版は、ダウンロードした zip ファイルを解凍して、`start_http.bat`を実行してください。
- Mac 版はダウンロードファイルを解凍したのちに、`startHttp.command`を実行してください。開発元を検証できない旨が示される場合は、再度コントロールキーを押してクリックして実行してください(or 右クリックから実行してください)。
- 初回起動時は各種データをダウンロードします。ダウンロードに時間がかかる可能性があります。ダウンロードが完了すると、ブラウザが立ち上がります。
- リモートから接続する場合は、`.bat`ファイル(win)、`.command`ファイル(mac)の http が https に置き換わっているものを使用してください。
- DDPS-SVC の encoder は hubert-soft のみ対応です。
- ダウンロードはこちらから。
[hugging face](https://huggingface.co/wok000/vcclient000/tree/main)
## (2) Docker や Anaconda など環境構築を行った上での利用
本リポジトリをクローンして利用します。Windows では WSL2 の環境構築が必須になります。また、WSL2 上で Docker もしくは Anaconda などの仮想環境の構築が必要となります。Mac では Anaconda などの Python の仮想環境の構築が必要となります。事前準備が必要となりますが、多くの環境においてこの方法が一番高速で動きます。**<font color="red"> GPU が無くてもそこそこ新しい CPU であれば十分動く可能性があります </font>(下記のリアルタイム性の節を参照)**。
[WSL2 と Docker のインストールの解説動画](https://youtu.be/POo_Cg0eFMU)
[WSL2 と Anaconda のインストールの解説動画](https://youtu.be/fba9Zhsukqw)
Docker での実行は、[Docker を使用する](docker_vcclient/README.md)を参考にサーバを起動してください。
Anaconda の仮想環境上での実行は、[サーバ開発者向けのページ](README_dev_ja.md)を参考にサーバを起動してください。
# トラブルシュート
- [通信編](tutorials/trouble_shoot_communication_ja.md)
# 開発者の署名について
本ソフトウェアは開発元の署名しておりません。下記のように警告が出ますが、コントロールキーを押しながらアイコンをクリックすると実行できるようになります。これは Apple のセキュリティポリシーによるものです。実行は自己責任となります。
![image](https://user-images.githubusercontent.com/48346627/212567711-c4a8d599-e24c-4fa3-8145-a5df7211f023.png)
# Acknowledgments
- [立ちずんだもん素材](https://seiga.nicovideo.jp/seiga/im10792934)
- [いらすとや](https://www.irasutoya.com/)
- [つくよみちゃん](https://tyc.rei-yumesaki.net/)
```
本ソフトウェアの音声合成には、フリー素材キャラクター「つくよみちゃん」が無料公開している音声データを使用しています。
■つくよみちゃんコーパスCV.夢前黎)
https://tyc.rei-yumesaki.net/material/corpus/
© Rei Yumesaki
```
- [あみたろの声素材工房](https://amitaro.net/)
- [れぷりかどーる](https://kikyohiroto1227.wixsite.com/kikoto-utau)
# 利用規約
- リアルタイムボイスチェンジャーつくよみちゃんについては、つくよみちゃんコーパスの利用規約に準じ、次の目的で変換後の音声を使用することを禁止します。
```
■人を批判・攻撃すること。(「批判・攻撃」の定義は、つくよみちゃんキャラクターライセンスに準じます)
■特定の政治的立場・宗教・思想への賛同または反対を呼びかけること。
■刺激の強い表現をゾーニングなしで公開すること。
■他者に対して二次利用(素材としての利用)を許可する形で公開すること。
※鑑賞用の作品として配布・販売していただくことは問題ございません。
```
- リアルタイムボイスチェンジャーあみたろについては、あみたろの声素材工房様の次の利用規約に準じます。詳細は[こちら](https://amitaro.net/voice/faq/#index_id6)です。
```
あみたろの声素材やコーパス読み上げ音声を使って音声モデルを作ったり、ボイスチェンジャーや声質変換などを使用して、自分の声をあみたろの声に変換して使うのもOKです。
ただしその場合は絶対に、あみたろ(もしくは小春音アミ)の声に声質変換していることを明記し、あみたろ(および小春音アミ)が話しているわけではないことが誰でもわかるようにしてください。
また、あみたろの声で話す内容は声素材の利用規約の範囲内のみとし、センシティブな発言などはしないでください。
```
- リアルタイムボイスチェンジャー黄琴まひろについては、れぷりかどーるの利用規約に準じます。詳細は[こちら](https://kikyohiroto1227.wixsite.com/kikoto-utau/ter%EF%BD%8Ds-of-service)です。
# 免責事項
本ソフトウェアの使用または使用不能により生じたいかなる直接損害・間接損害・波及的損害・結果的損害 または特別損害についても、一切責任を負いません。
# (1) レコーダー(トレーニング用音声録音アプリ)
MMVC トレーニング用の音声を簡単に録音できるアプリです。
Github Pages 上で実行できるため、ブラウザのみあれば様々なプラットフォームからご利用可能です。
録音したデータは、ブラウザ上に保存されます。外部に漏れることはありません。
[録音アプリ on Github Pages](https://w-okada.github.io/voice-changer/)
[解説動画](https://youtu.be/s_GirFEGvaA)
# 過去バージョン
| Version | OS | フレームワーク | link | サポート VC | サイズ |
| ---------- | --- | --------------------------------- | ---------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------- | ------ |
| v.1.5.2.9e | mac | ONNX(cpu), PyTorch(cpu,mps) | [normal](https://drive.google.com/uc?id=1W0d7I7619PcO7kjb1SPXp6MmH5Unvd78&export=download) \*1 | MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC | 796MB |
| | win | ONNX(cpu,cuda), PyTorch(cpu,cuda) | [normal](https://drive.google.com/uc?id=1tmTMJRRggS2Sb4goU-eHlRvUBR88RZDl&export=download) \*1 | MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, so-vits-svc 4.0v2, RVC, DDSP-SVC | 2872MB |
| v.1.5.3.1 | mac | ONNX(cpu), PyTorch(cpu,mps) | [normal](https://drive.google.com/uc?id=1oswF72q_cQQeXhIn6W275qLnoBAmcrR_&export=download) \*1 | MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, RVC | 796MB |
| | win | ONNX(cpu,cuda), PyTorch(cpu,cuda) | [normal](https://drive.google.com/uc?id=1AWjDhW4w2Uljp1-9P8YUJBZsIlnhkJX2&export=download) \*1 | MMVC v.1.5.x, MMVC v.1.3.x, so-vits-svc 4.0, so-vits-svc 4.0v2, RVC, DDSP-SVC | 2872MB |
# For Contributor
このリポジトリは[CLA](https://raw.githubusercontent.com/w-okada/voice-changer/master/LICENSE-CLA)を設定しています。