diff --git a/tutorials/tutorial_rvc_en_latest.md b/tutorials/tutorial_rvc_en_latest.md index 32b48852..1764394d 100644 --- a/tutorials/tutorial_rvc_en_latest.md +++ b/tutorials/tutorial_rvc_en_latest.md @@ -207,13 +207,18 @@ You can switch the noise cancellation feature on and off, however it is only ava - Echo: Echo Cancellation Function - Sup1, Sup2: This is a noise suppression feature. -#### F0 Det (F0 Estimator) +#### F0 Det (F0 Extractor) -Choose an algorithm for extracting the pitch. You can choose from the following options. +Choose an algorithm for extracting the pitch. You can choose from the following options. AMD is available for only onnx. -- Lightweight `dio` -- High-precision `harvest` -- GPU-enabled `crepe` +| F0 Extractor | type | description | +| ------------ | ----- | --------------------------- | +| dio | cpu | lightweight | +| harvest | cpu | High-precision | +| crepe | torch | GPU-enabled、high-precision | +| crepe full | onnx | GPU-enabled、high-precision | +| crepe tiny | onnx | GPU-enabled、lightweight | +| rnvpe | torch | GPU-enabled、high-precision | #### S. Thresh (Noise Gate) @@ -247,6 +252,8 @@ Choose the type of audio device you want to use. For more information, please re You can select a sound input device such as a microphone input. It's also possible to input from audio files (size limit applies). +For win user, system sound is available as input. Please note if you set the system sound as output, the sound loop occurs. + #### output You can select audio output devices such as speakers and output. diff --git a/tutorials/tutorial_rvc_en_1_5_3_7.md b/tutorials/tutorial_rvc_en_1_5_3_7.md new file mode 100644 index 00000000..32b48852 --- /dev/null +++ b/tutorials/tutorial_rvc_en_1_5_3_7.md @@ -0,0 +1,336 @@ +# Realtime Voice Changer Client for RVC Tutorial (v.1.5.3.7) + +[Japanese/日本語](/tutorials/tutorial_rvc_ja_latest.md) + +# Introduction + +This application is client software for real-time voice conversion that supports various voice conversion models. This application support the models including RVC, MMVCv13, MMVCv15, So-vits-svcv40, etc. However, this document focus on [RVC(Retrieval-based-Voice-Conversion)](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI) for voice conversion as the tutorial material. The basic operations for each model are essentially the same. + +From the following, the original [Retrieval-based-Voice-Conversion-WebUI](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI) is referred to as the original-RVC, [RVC-WebUI](https://github.com/ddPn08/rvc-webui) created by ddPn08 is referred to as ddPn08-RVC. + +## Notes + +- Model training must be done separately. + - If you want to learn by yourself, please go to [original-RVC](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI) or [ddPn08RVC](https://github.com/ddPn08/rvc-webui). + - [Recording app on Github Pages](https://w-okada.github.io/voice-changer/) is convenient for preparing voice for learning on the browser. + - [Commentary video] (https://youtu.be/s_GirFEGvaA) + - [TIPS for training](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/blob/main/docs/training_tips_en.md) has been published, so please refer to it. + +# Steps up to startup + +## Start GUI + +### Windows version, + +Unzip the downloaded zip file and run `start_http.bat`. + +If you have the old version, be sure to unzip it into a separate folder. + +### Mac version + +It is launched as follows. + +1. Unzip the downloaded file. + +1. Next, run MMVCServerSIO by hold down the control key and clicking it (or right-click to run it). If a message appears stating that the developer cannot be verified, run it again by holding down the control key and clicking it (or right-click to run it). The terminal will open and the process will finish within a few seconds. + +1. Next, execute the startHTTP.command by holding down the control key and clicking on it (or you can also right-click to run it). If a message appears stating that the developer cannot be verified, repeat the process by holding down the control key and clicking on it (or perform a right-click to run it). A terminal will open, and the launch process will begin. + +- In other words, the key is to run both MMVCServerSIO and startHTTP.command. Moreover, you need to run MMVCServerSIO first. + +If you have the old version, be sure to unzip it into a separate folder. + +### Precautions when connecting remotely + +When connecting remotely, please use `.bat` file (win) and `.command` file (mac) where http is replaced with https. + +### Console + +When you run a .bat file (Windows) or .command file (Mac), a screen like the following will be displayed and various data will be downloaded from the Internet at the initial start-up. Depending on your environment, it may take 1-2 minutes in many cases. + +![image](https://github.com/w-okada/voice-changer/assets/48346627/88a30097-2fb3-4c50-8bf1-19c41f27c481) + +### GUI + +Once the download of the required data is complete, a dialog like the one below will be displayed. If you wish, press the yellow icon to reward the developer with a cup of coffee. Pressing the Start button will make the dialog disappear. + +![image](https://github.com/w-okada/voice-changer/assets/48346627/a8d12b5c-d1e8-4ca6-aed0-72cee6bb97c1) + +# GUI Overview + +Use this screen to operate. + +![image](https://github.com/w-okada/voice-changer/assets/48346627/27add00d-5059-4cbf-a732-9deb6dc309ff) + +# Quick start + +You can immediately perform voice conversion using the data downloaded at startup. + +## Operation + +(1) To get started, click on the Model Selection area to select the model you would like to use. Once the model is loaded, the images of the characters will be displayed on the screen. + +(2) Select the microphone (input) and speaker (output) you wish to use. If you are unfamiliar, we recommend selecting the client and then selecting your microphone and speaker. (We will explain the difference between server later). + +(3) When you press the start button, the audio conversion will start after a few seconds of data loading. Try saying something into the microphone. You should be able to hear the converted audio from the speaker. + +![image](https://github.com/w-okada/voice-changer/assets/48346627/883b296e-e5ca-4571-8fed-dcf7495ebb92) + +## FAQ on Quick Start + +Q1. The audio is becoming choppy and stuttering. + +A1. It is possible that your PC's performance is not adequate. Try increasing the CHUNK value (as shown in Figure as A, for example, 1024). Also try setting F0 Det to dio (as shown in Figure as B). + +![image](https://github.com/w-okada/voice-changer/assets/48346627/3c485d9b-53be-47c1-85d9-8663363b06f9) + +Q2. The voice is not being converted. + +A2. Refer to [this](https://github.com/w-okada/voice-changer/blob/master/tutorials/trouble_shoot_communication_ja.md) and identify where the problem lies, and consider a solution. + +Q3. The pitch is off. + +A3. Although it wasn't explained in the Quick Start, if the model is pitch-changeable, you can change it with TUNE. Please refer to the more detailed explanation below. + +Q4. The window doesn't show up or the window shows up but the contents are not displayed. A console error such as `electron: Failed to load URL: http://localhost:18888/ with error: ERR_CONNECTION_REFUSED` is displayed. + +A4. There is a possibility that the virus checker is running. Please wait or designate the folder to be excluded at your own risk. + +Q5. `[4716:0429/213736.103:ERROR:gpu_init.cc(523)] Passthrough is not supported, GL is disabled, ANGLE is` is displayed + +A5. This is an error produced by the library used by this application, but it does not have any effect, so please ignore it. + +Q6. My AMD GPU isn't being used. + +A6. Please use the DirectML version. Additionally, AMD GPUs are only enabled for ONNX models. You can judge this by the GPU utilization rate going up in the Performance Monitor.([see here](https://github.com/w-okada/voice-changer/issues/383)) + +## Configurable items + +## Title + +![image](https://github.com/w-okada/voice-changer/assets/48346627/bb813fbb-4ea1-4c3b-87b0-da75b7eaac5e) + +Icons are links. + +| Icon | To | +| :--------------------------------------------------------------------------------------------------------------------------------- | :---------------- | +| Octocat | github repository | +| question | manual | +| spanner | tools | +| coffee | donation | + +### claer setting + +Initialize configuration. + +## Model Selection + +![image](https://github.com/w-okada/voice-changer/assets/48346627/503eb581-a560-42b2-985b-d229d186eac8) + +Select the model you wish to use. + +By pressing the "edit" button, you can edit the list of models (model slots). Please refer to the model slots editing screen for more details. + +## Main Control + +![image](https://github.com/w-okada/voice-changer/assets/48346627/5a8dcf64-29d3-49cd-92f1-db7b539bfb3d) + +A character image loaded on the left side will be displayed. The status of real-time voice changer is overlaid on the top left of the character image. + +You can use the buttons and sliders on the right side to control various settings. + +### status of real-time voice changer + +The lag time from speaking to conversion is `buf + res` seconds. When adjusting, please adjust the buffer time to be longer than the res time. + +#### vol + +This is the volume after voice conversion. + +#### buf + +The length of each chunk in milliseconds when capturing audio. Shortening the CHUNK will decrease this number. + +#### res + +The time it takes to convert data with CHUNK and EXTRA added is measured. Decreasing either CHUNK or EXTRA will reduce the number. + +### Control + +#### start/stop button + +Press "start" to begin voice conversion and "stop" to end it. + +#### GAIN + +- in: Change the volume of the inputted audio for the model. + +- out: Change the volume of the converted audio. + +#### TUNE + +Enter a value for how much to convert the pitch of the voice. Conversion can also be done during inference. Below are some guidelines for settings. + +- +12 for male voice to female voice conversion +- -12 for female voice to male voice conversion + +#### INDEX (Only for RVC) + +You can specify the rate of weight assigned to the features used in training. This is only valid for models which have an index file registered. 0 uses HuBERT's output as-is and 1 assigns all weights to the original features. If the index ratio is greater than 0, it may take longer to search. + +#### Voice + +Set the speaker of the audio conversion. + +#### save setting + +Save the settings specified. When the model is recalled again, the settings will be reflected. (Excluding some parts). + +#### export to onnx + +This output will convert the PyTorch model to ONNX. It is only valid if the loaded model is a RVC PyTorch model. + +#### Others + +The item that can be configured by the AI model used will vary. Please check the features and other information on the model manufacturer's website. + +## Configuration + +![image](https://github.com/w-okada/voice-changer/assets/48346627/cd04ba9f-f7e8-4a7e-8c93-cda3c81f3c1a) + +You can review the action settings and transformation processes. + +#### NOISE + +You can switch the noise cancellation feature on and off, however it is only available in Client Device Mode. + +- Echo: Echo Cancellation Function +- Sup1, Sup2: This is a noise suppression feature. + +#### F0 Det (F0 Estimator) + +Choose an algorithm for extracting the pitch. You can choose from the following options. + +- Lightweight `dio` +- High-precision `harvest` +- GPU-enabled `crepe` + +#### S. Thresh (Noise Gate) + +This is the threshold of the volume for performing speech conversion. When the rms is smaller than this value, speech conversion will be skipped and silence will be returned instead. (In this case, since the conversion process is skipped, the burden will not be so large.) + +#### CHUNK (Input Chunk Num) + +Decide how much length to cut and convert in one conversion. The higher the value, the more efficient the conversion, but the larger the buf value, the longer the maximum time before the conversion starts. The approximate time is displayed in buff:. + +#### EXTRA (Extra Data Length) + +Determines how much past audio to include in the input when converting audio. The longer the past voice is, the better the accuracy of the conversion, but the longer the res is, the longer the calculation takes. +(Probably because Transformer is a bottleneck, the calculation time will increase by the square of this length) + +Detail is [here](https://github.com/w-okada/voice-changer/issues/154#issuecomment-1502534841) + +#### GPU + +You can select the GPU to use in the onnxgpu version. + +In the onnxdirectML version, you can switch the GPU ON/OFF. + +#### AUDIO + +Choose the type of audio device you want to use. For more information, please refer to the [document](./tutorial_device_mode.md). + +- Client: You can make use of the microphone input and speaker output with the GUI functions such as noise cancellation. +- Server: VCClient can directly control the microphone and speaker to minimize latency. + +#### input + +You can select a sound input device such as a microphone input. It's also possible to input from audio files (size limit applies). + +#### output + +You can select audio output devices such as speakers and output. + +#### monitor + +In monitor mode, you can select audio output devices such as speaker output. This is only available in server device mode. + +Please refer to [this document](tutorial_monitor_consept_ja.md) for an overview of the idea. + +#### REC. + +It will output the converted audio to a file. + +### ServerIO Analizer + +We can record and confirm the input audio to the speech conversion AI and the output audio from the speech conversion AI. + +Please refer to [this document](trouble_shoot_communication_ja.md) for an overview of the idea. + +#### SIO rec. + +I will start/stop recording both the audio inputted into the voice conversion AI as well as the audio outputted from the voice conversion AI. + +#### output + +The AI will play back any audio that is input into it. + +#### in + +I will play the audio inputted to the speech conversion AI. + +#### out + +Play the audio output from the Speech Conversion AI. + +### more... + +You can do more advanced operations. + +#### Merge Lab + +It is possible to do synthesis of models. + +#### Advanced Setting + +You can set up more advanced settings. + +#### Server Info + +You can check the configuration of the current server. + +# Model Slot Edit Screen + +By pressing the edit button in the Model Slot Selection Area, you can edit the model slot. + +![image](https://github.com/w-okada/voice-changer/assets/48346627/a4735a2e-540e-4e7c-aa70-ba5b91ff09eb) + +## Icon Area + +You can change the image by clicking on the icon. + +## File Area + +You can download the file by clicking on the file name. + +## Upload Button + +You can upload the model. + +In the upload screen, you can select the voice changer type to upload. + +You can go back to the Model Slot Edit Screen by pressing the back button. + +![image](https://github.com/w-okada/voice-changer/assets/48346627/012c3585-0be2-4846-969a-882dcc07837b) + +## Sample Button + +You can download a sample. + +You can go back to the Model Slot Edit Screen by pressing the back button. + +![image](https://github.com/w-okada/voice-changer/assets/48346627/1c6e2529-af80-479a-8002-c37ebeb0c807) + +## Edit Button + +You can edit the details of the model slot. diff --git a/tutorials/tutorial_rvc_ja_1_5_3_7.md b/tutorials/tutorial_rvc_ja_1_5_3_7.md new file mode 100644 index 00000000..27f91733 --- /dev/null +++ b/tutorials/tutorial_rvc_ja_1_5_3_7.md @@ -0,0 +1,344 @@ +# Realtime Voice Changer Client for RVC チュートリアル(v.1.5.3.7) + +[English](/tutorials/tutorial_rvc_en_latest.md) + +# はじめに + +本アプリケーションは、各種音声変換 AI(VC, Voice Conversion)を用いてリアルタイム音声変換を行うためのクライアントソフトウェアです。RVC, MMVCv13, MMVCv15, So-vits-svcv40 などのモデルに対応していますが本ドキュメントでは[RVC(Retrieval-based-Voice-Conversion)](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI)を題材に音声変換のためのチュートリアルを行います。基本的な操作は大きく変わりません。 + +以下、本家の[Retrieval-based-Voice-Conversion-WebUI](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI)を本家 RVC と表記し、ddPn08 氏の作成した[RVC-WebUI](https://github.com/ddPn08/rvc-webui)を ddPn08RVC と記載します。 + +## 注意事項 + +- 学習については別途行う必要があります。 + - 自身で学習を行う場合は[本家 RVC](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI)または[ddPn08RVC](https://github.com/ddPn08/rvc-webui)で行ってください。 + - ブラウザ上で学習用の音声を用意するには[録音アプリ on Github Pages](https://w-okada.github.io/voice-changer/)が便利です。 + - [解説動画](https://youtu.be/s_GirFEGvaA) + - [training の TIPS](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/blob/main/docs/training_tips_ja.md)が公開されているので参照してください。 + +# 起動まで + +## GUI の起動 + +### Windows 版、 + +ダウンロードした zip ファイルを解凍して、`start_http.bat`を実行してください。 + +旧バージョンをお持ちの方は、必ず別のフォルダに解凍するようにしてください。 + +### Mac 版 + +次のように起動します。 + +1. ダウンロードファイルを解凍します。 + +1. 次に、MMVCServerSIO をコントロールキーを押しながらクリックして実行します(or 右クリックから実行します)。開発元を検証できない旨が表示される場合は、再度コントロールキーを押しながらクリックして実行します(or 右クリックから実行します)。ターミナルが開き、数秒で処理が終了します。 + +1. 次に、startHTTP.command をコントロールキーを押しながらクリックして実行します(or 右クリックから実行します)。開発元を検証できない旨が表示される場合は、再度コントロールキーを押しながらクリックして実行します(or 右クリックから実行してください)。ターミナルが開き起動処理が開始します。 + +※ つまり、MMVCServerSIO と、startHTTP.command の両方で実行を行うのがポイントです。そして、MMVCServerSIO の方を先に実行しておく必要があります。 + +旧バージョンをお持ちの方は、必ず別のフォルダに解凍するようにしてください。 + +### リモート接続時の注意 + +リモートから接続する場合は、`.bat`ファイル(win)、`.command`ファイル(mac)の http が https に置き換わっているものを使用してください。 + +### コンソール表示 + +`.bat`ファイル(win)や`.command`ファイル(mac)を実行すると、次のような画面が表示され、初回起動時には各種データをインターネットからダウンロードします。 +お使いの環境によりますが、多くの場合1~2分かかります。 + +![image](https://github.com/w-okada/voice-changer/assets/48346627/88a30097-2fb3-4c50-8bf1-19c41f27c481) + +### GUI 表示 + +起動に必要なデータのダウンロードが完了すると下記のような ダイアログが表示されます。よろしければ黄色いアイコンを押して開発者にコーヒーをご馳走してあげてください。スタートボタンを押すとダイアログが消えます。 + +![image](https://github.com/w-okada/voice-changer/assets/48346627/a8d12b5c-d1e8-4ca6-aed0-72cee6bb97c1) + +# GUI + +下記のような画面が出れば成功です。 + +![image](https://github.com/w-okada/voice-changer/assets/48346627/27add00d-5059-4cbf-a732-9deb6dc309ff) + +# クイックスタート + +## 操作方法 + +起動時にダウンロードしたデータを用いて、すぐに音声変換を行うことができます。 + +(1) モデル選択エリアから使いたいモデルをクリックします。モデルがロードされるとモデルに設定されているキャラクタの画像が画面に表示されます。 + +(2) 使用するマイク(input)とスピーカー(output)を選択します。慣れていない方は、client を選択して、マイクとスピーカーを選択することを推奨します。(server との違いは後述します。) + +(3) スタートボタンを押すと、数秒のデータロードの後に音声変換が開始されます。マイクに何かしゃべってみてください。スピーカーから変換後の音声が聞こえてくると思います。 + +![image](https://github.com/w-okada/voice-changer/assets/48346627/883b296e-e5ca-4571-8fed-dcf7495ebb92) + +## クイックスタートにおける FAQ + +Q1. 音がとぎれとぎれになってしまう。 + +A1. PC の性能が十分ではない可能性があります。CHUNK の値を大きくしてみてください(下図(A))。(1024 など)。また F0 Det を dio にしてみてください(下図(B))。 + +![image](https://github.com/w-okada/voice-changer/assets/48346627/3c485d9b-53be-47c1-85d9-8663363b06f9) + +Q2. 音声が変換されない。 + +A2. [こちら](https://github.com/w-okada/voice-changer/blob/master/tutorials/trouble_shoot_communication_ja.md)を参照して問題点の場所を明らかにして、対応を検討してください。 + +Q3. 音程がおかしい + +A3. クイックスタートでは説明しませんでしたが、Pitch 変更可能なモデルであれば TUNE で変更できます。後述の詳細説明をご確認ください。 + +Q4. ウィンドウが表示されない。あるいはウィンドウは表示されるが中身が表示されない。コンソールに`electron: Failed to load URL: http://localhost:18888/ with error: ERR_CONNECTION_REFUSED`のようなエラーが表示される。 + +A4. ウィルスチェッカーが走っている可能性があります。しばらく待つか、自己責任でフォルダを除外指定してください。 + +Q5. `[4716:0429/213736.103:ERROR:gpu_init.cc(523)] Passthrough is not supported, GL is disabled, ANGLE is`という表示が出る + +A5. 使用しているライブラリが出しているエラーです。影響はありませんので無視してください。 + +Q6. (AMD ユーザ) GPU が使用されていないような気がする。 + +A6. DirectML 版を使用してください。また、AMD の GPU は ONNX モデルでのみ有効になります。パフォーマンスモニターで GPU の使用率が上がっていることで判断できます。([see here](https://github.com/w-okada/voice-changer/issues/383)) + +# GUI の詳細 + +## タイトルエリア + +![image](https://github.com/w-okada/voice-changer/assets/48346627/bb813fbb-4ea1-4c3b-87b0-da75b7eaac5e) + +タイトル下のアイコンはリンクになっています。 + +| アイコン | リンク | +| :------------------------------------------------------------------------------------------------------------------------------------------- | :------------------------------- | +| Octocat | github のリポジトリへのリンク | +| クエスションマーク | マニュアル へのリンク | +| スパナ | 各種便利ツールへのリンク | +| コーヒー | 開発者へ**寄付**するためのリンク | + +### claer setting + +設定を初期化します。 + +## モデル選択エリア + +![image](https://github.com/w-okada/voice-changer/assets/48346627/503eb581-a560-42b2-985b-d229d186eac8) + +使用するモデルを選択します。 + +編集ボタンを押すと、モデル一覧(モデルスロット)を編集することができます。詳細はモデルスロット編集画面をご確認ください。 + +## メインコントロールエリア + +![image](https://github.com/w-okada/voice-changer/assets/48346627/5a8dcf64-29d3-49cd-92f1-db7b539bfb3d) + +左側にロードされたモデルのキャラクタ画像が表示されます。キャラクタ画像の左上にリアルタイム変換の状況がオーバレイ表示されます。 + +右側のボタンやスライダーで各種コントロールを行います。 + +### リアルタイム変換の状況 + +声を出してから変換までのラグは`buf + res秒`です。調整の際は buf の時間が res よりも長くなるように調整してください。 + +なお、デバイスを server device モードで使用している場合は buf の表示は行われません。CHUNK に表示されている値を目安に調整してください。 + +#### vol + +音声変換後の音量です。 + +#### buf + +音声を切り取る一回の区間の長さ(ms)です。CHUNK を短くするとこの数値が減ります。 + +#### res + +CHUNK と EXTRA を足したデータを変換にかかる時間です。CHUNK と EXTRA のいずれでも短くすると数値が減ります。 + +### コントロール + +#### start/stop ボタン + +start で音声変換を開始、stop で音声変換を停止します + +#### GAIN + +- in: モデルへの入力音声の音量の大きさを変化させます。 + +- out: 変換後の音声の音量の大きさを変化させます。 + +#### TUNE + +声のピッチをどれくらい変換するかの値を入れます。推論中に変換もできます。以下は設定の目安です。 + +- 男声 → 女声 の変換では+12 +- 女声 → 男声 の変換では-12 + +#### INDEX (RVC のみ) + +学習で使用した特徴量に寄せる比率を指定します。index ファイルが登録されているモデルのみ有効です。 +0 で HuBERT の出力をそのまま使う、1 で元の特徴量にすべて寄せます。 +index ratio が 0 より大きいと検索に時間がかかる場合があります。 + +#### Voice + +音声変換先の話者を設定します。 + +#### 設定保存ボタン + +設定した内容を保存します。モデルを再度呼び出したときに設定内容が反映されます。(一部のぞく) + +#### ONNX 出力 (RVC のみ) + +PyTorch のモデルを ONNX に変換して出力します。ロードされているモデルが RVC の PyTorch モデルである場合のみ有効です。 + +#### その他 + +使用する音声変換 AI モデルにより設定可能な内容が増減します。モデル開発元のサイトなどで機能等をご確認ください。 + +## 詳細設定エリア + +![image](https://github.com/w-okada/voice-changer/assets/48346627/cd04ba9f-f7e8-4a7e-8c93-cda3c81f3c1a) + +動作設定や変換処理の内容を確認することができます。 + +#### NOISE + +ノイズ除去機能の ON/OFF を切り替えられます。Client Device モードでのみ有効です。 + +- Echo: エコーキャンセル機能 +- Sup1, Sup2: ノイズ抑制機能です + +#### F0 Det (F0 Estimator) + +ピッチを抽出するためのアルゴリズムを選びます。次の中から選べます。 + +- 軽量な`dio` +- 高精度な`harvest` +- GPU を使用する `crepe` + +#### S. Thresh (Noise Gate) + +音声変換を行う音量の閾地です。この値より小さい rms の時は音声変換をせず無音を返します。 +(この場合、変換処理がスキップされるので、あまり負荷がかかりません。) + +#### CHUNK (Input Chunk Num) + +一度の変換でどれくらいの長さを切り取って変換するかを決めます。これが大きいほど効率的に変換できますが、buf の値が大きくなり変換が開始されるまでの最大の時間が伸びます。 buff: におよその時間が表示されます。 + +#### EXTRA (Extra Data Length) + +音声を変換する際、入力にどれくらいの長さの過去の音声を入れるかを決めます。過去の音声が長く入っているほど変換の精度はよくなりますが、その分計算に時間がかかるため res が長くなります。 +(おそらく Transformer がネックなので、これの長さの 2 乗で計算時間は増えます) + +詳細は[こちらの資料](https://github.com/w-okada/voice-changer/issues/154#issuecomment-1502534841)をご覧ください。 + +#### GPU + +onnxgpu 版では使用する GPU を選択することができます。 + +onnxdirectML 版では GPU の ON/OFF を切り替えることができます。 + +#### AUDIO + +使用するオーディオデバイスのタイプを選びます。詳細は[こちらの文書](./tutorial_device_mode.md)をご確認ください。 + +- client: ノイズ抑制機能など GUI(chrome)の機能を活用してマイク入力、スピーカー出力を行うことができます。 +- server: VCClient が直接マイクとスピーカーを操作します。遅延を抑えることができます。 + +#### input + +マイク入力など音声入力デバイスを選択できます。音声ファイルからのインプットも可能です(サイズ上限あり)。 + +#### output + +スピーカー出力など音声出力デバイスを選択できます。 + +#### monitor + +モニター用にスピーカー出力など音声出力デバイスを選択できます。server device モードの場合のみ有効です。 + +詳細は[こちらの文書](./tutorial_monitor_consept_ja.md)をご確認ください。 + +#### REC. + +変換後の音声をファイル出力します。 + +### ServerIO Analizer + +音声変換 AI に入力される音声と音声変換 AI から出力される音声を録音し、確認することができます。 + +大まかな考え方は[こちらの文書](trouble_shoot_communication_ja.md)を確認ください。 + +#### SIO rec. + +音声変換 AI に入力される音声と音声変換 AI から出力される音声を録音を開始/停止します。 + +#### output + +録音した音声を再生するスピーカーを設定します。 + +#### in + +音声変換 AI に入力される音声を再生します。 + +#### out + +音声変換 AI から出力された音声を再生します。 + +### more... + +より高度な操作を行うことができます。 + +#### Merge Lab + +モデルの合成を行うことができます。 + +#### Advanced Setting + +より高度な設定を行うことができます。 + +#### Server Info + +現在のサーバの設定を確認することができます。 + +# モデルスロット編集画面 + +モデルスロット選択アリアで編集ボタンを押すとモデルスロットを編集することができます。 + +![image](https://github.com/w-okada/voice-changer/assets/48346627/a4735a2e-540e-4e7c-aa70-ba5b91ff09eb) + +## アイコンエリア + +アイコンをクリックすることで画像を変更することができます。 + +## ファイルエリア + +ファイル名をクリックすることでダウンロードすることができます。 + +## アップロードボタン + +モデルをアップロードできます。 + +アップロード画面ではアップロードするボイスチェンジャタイプを選択することができます。 + +戻るボタンでモデルスロット編集画面に戻ることができます。 + +![image](https://github.com/w-okada/voice-changer/assets/48346627/012c3585-0be2-4846-969a-882dcc07837b) + +## サンプルボタン + +サンプルをダウンロードすることができます。 + +戻るボタンでモデルスロット編集画面に戻ることができます。 + +![image](https://github.com/w-okada/voice-changer/assets/48346627/1c6e2529-af80-479a-8002-c37ebeb0c807) + +## 編集ボタン + +モデルの詳細を編集することができます。 + +編集できる項目はモデルに応じて変わります。 diff --git a/tutorials/tutorial_rvc_ja_latest.md b/tutorials/tutorial_rvc_ja_latest.md index 27f91733..6bdd5289 100644 --- a/tutorials/tutorial_rvc_ja_latest.md +++ b/tutorials/tutorial_rvc_ja_latest.md @@ -1,4 +1,4 @@ -# Realtime Voice Changer Client for RVC チュートリアル(v.1.5.3.7) +# Realtime Voice Changer Client for RVC チュートリアル(v.1.5.3.10) [English](/tutorials/tutorial_rvc_en_latest.md) @@ -212,13 +212,18 @@ PyTorch のモデルを ONNX に変換して出力します。ロードされて - Echo: エコーキャンセル機能 - Sup1, Sup2: ノイズ抑制機能です -#### F0 Det (F0 Estimator) +#### F0 Det (F0 Extractor) -ピッチを抽出するためのアルゴリズムを選びます。次の中から選べます。 +ピッチを抽出するためのアルゴリズムを選びます。次の中から選べます。AMD の GPU は onnx に対してのみ有効です。 -- 軽量な`dio` -- 高精度な`harvest` -- GPU を使用する `crepe` +| F0 Extractor | type | description | +| ------------ | ----- | -------------------------- | +| dio | cpu | 軽量 | +| harvest | cpu | 高精度 | +| crepe | torch | GPU を使用する高速、高精度 | +| crepe full | onnx | GPU を使用する高速、高精度 | +| crepe tiny | onnx | GPU を使用する高速、軽量版 | +| rnvpe | torch | GPU を使用する高速、高精度 | #### S. Thresh (Noise Gate) @@ -253,6 +258,8 @@ onnxdirectML 版では GPU の ON/OFF を切り替えることができます。 マイク入力など音声入力デバイスを選択できます。音声ファイルからのインプットも可能です(サイズ上限あり)。 +ウィンドウズ版では、システムサウンドをインプットとして使用することができます。ただし、システムサウンドをアウトプットとして使用すると、音がループするので注意してください。 + #### output スピーカー出力など音声出力デバイスを選択できます。