Merge pull request #976 from qlife1146/master

韓国語翻訳追加
This commit is contained in:
w-okada 2023-11-02 10:52:19 +09:00 committed by GitHub
commit a3160c12af
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
15 changed files with 529 additions and 18 deletions

View File

@ -48,4 +48,4 @@ AudioOutput の output record を start させた状態で音声変換を開始
#### マイク入力の確認
マイク入力自体に問題がある可能性があります。録音ソフトなどを用いてマイク入力を確認してみてください。
また、[こちらの録音サイト](https://w-okada.github.io/voice-changer/)は VCClient の姉妹品であり、ほぼ同等のマイク入力処理が行われているため参考になります。(インストール不要。ブラウザのみで動きます。)
また、[こちらの録音サイト](https://w-okada.github.io/voice-changer/)は VC Client の姉妹品であり、ほぼ同等のマイク入力処理が行われているため参考になります。(インストール不要。ブラウザのみで動きます。)

View File

@ -0,0 +1,51 @@
## 문제 해결법 통신편
음성이 전혀 변환되지 않는 경우나 변환 후 음성이 이상하게 될 경우에는 음성 변환 과정에서 문제점을 찾아야 합니다.
이 문서에서는 어떤 부분에서 문제가 발생하는지 대략적으로 찾을 수 있는 방법에 대한 설명입니다.
## VC Client의 구성과 문제 구분
<img src="https://user-images.githubusercontent.com/48346627/235551041-6eed4035-5542-47d1-bbd3-31fa7842011b.png" width="720">
VC Client는 이미지 자료처럼 GUI(클라이언트)가 마이크를 통해 음성을 받고, 서버에서 변환하는 구성을 하고 있습니다.
VC Client는 이미지 자료 음성이 세 곳에서 어떤 상태인지 확인할 수 있습니다.
정상 상태로 음성이 녹음됐다면 이 과정까지는 처리가 잘 된 것이고, 이후부터 문제를 찾으면 됩니다(문제 구분이라고 합니다).
## 음성의 상태 확인 방법
### (1)(2)로 음성 상태 확인
<img src="https://github.com/w-okada/voice-changer/assets/48346627/f4845f1d-2e1a-49c1-a226-0e50be807f2d" width="720">
Analyzer의 Sampling을 시작한 상태에서 음성 변환을 시도해 보세요. 어느 정도 음성을 입력 후에 Samplling을 정지하면 in/out에 재생 버튼이 표시됩니다.
- in에는 앞서 설명한 이미지 자료(1)에 음성이 녹음되어 있습니다. 마이크로 입력된 음성이 그대로 서버에 녹음될 테니 사용자의 음성이 녹음됐다면 정상입니다.
- out에는 앞서 설명한 이미지 자료(2)에 음성이 녹음되어 있습니다. AI를 통해 변환된 음성이 녹음되어 있을 겁니다.
### (3)으로 음성 상태 확인
<img src="https://github.com/w-okada/voice-changer/assets/48346627/18ddfc2c-beb2-4e7a-8a06-1e00cc6ddb72" width="720">
Audio Output의 output record를 시작한 상태로 음성 변환을 시도해 보세요. 어느 정도 음성을 입력한 후에 정리하면 .wav 파일이 다운로드됩니다. 이 .wav 파일은 서버에서 전송된 변환 후의 음성이 녹음되어있을 겁니다.
## 음성 상태 확인 후
앞서 설명한 이미지 자료의 (1)~(3) 중에서 예상한 상태의 녹음 음성이 어디까지 진행됐나 파악했다면, 예상한 상태의 음성이 녹음된 곳 이후에도 문제가 없는지 검토하세요.
### (1)에서의 음성 상태가 이상한 경우
#### 음성 파일로 확인
음성 파일로 변환이 되는지 확인하세요.
예를 들어, 다음 파일을 사용해 보세요.
- [sample_jvs001](https://drive.google.com/file/d/142aj-qFJOhoteWKqgRzvNoq02JbZIsaG/view) from [JVS](https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_corpus)
- [sample_jvs001](https://drive.google.com/file/d/1iCErRzCt5-6ftALcic9w5zXWrzVXryIA/view) from [JVS-MuSiC](https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_music)
#### 마이크 입력 확인
마이크 입력 자체에 문제가 있을 가능성이 있습니다. 녹음 프로그램 등을 사용해 마이크 입력을 확인하세요.
또한 [이 녹음 사이트](https://w-okada.github.io/voice-changer/)는 VC Client의 자매품으로 마이크 입력 처리가 거의 동일하게 이루어져 참고할 만합니다. (설치 필요 없음. 브라우저에서만 동작합니다.)

View File

@ -0,0 +1,39 @@
## Device Mode 튜토리얼
Device Mode에 대한 설명입니다.
[설명 영상](https://youtu.be/SUnRGCJ92K8?t=99)
## v.1.5.2.9 이전의 구성(client device mode)
v.1.5.2.9 이전에는 브라우저가 제어하는 마이크와 스피커를 사용해 음성 변환을 진행했습니다.
이것을 client device mode라 부릅니다(빨간 화살표).
![image](https://github.com/w-okada/voice-changer/assets/48346627/56c0766c-45c1-4b3d-af66-73443c232807)
## v.1.5.2.9 이후의 구성(client device mode / server device mode)
v.1.5.2.9부터 PC에 접속된 마이크와 스피커를 직접 VC Client에서 제어해 음성 변환을 진행하는 모드를 추가했습니다. 이것을 server device mode라 부릅니다(파란 화살표)。
![image](https://github.com/w-okada/voice-changer/assets/48346627/34c92e36-0662-4eeb-aac5-30cd1f4a5cd8)
## client device mode / server device mode의 장점과 단점
v.1.5.2.9 이후에는 client device mode와 server device mode 중에서 사용할 것을 선택할 수 있게 됐습니다.
- client device mode
- 장점
1. Chrome이 마이크/스피커의 어려운 처리를 대신해 준다.
2. 잡음 제거 등의 Chrome이 가진 Web 회의 기능을 사용할 수 있다.
- 단점
1. 다소 지연이 발생할 수 있다.
- server device mode
- 장점
1. VC Client가 직접 마이크/스피커를 다뤄서 지연이 적다.
- 단점
1. 다룰 수 없는 마이크/스피커가 있을 수 있다.
2. 잡음 제거 등 Chrome의 편리한 기능을 사용할 수 없다.
![image](https://github.com/w-okada/voice-changer/assets/48346627/fef1ee63-e853-4867-b4c8-bf0121495bb6)
사용자는 각 장점·단점을 고려해 구분하여 사용할 수 있습니다.

View File

@ -10,7 +10,7 @@ v.1.5.3.7 から追加された server device mode における monitor output
## v.1.5.3.7 以降の構成
v.1.5.3.7 では、VCClient の server device mode でもう一つ出力先デバイスを設定できるようになりました(赤線)。これにより、モニター用には Voicemeeter を経由せずに直接 wasapi デバイスや asio デバイスに出力できるようになり、遅延が少ないモニタリングが可能になります。
v.1.5.3.7 では、VC Client の server device mode でもう一つ出力先デバイスを設定できるようになりました(赤線)。これにより、モニター用には Voicemeeter を経由せずに直接 wasapi デバイスや asio デバイスに出力できるようになり、遅延が少ないモニタリングが可能になります。
![image](https://github.com/w-okada/voice-changer/assets/48346627/1d5065eb-b042-4521-ade3-66828c87a712)

View File

@ -0,0 +1,48 @@
## 모니터링 튜토리얼
v.1.5.3.7부터 추가된 server device mode의 monitor output에 대한 설명입니다.
## v.1.5.3.6 이전의 구성
출력 대상 장치를 하나만 설정할 수 있었습니다. Discord나 Zoom 등 다른 애플리케이션에서 사용하기 위해서는 일반적으로 출력을 Voicemeeter와 같은 가상 오디오 장치 설정을 해야 할 필요가 있었습니다. 그로 인해 변환 후 음성을 확인하려면 가상 오디오 장치를 통해 확인해야 하는 등의 많은 수고가 필요했습니다(파란 화살표).
![image](https://github.com/w-okada/voice-changer/assets/48346627/faba8fdf-cfa5-468f-a56b-3fa986fb45a1)
## v.1.5.3.7 이후의 구성
v.1.5.3.7에서는 VC Client의 server device mode에서 출력 대상 장치를 하나 더 설정할 수 있게 됐습니다(빨간 화살표). 이를 통해 모니터링용으로 Voicemeeter를 거치지 않고 직접 wasapi 장치나 asio 장치로 출력할 수 있게 되어 지연이 적은 모니터링이 가능해졌습니다.
![image](https://github.com/w-okada/voice-changer/assets/48346627/1d5065eb-b042-4521-ade3-66828c87a712)
## 사용 방법
장치 설정 구역에서 server device mode를 선택하세요. 샘플링 레이트(S.R.), input, output, monitor를 설정할 수 있게 됩니다.
![image](https://github.com/w-okada/voice-changer/assets/48346627/c15e6800-75ec-410b-87f2-c96d0c697c91)
## 주의 사항
server device mode에서 사용하는 input, output, monitor 각 장치의 샘플링 레이트는 일치해야 합니다. 일치하지 않을 경우에는 콘솔에 자세한 정보가 표시되므로 GUI에서 각 장치가 지원하는 샘플링 레이트를 지정하세요.
### 예시
![image](https://github.com/w-okada/voice-changer/assets/48346627/d621d356-5710-4766-932e-43b7d520df5f)
샘플링 레이트가 일치하지 않으면 위와 같이 표시됩니다.
(1)는 현재 GUI에서 장치에 지정된 샘플링 레이트 지원 여부를 표시합니다. False인 장치는 지원하지 않습니다.
(2)에서 각 장치에서 지원하는 샘플링 레이트를 표시합니다. input, output, monitor 전부 지원하는 샘플링 레이트를 지정하세요. 예시에서는 48000으로 지정했습니다.
## 팁
### 첫 번째
사용 환경에 따라 크게 달라지겠지만, 개발자 환경에서는 input, monitor를 wasapi 장치로 output을 임의로 설정해 상당히 낮은 지연으로 사용할 수 있었습니다.
(RTX 4090 사용)
### 두 번째
Wasapi의 샘플링 레이트는 장치에서 설정한 것만 선택할 수 있습니다. 이 설정은 Windows 사운드 설정에서 변경할 수 있습니다.(Win11)
![image](https://github.com/w-okada/voice-changer/assets/48346627/300c8cf0-cb7d-4f24-8253-fa313caee5df)

View File

@ -233,7 +233,7 @@ If you have 2 or more GPUs, you can choose your GPU here.
Choose between client device mode and server device mode. You can only change it when the voice conversion is stopped.
For more details on each mode, please see [here](./tutorial_device_mode.md).
For more details on each mode, please see [here](./tutorial_device_mode_ja.md).
### Audio Input

View File

@ -226,7 +226,7 @@ If you have 2 or more GPUs, you can choose your GPU here.
Choose between client device mode and server device mode. You can only change it when the voice conversion is stopped.
For more details on each mode, please see [here](./tutorial_device_mode.md).
For more details on each mode, please see [here](./tutorial_device_mode_ja.md).
### Audio Input

View File

@ -238,10 +238,10 @@ In the onnxdirectML version, you can switch the GPU ON/OFF.
#### AUDIO
Choose the type of audio device you want to use. For more information, please refer to the [document](./tutorial_device_mode.md).
Choose the type of audio device you want to use. For more information, please refer to the [document](./tutorial_device_mode_ja.md).
- Client: You can make use of the microphone input and speaker output with the GUI functions such as noise cancellation.
- Server: VCClient can directly control the microphone and speaker to minimize latency.
- Server: VC Client can directly control the microphone and speaker to minimize latency.
#### input

View File

@ -1,6 +1,6 @@
# Realtime Voice Changer Client for RVC Tutorial (v.1.5.3.13)
[Japanese/日本語](/tutorials/tutorial_rvc_ja_latest.md)
[Japanese/日本語](/tutorials/tutorial_rvc_ja_latest.md) [Korean/한국어](/tutorials/tutorial_rvc_ko_latest.md)
# Introduction
@ -125,7 +125,7 @@ Icons are links.
| <img src="https://github.com/w-okada/rvc-trainer-docker/assets/48346627/7bc188db-3aae-43eb-98a1-34aacc16173d" width="32"> spanner | tools |
| <img src="https://github.com/w-okada/rvc-trainer-docker/assets/48346627/5db16acc-e901-40d2-8fc2-1fb9fd67f59c" width="32"> coffee | donation |
### claer setting
### clear setting
Initialize configuration.
@ -267,10 +267,10 @@ Even if a GPU is not detected, gpu0 - gpu3 will still be displayed. If you speci
#### AUDIO
Choose the type of audio device you want to use. For more information, please refer to the [document](./tutorial_device_mode.md).
Choose the type of audio device you want to use. For more information, please refer to the [document](./tutorial_device_mode_ja.md).
- Client: You can make use of the microphone input and speaker output with the GUI functions such as noise cancellation.
- Server: VCClient can directly control the microphone and speaker to minimize latency.
- Server: VC Client can directly control the microphone and speaker to minimize latency.
#### input

View File

@ -251,7 +251,7 @@ GPU を 2 枚以上持っている場合、ここで GPU を選べます。
client device mode と server device mode のどちらを使用するか選択します。音声変換が停止している時のみ変更できます。
それぞれのモードの詳細は[こちら](./tutorial_device_mode.md)をご覧ください。
それぞれのモードの詳細は[こちら](./tutorial_device_mode_ja.md)をご覧ください。
### AudioInput

View File

@ -244,7 +244,7 @@ GPU を 2 枚以上持っている場合、ここで GPU を選べます。
client device mode と server device mode のどちらを使用するか選択します。音声変換が停止している時のみ変更できます。
それぞれのモードの詳細は[こちら](./tutorial_device_mode.md)をご覧ください。
それぞれのモードの詳細は[こちら](./tutorial_device_mode_ja.md)をご覧ください。
### AudioInput

View File

@ -244,10 +244,10 @@ onnxdirectML 版では GPU の ON/OFF を切り替えることができます。
#### AUDIO
使用するオーディオデバイスのタイプを選びます。詳細は[こちらの文書](./tutorial_device_mode.md)をご確認ください。
使用するオーディオデバイスのタイプを選びます。詳細は[こちらの文書](./tutorial_device_mode_ja.md)をご確認ください。
- client: ノイズ抑制機能など GUI(chrome)の機能を活用してマイク入力、スピーカー出力を行うことができます。
- server: VCClient が直接マイクとスピーカーを操作します。遅延を抑えることができます。
- server: VC Client が直接マイクとスピーカーを操作します。遅延を抑えることができます。
#### input

View File

@ -1,6 +1,6 @@
# Realtime Voice Changer Client for RVC チュートリアル(v.1.5.3.13)
[English](/tutorials/tutorial_rvc_en_latest.md)
[English](/tutorials/tutorial_rvc_en_latest.md) [Korean/한국어](/tutorials/tutorial_rvc_ko_latest.md)
# はじめに
@ -126,7 +126,7 @@ A7. フォルダのパスに unicode が含まれるとエラーが出るよう
| <img src="https://github.com/w-okada/rvc-trainer-docker/assets/48346627/7bc188db-3aae-43eb-98a1-34aacc16173d" width="32"> スパナ | 各種便利ツールへのリンク |
| <img src="https://github.com/w-okada/rvc-trainer-docker/assets/48346627/5db16acc-e901-40d2-8fc2-1fb9fd67f59c" width="32"> コーヒー | 開発者へ**寄付**するためのリンク |
### claer setting
### clear setting
設定を初期化します。
@ -271,10 +271,10 @@ gpu0 - gpu3 は GPU が検出されなくても表示されます。存在しな
#### AUDIO
使用するオーディオデバイスのタイプを選びます。詳細は[こちらの文書](./tutorial_device_mode.md)をご確認ください。
使用するオーディオデバイスのタイプを選びます。詳細は[こちらの文書](./tutorial_device_mode_ja.md)をご確認ください。
- client: ノイズ抑制機能など GUI(chrome)の機能を活用してマイク入力、スピーカー出力を行うことができます。
- server: VCClient が直接マイクとスピーカーを操作します。遅延を抑えることができます。
- server: VC Client が直接マイクとスピーカーを操作します。遅延を抑えることができます。
#### input

View File

@ -0,0 +1,373 @@
# Realtime Voice Changer Client for RVC 튜토리얼(v.1.5.3.13)
[Japanese/日本語](/tutorials/tutorial_rvc_ja_latest.md) [English](/tutorials/tutorial_rvc_en_latest.md)
# 소개
이 애플리케이션은 여러 음성 변환 AI(VC, Voice Conversion)를 활용해 실시간 음성 변환을 위한 클라이언트 소프트웨어입니다. RVC, MMVCv13, MMVCv15, So-vits-svcv40 등의 모델을 지원하지만, 해당 문서에서는 [RVC(Retrieval-based-Voice-Conversion)](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI)를 중심으로 음성 변환 튜토리얼에 대해 진행합니다. 기본적인 방법은 크게 다르지 않습니다.
아래에는 원본 [Retrieval-based-Voice-Conversion-WebUI](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI)를 원본 RVC로 표기하고, ddPn08 님이 작성한 [RVC-WebUI](https://github.com/ddPn08/rvc-webui)를 ddPn08RV로 표기합니다.
## 주의 사항
- 모델 학습은 별도로 진행해야 합니다.
- 개인적으로 학습을 진행할 경우에는 [원본 RVC](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI) 또는 [ddPn08RVC](https://github.com/ddPn08/rvc-webui)로 진행하세요.
- 브라우저에서 학습용 음성을 사용할 때는 [녹음 앱 on Github Pages](https://w-okada.github.io/voice-changer/)를 사용하는 것이 편리합니다.
- [해설 영상](https://youtu.be/s_GirFEGvaA)
- [학습 팁](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/blob/main/docs/jp/training_tips_ja.md)가 공개되어 있으니 참조해 주세요.
# 시작하기까지
## GUI 실행
### Windows 버전
다운로드 받은 zip 파일을 풀고 `start_http.bat`을 실행하세요.
이미 구버전을 갖고 있다면 반드시 서로 다른 폴더에 압축을 푸세요.
### Mac 버전
다음과 같이 실행하세요.
1. 다운로드한 파일의 압축을 풉니다.
1. 다음으로 control 키를 누른 상태로 MMVCServerSIO를 클릭해 실행하세요(or 오른쪽 클릭으로 실행하세요). 확인되지 않은 개발자 메시지가 나타나면 다시 control 키를 누르고 클릭해 실행하세요(or 오른쪽 클릭으로 실행하세요). 터미널이 열리고 몇 초가 지나면 처리가 완료됩니다.
1. 다음으로 control 키를 누른 상태로 startHTTP.command를 클릭해 실행하세요(or 오른쪽 클릭으로 실행하세요). 확인되지 않은 개발자 메시지가 나타나면 다시 control 키를 누르고 클릭해 실행하세요(or 오른쪽 클릭으로 실행하세요). 터미널이 열리고 몇 초가 지나면 처리가 완료됩니다.
※ 다시 말해, MMVCServerSIO와 startHTTP.command 둘 다 실행하는 것이 포인트입니다. 그리고 MMVCServerSIO 를 먼저 실행해야 합니다.
이미 구버전을 갖고 있다면 반드시 서로 다른 폴더에 압축을 푸세요.
### 원격 연결 시 주의 사항
원격으로 접속할 때는 http 대신 https `.bat` 파일(win)、`.command` 파일(mac)을 실행하세요.
브라우저(Chrome만 지원)에서 접속하면 화면이 나옵니다.
### 컨트롤 표시
`.bat` 파일(win) 혹은 `.command` 파일(mac)을 실행하면 다음과 같은 화면이 나오며 처음 실행할 때는 인터넷으로 여러 데이터를 다운로드합니다.
사용 환경에 따라 다르지만, 보통 1~2분 정도 소요됩니다.
![image](https://github.com/w-okada/voice-changer/assets/48346627/88a30097-2fb3-4c50-8bf1-19c41f27c481)
### GUI 설명
실행에 필요한 데이터 다운로드가 완료되면 다음과 같은 메시지 창이 나옵니다. 괜찮으시다면 노란 아이콘을 클릭해 개발자에게 따뜻한 커피 한잔 부탁드립니다. 시작 버튼을 누르면 메시지 창이 사라집니다.
![image](https://github.com/w-okada/voice-changer/assets/48346627/a8d12b5c-d1e8-4ca6-aed0-72cee6bb97c1)
# GUI
다음과 같은 화면이 나오면 성공입니다.
![image](https://github.com/w-okada/voice-changer/assets/48346627/27add00d-5059-4cbf-a732-9deb6dc309ff)
# 빠른 시작
## 조작 방법
실행할 때 다운로드한 데이터를 사용해 즉시 음성 변환을 할 수 있습니다.
(1) 모델 선택 구역에서 사용하고 싶은 모델을 클릭하세요. 모델이 사용 준비가 되면 모델에 설정된 캐릭터 이미지가 표시됩니다.
(2) 사용할 마이크(input)와 스피커(output)를 선택하세요. 설정이 어려우시다면 클라이언트를 선택하고 마이크와 스피커를 선택하는 것을 추천합니다. (서버와의 차이는 아래에서 설명합니다.)
(3) 시작 버튼을 누르면 몇 초간의 데이터 준비 후에 음성 변환이 시작됩니다. 마이크에 말을 해보세요. 스피커에서 변환된 음성이 들릴 겁니다.
![image](https://github.com/w-okada/voice-changer/assets/48346627/883b296e-e5ca-4571-8fed-dcf7495ebb92)
## 빠른 시작에 관한 FAQ
Q1. 소리가 띄엄띄엄 들립니다.
A1. PC 성능이 충분하지 않을 가능성이 있습니다. CHUNK 값을 높여보세요(아래 사진(A)). (1024 등). 또한 F0 Det를 dio로 바꿔보세요(아래 사진(B)).
![image](https://github.com/w-okada/voice-changer/assets/48346627/3c485d9b-53be-47c1-85d9-8663363b06f9)
Q2. 음성이 바뀌지 않습니다.
A2. [이곳](https://github.com/w-okada/voice-changer/blob/master/tutorials/trouble_shoot_communication_ko.md)을 참조해 문제가 있는 곳을 파악하고 해결해 보세요.
Q3. 음정이 이상합니다.
A3. 빠른 시작에서는 설명하지 않았는데 Pitch 조정이 가능한 모델은 TUNE에서 변경할 수 있습니다. 아래에 작성된 상세 설명을 확인하세요.
Q4. 윈도우 창이 나오지 않습니다. 또는 창은 나오지만 내용이 나오지 않습니다. 콘솔에 `electron: Failed to load URL: http://localhost:18888/ with error: ERR_CONNECTION_REFUSED` 같은 오류가 나옵니다.
A4. 바이러스 검사가 진행 중일 가능성이 있습니다. 잠시 기다리거나 본인 책임하에 폴더를 제외 지정하세요.
Q5. `[4716:0429/213736.103:ERROR:gpu_init.cc(523)] Passthrough is not supported, GL is disabled, ANGLE is`라는 메시지 창이 나옵니다.
A5. 사용 중인 라이브러리가 내보내는 오류입니다. 큰 문제가 있는 것은 아니니 무시하고 사용하셔도 됩니다.
Q6. (AMD 사용자) GPU를 사용하지 않는 것 같습니다.
A6. DirectML 버전을 사용하세요. 또한, AMD GPU는 ONNX 모델에서만 사용할 수 있습니다. 성능 모니터에서 GPU 사용률이 높아지는 것을 통해 확인할 수 있습니다. ([see here](https://github.com/w-okada/voice-changer/issues/383))
Q7. onxxruntime 가 오류를 출력하고 실행되지 않습니다.
A7. 폴더 경로에 한글(유니코드)이 포함되면 오류가 나오는 것 같습니다. 유니코드가 없는 경로(영문, 숫자만)에 압축을 해제하세요. (참고: https://github.com/w-okada/voice-changer/issues/528)
# GUI 상세 설명
## 타이틀
![image](https://github.com/w-okada/voice-changer/assets/48346627/bb813fbb-4ea1-4c3b-87b0-da75b7eaac5e)
타이틀 아래의 아이콘은 링크입니다.
| 아이콘 | 링크 |
| :------------------------------------------------------------------------------------------------------------------------------------ | :-------------------------- |
| <img src="https://github.com/w-okada/rvc-trainer-docker/assets/48346627/97c18ca5-eee5-4be2-92a7-8092fff960f2" width="32"> Octocat | github 저장소 링크 |
| <img src="https://github.com/w-okada/rvc-trainer-docker/assets/48346627/751164e4-7b7d-4d7e-b49c-1ad660bf7439" width="32"> 물음표 표시 | 매뉴얼 링크 |
| <img src="https://github.com/w-okada/rvc-trainer-docker/assets/48346627/7bc188db-3aae-43eb-98a1-34aacc16173d" width="32"> 스패너 | 여러 편리한 도구 링크 |
| <img src="https://github.com/w-okada/rvc-trainer-docker/assets/48346627/5db16acc-e901-40d2-8fc2-1fb9fd67f59c" width="32"> 커피 | 개발자를 위한 **기부** 링크 |
### 설정 초기화
설정을 초기화합니다.
## 모델 선택 구역
![image](https://github.com/w-okada/voice-changer/assets/48346627/503eb581-a560-42b2-985b-d229d186eac8)
사용할 모델을 선택할 수 있습니다.
편집 버튼을 누르면 모델 리스트(모델 슬롯)를 편집할 수 있습니다. 자세한 설명은 모델 슬롯 편집 화면을 확인하세요.
## 메인 컨트롤 구역
![image](https://github.com/w-okada/voice-changer/assets/48346627/4401acdb-eb58-40e1-9609-5a82ee5eb570)
준비된 모델 캐릭터 사진이 좌측에 표시됩니다. 캐릭터 사진의 좌측 상단에 실시간 변환 상황이 오버레이로 표시됩니다.
우측의 버튼과 슬라이더로 여러 값을 조정할 수 있습니다.
### 실시간 변환 상황
수음부터 변환까지의 지연 시간은 `buf + res초`입니다. 조정할 때는 buf가 res보다 크도록 조정하세요
또한, 기기를 server device 모드로 사용할 때는 buf가 표시되지 않습니다. CHUNK에 표시된 값을 참조해 조정해 주세요.
#### vol
음성 변환 후의 음량입니다.
#### buf
음성을 잘라내는 한 구간의 길이(ms)입니다. CHUNK를 줄이면 이 값이 줄어듭니다.
#### res
CHUNK와 EXTRA를 합한 데이터를 변환하는 데 걸리는 시간입니다. CHUNK와 EXTRA 중 어느 쪽이든 줄이면 값이 줄어듭니다.
### 컨트롤
#### 시작/정지 버튼
시작 버튼으로 음성 변환을 시작, 정지 버튼으로 음성 변환을 정지합니다.
#### pass through 버튼
음성을 변환하지 않고 원래 상태 그대로 출력합니다. 기본적으로 적용할 때 확인 메시지 창이 나오지만, 고급 설정에서 확인 메시지 창을 무시하도록 설정할 수 있습니다.
#### GAIN
- in: 모델에 입력되는 음성의 음량을 조절할 수 있습니다.
- out: 변환 후의 음성의 음량을 조절할 수 있습니다.
#### TUNE
목소리의 Pitch를 얼마나 변환할지에 대한 값입니다. 추론 중에 변환할 수도 있습니다. 다음은 설정 기준입니다.
- 남자 목소리 → 여자 목소리로 변환할 경우 +12
- 여자 목소리 → 남자 목소리로 변환할 경우 -12
#### INDEX (RVC만 해당)
학습에서 사용한 특징에 대한 비율을 지정합니다. index 파일이 등록된 모델에서만 적용됩니다.
0이면 HuBERT의 출력을 그대로 사용하고, 1이면 모든 특징량을 사용합니다.
index ratio가 0보다 크면 검색 시간이 오래 걸릴 수 있습니다.
#### Voice
음성 변환 대상을 설정합니다
#### 설정 저장 버튼
설정한 내용을 저장합니다. 모델을 다시 불러올 때 설정 내용이 반영됩니다. (일부 제외)
#### ONNX 출력 (RVC만 해당)
PyTorch의 모델을 ONNX로 변환해 출력합니다. 준비된 모델이 RVC PyTorch 모델일 때만 적용됩니다.
#### 그 외
사용하는 음성 변환 AI 모델에 따라 설정 가능한 내용이 달라집니다. 모델 개발 사이트에서 기능 등을 확인하세요.
## 상세 설정 구역
![image](https://github.com/w-okada/voice-changer/assets/48346627/cd04ba9f-f7e8-4a7e-8c93-cda3c81f3c1a)
동작 설정이나 변환 처리 내용을 확인할 수 있습니다.
#### NOISE
잡음 제거 기능의 ON/OFF를 할 수 있습니다. Client Device 모드에서만 적용됩니다.
- Echo: 에코 캔슬 기능
- Sup1, Sup2: 잡음 억제 기능
#### F0 Det (F0 Extractor)
Pitch 추출을 위한 알고리즘을 선택할 수 있습니다. 다음 중에서 선택할 수 있습니다. AMD GPU는 ONNX일 때만 적용됩니다.
| F0 Extractor | type | description |
| ------------ | ----- | ------------------------------- |
| dio | cpu | 경량 버전 |
| harvest | cpu | 높은 정확도 |
| crepe | torch | GPU를 사용함. 고속, 높은 정확도 |
| crepe full | onnx | GPU를 사용함. 고속, 높은 정확도 |
| crepe tiny | onnx | GPU를 사용함. 고속, 경량 버전 |
| rnvpe | torch | GPU를 사용함. 고속, 높은 정확도 |
#### S. Thresh (Noise Gate)
음성 변환 음량의 임계치입니다. 이 값보다 작은 rms일 때는 음성 변환을 하지 않고 무음이 됩니다.
(이 경우에는 변환 과정을 건너뛰기 때문에 부하가 많이 걸리지 않습니다.)
#### CHUNK (Input Chunk Num)
한 번에 얼마만큼의 길이를 잘라서 변환할 건지 정할 수 있습니다. 이 값이 클수록 효율적으로 변환하지만, buf 값이 커질수록 변환이 시작되기까지의 최대 시간이 길어집니다. buff:에 대략적인 시간이 표시됩니다.
#### EXTRA (Extra Data Length)
음성을 변환할 때, 과거의 음성을 얼마나 길게 입력할지 정할 수 있습니다. 과거의 음성이 길게 입력될수록 변환 정확도는 높아지지만 그만큼 계산 시간이 길어져서 res가 길어집니다.
(아마도 Transformer가 문제라서 계산 시간이 길이의 제곱만큼 늘어날 것입니다)
자세한 내용은 [이 자료](https://github.com/w-okada/voice-changer/issues/154#issuecomment-1502534841)를 확인하세요.
#### GPU
onnxgpu 버전에서는 사용할 GPU를 선택할 수 있습니다.
onnxdirectML 버전에서는 GPU ON/OFF를 할 수 있습니다.
DirectML 버전일 때는 아래와 같은 버튼들이 나옵니다.
![image](https://github.com/w-okada/voice-changer/assets/48346627/5a66f237-e5b5-4819-9409-ff5eebb6e514)
- cpu: cpu를 사용합니다.
- gpu0: gpu0를 사용합니다.
- gpu1: gpu1를 사용합니다.
- gpu2: gpu2를 사용합니다.
- gpu3: gpu3를 사용합니다.
gpu0 - gpu3은 GPU가 검출되지 않아도 표시됩니다. 존재하지 않는 GPU를 지정하면 CPU가 사용됩니다. [상세](https://github.com/w-okada/voice-changer/issues/410)
#### AUDIO
사용할 오디오 장치를 선택할 수 있습니다. 자세한 내용은 [이 문서](./tutorial_device_mode_ko.md)를 확인하세요.
- client: 소음 억제 기능 등 GUI(chrome)의 기능을 활용해 마이크 입력, 스피커 출력을 할 수 있습니다.
- server: VC Client가 직접 마이크와 스피커를 조작합니다. 지연을 줄일 수 있습니다.
#### input
마이크 입력 등의 음성 입력 장치를 선택할 수 있습니다. 음성 파일에서의 입력도 가능합니다(파일 크기 제한 있음).
Windows 버전에서는 시스템 사운드를 입력으로 사용할 수 있습니다. 단, 시스템 사운드를 출력으로 사용하면 소리가 반복(하울링)되므로 주의하세요.
#### output
스피커 출력 등의 음성 출력 장치를 선택할 수 있습니다.
#### monitor
모니터링 스피커 출력 등의 음성 출력 장치를 선택할 수 있습니다. server device 모드일 때만 적용됩니다.
자세한 내용은 [이 문서](./tutorial_monitor_consept_ko.md)를 확인하세요.
#### REC.
변환 후의 음성을 파일로 저장할 수 있습니다.
### ServerIO Analizer
음성 변환 AI에 입력된 음성과 음성 변환 AI에서 출력된 음성을 녹음하고 확인할 수 있습니다.
대략적인 개념은 [이 문서](trouble_shoot_communication_ko.md)를 확인하세요.
#### SIO rec.
음성 변환 AI에 입력된 음성과 음성 변환 AI에서 출력된 음성 녹음을 시작/정지할 수 있습니다.
#### output
녹음된 음성을 재생할 스피커를 설정할 수 있습니다.
#### in
음성 변환 AI에 입력된 음성을 재생할 수 있습니다.
#### out
음성 변환 AI에서 출력된 음성을 재생할 수 있습니다.
### more...
더 높은 수준의 조작을 할 수 있습니다.
#### Merge Lab
모델 합성을 할 수 있습니다.
#### Advanced Setting
더 높은 수준의 설정을 할 수 있습니다.
#### Server Info
현재 서버의 설정을 확인할 수 있습니다.
# 모델 슬롯 편집 화면
모델 슬롯 선택 구역에서 편집 버튼을 누르면 모델 슬롯을 편집할 수 있습니다
![image](https://github.com/w-okada/voice-changer/assets/48346627/a4735a2e-540e-4e7c-aa70-ba5b91ff09eb)
## 아이콘 구역
아이콘을 클릭해 사진을 변경할 수 있습니다.
## 파일 구역
파일명을 클릭해 다운로드 할 수 있습니다.
## 업로드 버튼
모델을 업로드할 수 있습니다.
업로드 화면에서는 업르도할 보이스 체인저 유형을 선택할 수 있습니다.
돌아가기 버튼으로 모델 슬롯 편집 화면으로 돌아갈 수 있습니다.
![image](https://github.com/w-okada/voice-changer/assets/48346627/012c3585-0be2-4846-969a-882dcc07837b)
## 샘플 버튼
샘플을 다운로드할 수 있습니다.
돌아가기 버튼을 눌러 모델 슬롯 편집 화면으로 돌아갈 수 있습니다.
![image](https://github.com/w-okada/voice-changer/assets/48346627/1c6e2529-af80-479a-8002-c37ebeb0c807)
## 편집 버튼
모델의 상세 정보를 편집할 수 있습니다.
편집할 수 있는 항목은 모델에 따라 다릅니다.