voice-changer/server/voice_changer/VoiceChanger.py

from const import TMP_DIR, getModelType
import torch
import os
import traceback
import numpy as np
from dataclasses import dataclass, asdict
import resampy


from voice_changer.IORecorder import IORecorder
from voice_changer.IOAnalyzer import IOAnalyzer


import time
import librosa
providers = ['OpenVINOExecutionProvider', "CUDAExecutionProvider", "DmlExecutionProvider", "CPUExecutionProvider"]

STREAM_INPUT_FILE = os.path.join(TMP_DIR, "in.wav")
STREAM_OUTPUT_FILE = os.path.join(TMP_DIR, "out.wav")
STREAM_ANALYZE_FILE_DIO = os.path.join(TMP_DIR, "analyze-dio.png")
STREAM_ANALYZE_FILE_HARVEST = os.path.join(TMP_DIR, "analyze-harvest.png")


@dataclass
class VocieChangerSettings():
    inputSampleRate: int = 24000  # 48000 or 24000

    crossFadeOffsetRate: float = 0.1
    crossFadeEndRate: float = 0.9
    crossFadeOverlapSize: int = 4096

    recordIO: int = 0  # 0:off, 1:on

    # ↓mutableな物だけ列挙
    intData = ["inputSampleRate", "crossFadeOverlapSize", "recordIO"]
    floatData = ["crossFadeOffsetRate", "crossFadeEndRate"]
    strData = []


class VoiceChanger():

    def __init__(self):
        # 初期化
        self.settings = VocieChangerSettings()
        self.unpackedData_length = 0
        self.onnx_session = None
        self.currentCrossFadeOffsetRate = 0
        self.currentCrossFadeEndRate = 0
        self.currentCrossFadeOverlapSize = 0

        modelType = getModelType()
        print("[VoiceChanger] activate model type:", modelType)
        if modelType == "MMVCv15":
            from voice_changer.MMVCv15.MMVCv15 import MMVCv15
            self.voiceChanger = MMVCv15()
        elif modelType == "MMVCv13":
            from voice_changer.MMVCv13.MMVCv13 import MMVCv13
            self.voiceChanger = MMVCv13()
        elif modelType == "so-vits-svc-40v2":
            from voice_changer.SoVitsSvc40v2.SoVitsSvc40v2 import SoVitsSvc40v2
            self.voiceChanger = SoVitsSvc40v2()

        else:
            from voice_changer.MMVCv13.MMVCv13 import MMVCv13
            self.voiceChanger = MMVCv13()

        self.gpu_num = torch.cuda.device_count()
        self.prev_audio = np.zeros(4096)
        self.mps_enabled = getattr(torch.backends, "mps", None) is not None and torch.backends.mps.is_available()

        print(f"VoiceChanger Initialized (GPU_NUM:{self.gpu_num}, mps_enabled:{self.mps_enabled})")

    def loadModel(self, config: str, pyTorch_model_file: str = None, onnx_model_file: str = None):
        return self.voiceChanger.loadModel(config, pyTorch_model_file, onnx_model_file)

    def get_info(self):
        data = asdict(self.settings)
        data.update(self.voiceChanger.get_info())
        return data

    def update_setteings(self, key: str, val: any):
        if key in self.settings.intData:
            setattr(self.settings, key, int(val))
            if key == "crossFadeOffsetRate" or key == "crossFadeEndRate":
                self.unpackedData_length = 0
            if key == "recordIO" and val == 1:
                if hasattr(self, "ioRecorder"):
                    self.ioRecorder.close()
                self.ioRecorder = IORecorder(STREAM_INPUT_FILE, STREAM_OUTPUT_FILE, self.settings.inputSampleRate)
            if key == "recordIO" and val == 0:
                if hasattr(self, "ioRecorder"):
                    self.ioRecorder.close()
                pass
            if key == "recordIO" and val == 2:
                if hasattr(self, "ioRecorder"):
                    self.ioRecorder.close()

                if hasattr(self, "ioAnalyzer") == False:
                    self.ioAnalyzer = IOAnalyzer()

                try:
                    self.ioAnalyzer.analyze(STREAM_INPUT_FILE, STREAM_ANALYZE_FILE_DIO, STREAM_ANALYZE_FILE_HARVEST, self.settings.inputSampleRate)

                except Exception as e:
                    print("recordIO exception", e)
        elif key in self.settings.floatData:
            setattr(self.settings, key, float(val))
        elif key in self.settings.strData:
            setattr(self.settings, key, str(val))
        else:
            ret = self.voiceChanger.update_setteings(key, val)
            if ret == False:
                print(f"{key} is not mutalbe variable or unknown variable!")

        return self.get_info()

    def _generate_strength(self, dataLength: int):

        if self.unpackedData_length != dataLength or \
                self.currentCrossFadeOffsetRate != self.settings.crossFadeOffsetRate or \
                self.currentCrossFadeEndRate != self.settings.crossFadeEndRate or \
                self.currentCrossFadeOverlapSize != self.settings.crossFadeOverlapSize:

            self.unpackedData_length = dataLength
            self.currentCrossFadeOffsetRate = self.settings.crossFadeOffsetRate
            self.currentCrossFadeEndRate = self.settings.crossFadeEndRate
            self.currentCrossFadeOverlapSize = self.settings.crossFadeOverlapSize

            overlapSize = min(self.settings.crossFadeOverlapSize, self.unpackedData_length)
            cf_offset = int(overlapSize * self.settings.crossFadeOffsetRate)
            cf_end = int(overlapSize * self.settings.crossFadeEndRate)
            cf_range = cf_end - cf_offset
            percent = np.arange(cf_range) / cf_range

            np_prev_strength = np.cos(percent * 0.5 * np.pi) ** 2
            np_cur_strength = np.cos((1 - percent) * 0.5 * np.pi) ** 2

            self.np_prev_strength = np.concatenate([np.ones(cf_offset), np_prev_strength, np.zeros(overlapSize - cf_offset - len(np_prev_strength))])
            self.np_cur_strength = np.concatenate([np.zeros(cf_offset), np_cur_strength, np.ones(overlapSize - cf_offset - len(np_cur_strength))])

            print("Generated Strengths")

            # ひとつ前の結果とサイズが変わるため、記録は消去する。
            if hasattr(self, 'np_prev_audio1') == True:
                delattr(self, "np_prev_audio1")

    #  receivedData: tuple of short
    def on_request(self, receivedData: any):
        processing_sampling_rate = self.voiceChanger.get_processing_sampling_rate()
        print_convert_processing(f"------------ Convert processing.... ------------")
        # 前処理
        with Timer("pre-process") as t:

            if self.settings.inputSampleRate != processing_sampling_rate:
                newData = resampy.resample(receivedData, self.settings.inputSampleRate, processing_sampling_rate)
            else:
                newData = receivedData

            inputSize = newData.shape[0]
            convertSize = inputSize + min(self.settings.crossFadeOverlapSize, inputSize)
            print_convert_processing(
                f" Input data size of {receivedData.shape[0]}/{self.settings.inputSampleRate}hz {inputSize}/{processing_sampling_rate}hz")

            if convertSize < 8192:
                convertSize = 8192
            # if convertSize % 128 != 0:  # モデルの出力のホップサイズで切り捨てが発生するので補う。
            #     convertSize = convertSize + (128 - (convertSize % 128))
            if convertSize % 512 != 0:  # モデルの出力のホップサイズで切り捨てが発生するので補う。
                convertSize = convertSize + (512 - (convertSize % 512))

            overlapSize = min(self.settings.crossFadeOverlapSize, inputSize)
            cropRange = (-1 * (inputSize + overlapSize), -1 * overlapSize)

            print_convert_processing(f" Convert input data size of {convertSize}")
            print_convert_processing(f"         overlap:{overlapSize}, cropRange:{cropRange}")

            self._generate_strength(inputSize)
            data = self.voiceChanger.generate_input(newData, convertSize, cropRange)
        preprocess_time = t.secs

        # 変換処理
        with Timer("main-process") as t:
            try:
                # Inference
                audio = self.voiceChanger.inference(data)

                if hasattr(self, 'np_prev_audio1') == True:
                    np.set_printoptions(threshold=10000)
                    prev_overlap = self.np_prev_audio1[-1 * overlapSize:]
                    cur_overlap_start = -1 * (inputSize + overlapSize)
                    cur_overlap_end = -1 * inputSize
                    cur_overlap = audio[cur_overlap_start:cur_overlap_end]
                    # cur_overlap = audio[-1 * (inputSize + overlapSize):-1 * inputSize]
                    powered_prev = prev_overlap * self.np_prev_strength
                    print_convert_processing(
                        f" audio:{audio.shape}, cur_overlap:{cur_overlap.shape}, self.np_cur_strength:{self.np_cur_strength.shape}")
                    print_convert_processing(f" cur_overlap_strt:{cur_overlap_start}, cur_overlap_end{cur_overlap_end}")
                    powered_cur = cur_overlap * self.np_cur_strength
                    powered_result = powered_prev + powered_cur

                    cur = audio[-1 * inputSize:-1 * overlapSize]
                    result = np.concatenate([powered_result, cur], axis=0)
                    print_convert_processing(
                        f" overlap:{overlapSize}, current:{cur.shape[0]}, result:{result.shape[0]}... result should be same as input")
                    if cur.shape[0] != result.shape[0]:
                        print_convert_processing(f" current and result should be same as input")

                else:
                    result = np.zeros(4096).astype(np.int16)
                self.np_prev_audio1 = audio

            except Exception as e:
                print("VC PROCESSING!!!! EXCEPTION!!!", e)
                print(traceback.format_exc())
                if hasattr(self, "np_prev_audio1"):
                    del self.np_prev_audio1
                return np.zeros(1).astype(np.int16), [0, 0, 0]
        mainprocess_time = t.secs

        # 後処理
        with Timer("post-process") as t:
            result = result.astype(np.int16)
            if self.settings.inputSampleRate != processing_sampling_rate:
                outputData = resampy.resample(result, processing_sampling_rate, self.settings.inputSampleRate).astype(np.int16)
            else:
                outputData = result

            print_convert_processing(
                f" Output data size of {result.shape[0]}/{processing_sampling_rate}hz {outputData.shape[0]}/{self.settings.inputSampleRate}hz")

            if self.settings.recordIO == 1:
                self.ioRecorder.writeInput(receivedData)
                self.ioRecorder.writeOutput(outputData.tobytes())

            if receivedData.shape[0] != outputData.shape[0]:
                outputData = pad_array(outputData, receivedData.shape[0])
                print_convert_processing(
                    f" Padded!, Output data size of {result.shape[0]}/{processing_sampling_rate}hz {outputData.shape[0]}/{self.settings.inputSampleRate}hz")

        postprocess_time = t.secs

        print_convert_processing(f" [fin] Input/Output size:{receivedData.shape[0]},{outputData.shape[0]}")
        perf = [preprocess_time, mainprocess_time, postprocess_time]
        return outputData, perf


##############
PRINT_CONVERT_PROCESSING = False
# PRINT_CONVERT_PROCESSING = True


def print_convert_processing(mess: str):
    if PRINT_CONVERT_PROCESSING == True:
        print(mess)


def pad_array(arr, target_length):
    current_length = arr.shape[0]
    if current_length >= target_length:
        return arr
    else:
        pad_width = target_length - current_length
        pad_left = pad_width // 2
        pad_right = pad_width - pad_left
        padded_arr = np.pad(arr, (pad_left, pad_right), 'constant', constant_values=(0, 0))
        return padded_arr


class Timer(object):
    def __init__(self, title: str):
        self.title = title

    def __enter__(self):
        self.start = time.time()
        return self

    def __exit__(self, *args):
        self.end = time.time()
        self.secs = self.end - self.start
        self.msecs = self.secs * 1000  # millisecs
WIP: refactor, model switcher 2023-03-08 03:48:50 +03:00			`from const import TMP_DIR, getModelType`
separate log control 2022-12-31 10:08:14 +03:00			`import torch`
update information when upload model 2023-01-28 09:56:56 +03:00			`import os`
			`import traceback`
separate log control 2022-12-31 10:08:14 +03:00			`import numpy as np`
gui temp 2023-01-08 10:18:20 +03:00			`from dataclasses import dataclass, asdict`
server resampling added 2023-02-18 14:53:15 +03:00			`import resampy`
WIP: switch base from trainer to client 2023-01-14 00:44:30 +03:00
WIP: docker support v1.5.x trial 5 2023-02-10 18:59:44 +03:00
WIP: refactor, separate io analyzer, io recorder from main class 2023-03-07 16:30:48 +03:00			`from voice_changer.IORecorder import IORecorder`
			`from voice_changer.IOAnalyzer import IOAnalyzer`

WIP: refactor, generalize generateStrength 2023-03-07 05:49:06 +03:00
update 2023-02-20 22:07:43 +03:00			`import time`
WIP: add so-vits-svc 2023-03-10 19:56:10 +03:00			`import librosa`
update information when upload model 2023-01-28 09:56:56 +03:00			`providers = ['OpenVINOExecutionProvider', "CUDAExecutionProvider", "DmlExecutionProvider", "CPUExecutionProvider"]`

WIP: refactor, separate io analyzer, io recorder from main class 2023-03-07 16:30:48 +03:00			`STREAM_INPUT_FILE = os.path.join(TMP_DIR, "in.wav")`
			`STREAM_OUTPUT_FILE = os.path.join(TMP_DIR, "out.wav")`
			`STREAM_ANALYZE_FILE_DIO = os.path.join(TMP_DIR, "analyze-dio.png")`
			`STREAM_ANALYZE_FILE_HARVEST = os.path.join(TMP_DIR, "analyze-harvest.png")`
WIP: support v1.5.x, improve quality 1 2023-02-12 06:25:57 +03:00

gui temp 2023-01-08 10:18:20 +03:00			`@dataclass`
			`class VocieChangerSettings():`
bugfix: default sample rate to 24k 2023-02-21 00:03:37 +03:00			`inputSampleRate: int = 24000 # 48000 or 24000`
WIP: refactoring, passthru server config 2023-02-19 04:12:25 +03:00
update information when upload model 2023-01-28 09:56:56 +03:00			`crossFadeOffsetRate: float = 0.1`
			`crossFadeEndRate: float = 0.9`
WIP: refactoring, change overlaprate to overlapsize 2023-02-19 00:25:22 +03:00			`crossFadeOverlapSize: int = 4096`
WIP: refactoring, passthru server config 2023-02-19 04:12:25 +03:00
bugfix: default record id is 0 2023-02-20 01:14:05 +03:00			`recordIO: int = 0 # 0:off, 1:on`
WIP: docker support v1.5.x trial 5 2023-02-10 18:59:44 +03:00
gui temp 2023-01-08 10:18:20 +03:00			`# ↓mutableな物だけ列挙`
WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00			`intData = ["inputSampleRate", "crossFadeOverlapSize", "recordIO"]`
			`floatData = ["crossFadeOffsetRate", "crossFadeEndRate"]`
			`strData = []`
gui temp 2023-01-08 10:18:20 +03:00
update information when upload model 2023-01-28 09:56:56 +03:00
separate log control 2022-12-31 10:08:14 +03:00			`class VoiceChanger():`
gui temp 2023-01-08 10:18:20 +03:00
WIP: store stting 1 2023-01-29 03:42:45 +03:00			`def __init__(self):`
gui temp 2023-01-08 10:18:20 +03:00			`# 初期化`
WIP: store stting 1 2023-01-29 03:42:45 +03:00			`self.settings = VocieChangerSettings()`
update information when upload model 2023-01-28 09:56:56 +03:00			`self.unpackedData_length = 0`
api return info 2023-01-10 16:49:16 +03:00			`self.onnx_session = None`
update information when upload model 2023-01-28 09:56:56 +03:00			`self.currentCrossFadeOffsetRate = 0`
			`self.currentCrossFadeEndRate = 0`
WIP: refactoring, change overlaprate to overlapsize 2023-02-19 00:25:22 +03:00			`self.currentCrossFadeOverlapSize = 0`
update information when upload model 2023-01-28 09:56:56 +03:00
WIP: refactor, model switcher 2023-03-08 03:48:50 +03:00			`modelType = getModelType()`
			`print("[VoiceChanger] activate model type:", modelType)`
			`if modelType == "MMVCv15":`
			`from voice_changer.MMVCv15.MMVCv15 import MMVCv15`
WIP: refactor, swicher model type 2023-03-07 19:46:08 +03:00			`self.voiceChanger = MMVCv15()`
WIP: add so-vits-svc 2023-03-10 19:56:10 +03:00			`elif modelType == "MMVCv13":`
			`from voice_changer.MMVCv13.MMVCv13 import MMVCv13`
			`self.voiceChanger = MMVCv13()`
			`elif modelType == "so-vits-svc-40v2":`
			`from voice_changer.SoVitsSvc40v2.SoVitsSvc40v2 import SoVitsSvc40v2`
			`self.voiceChanger = SoVitsSvc40v2()`

WIP: refactor, swicher model type 2023-03-07 19:46:08 +03:00			`else:`
WIP: refactor, model switcher 2023-03-08 03:48:50 +03:00			`from voice_changer.MMVCv13.MMVCv13 import MMVCv13`
WIP: refactor, swicher model type 2023-03-07 19:46:08 +03:00			`self.voiceChanger = MMVCv13()`
WIP: refactor, generalize generateStrength 2023-03-07 05:49:06 +03:00
separate log control 2022-12-31 10:08:14 +03:00			`self.gpu_num = torch.cuda.device_count()`
WIP: so-vits-svc, chunk error 2023-03-10 20:31:10 +03:00			`self.prev_audio = np.zeros(4096)`
wip:model upload, set provider 2023-01-07 18:25:21 +03:00			`self.mps_enabled = getattr(torch.backends, "mps", None) is not None and torch.backends.mps.is_available()`
separate log control 2022-12-31 10:08:14 +03:00
WIP:client work v000 2023-01-04 20:28:36 +03:00			`print(f"VoiceChanger Initialized (GPU_NUM:{self.gpu_num}, mps_enabled:{self.mps_enabled})")`

update information when upload model 2023-01-28 09:56:56 +03:00			`def loadModel(self, config: str, pyTorch_model_file: str = None, onnx_model_file: str = None):`
WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00			`return self.voiceChanger.loadModel(config, pyTorch_model_file, onnx_model_file)`
separate log control 2022-12-31 10:08:14 +03:00
wip:model upload, set provider 2023-01-07 18:25:21 +03:00			`def get_info(self):`
gui temp 2023-01-08 10:18:20 +03:00			`data = asdict(self.settings)`
WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00			`data.update(self.voiceChanger.get_info())`
gui temp 2023-01-08 10:18:20 +03:00			`return data`

update information when upload model 2023-01-28 09:56:56 +03:00			`def update_setteings(self, key: str, val: any):`
WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00			`if key in self.settings.intData:`
gui temp 2023-01-08 10:18:20 +03:00			`setattr(self.settings, key, int(val))`
fix crossfade bug 2023-01-08 15:19:44 +03:00			`if key == "crossFadeOffsetRate" or key == "crossFadeEndRate":`
			`self.unpackedData_length = 0`
add quality control 2023-02-14 23:02:51 +03:00			`if key == "recordIO" and val == 1:`
WIP: refactor, separate io analyzer, io recorder from main class 2023-03-07 16:30:48 +03:00			`if hasattr(self, "ioRecorder"):`
			`self.ioRecorder.close()`
			`self.ioRecorder = IORecorder(STREAM_INPUT_FILE, STREAM_OUTPUT_FILE, self.settings.inputSampleRate)`
quality control update 2023-02-15 01:18:05 +03:00			`if key == "recordIO" and val == 0:`
WIP: refactor, separate io analyzer, io recorder from main class 2023-03-07 16:30:48 +03:00			`if hasattr(self, "ioRecorder"):`
			`self.ioRecorder.close()`
bugfix: analyzer 2023-02-16 21:03:21 +03:00			`pass`
			`if key == "recordIO" and val == 2:`
WIP: refactor, separate io analyzer, io recorder from main class 2023-03-07 16:30:48 +03:00			`if hasattr(self, "ioRecorder"):`
			`self.ioRecorder.close()`

			`if hasattr(self, "ioAnalyzer") == False:`
			`self.ioAnalyzer = IOAnalyzer()`

quality control update 2023-02-15 01:18:05 +03:00			`try:`
WIP: refactor, separate io analyzer, io recorder from main class 2023-03-07 16:30:48 +03:00			`self.ioAnalyzer.analyze(STREAM_INPUT_FILE, STREAM_ANALYZE_FILE_DIO, STREAM_ANALYZE_FILE_HARVEST, self.settings.inputSampleRate)`
quality control update 2023-02-15 01:18:05 +03:00
			`except Exception as e:`
			`print("recordIO exception", e)`
gui temp 2023-01-08 10:18:20 +03:00			`elif key in self.settings.floatData:`
			`setattr(self.settings, key, float(val))`
			`elif key in self.settings.strData:`
			`setattr(self.settings, key, str(val))`
wip: 2023-01-08 03:45:58 +03:00			`else:`
WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00			`ret = self.voiceChanger.update_setteings(key, val)`
			`if ret == False:`
			`print(f"{key} is not mutalbe variable or unknown variable!")`
gui temp 2023-01-08 10:18:20 +03:00
refactoring, aggrigate to hooks 2023-01-10 18:59:09 +03:00			`return self.get_info()`
gui temp 2023-01-08 10:18:20 +03:00
WIP: refactor, commonalize crossfade process 2023-03-07 14:55:10 +03:00			`def _generate_strength(self, dataLength: int):`
WIP refactoring 2023-01-07 14:07:39 +03:00
WIP: refactor, generalize generateStrength 2023-03-07 05:49:06 +03:00			`if self.unpackedData_length != dataLength or \`
WIP: refactoring, change overlaprate to overlapsize 2023-02-19 00:25:22 +03:00			`self.currentCrossFadeOffsetRate != self.settings.crossFadeOffsetRate or \`
			`self.currentCrossFadeEndRate != self.settings.crossFadeEndRate or \`
			`self.currentCrossFadeOverlapSize != self.settings.crossFadeOverlapSize:`

WIP: refactor, generalize generateStrength 2023-03-07 05:49:06 +03:00			`self.unpackedData_length = dataLength`
refactoring, aggrigate to hooks 2023-01-10 18:59:09 +03:00			`self.currentCrossFadeOffsetRate = self.settings.crossFadeOffsetRate`
			`self.currentCrossFadeEndRate = self.settings.crossFadeEndRate`
WIP: refactoring, change overlaprate to overlapsize 2023-02-19 00:25:22 +03:00			`self.currentCrossFadeOverlapSize = self.settings.crossFadeOverlapSize`
overlap control 2023-01-11 19:05:38 +03:00
WIP: refactoring, change overlaprate to overlapsize 2023-02-19 00:25:22 +03:00			`overlapSize = min(self.settings.crossFadeOverlapSize, self.unpackedData_length)`
overlap control 2023-01-11 19:05:38 +03:00			`cf_offset = int(overlapSize * self.settings.crossFadeOffsetRate)`
update information when upload model 2023-01-28 09:56:56 +03:00			`cf_end = int(overlapSize * self.settings.crossFadeEndRate)`
WIP:client work v000 2023-01-04 20:28:36 +03:00			`cf_range = cf_end - cf_offset`
			`percent = np.arange(cf_range) / cf_range`

update information when upload model 2023-01-28 09:56:56 +03:00			`np_prev_strength = np.cos(percent * 0.5 * np.pi) ** 2`
			`np_cur_strength = np.cos((1 - percent) * 0.5 * np.pi) ** 2`
WIP:client work v000 2023-01-04 20:28:36 +03:00
overlap control 2023-01-11 19:05:38 +03:00			`self.np_prev_strength = np.concatenate([np.ones(cf_offset), np_prev_strength, np.zeros(overlapSize - cf_offset - len(np_prev_strength))])`
			`self.np_cur_strength = np.concatenate([np.zeros(cf_offset), np_cur_strength, np.ones(overlapSize - cf_offset - len(np_cur_strength))])`
WIP:client work v000 2023-01-04 20:28:36 +03:00
			`print("Generated Strengths")`
update information when upload model 2023-01-28 09:56:56 +03:00
WIP:client work v000 2023-01-04 20:28:36 +03:00			`# ひとつ前の結果とサイズが変わるため、記録は消去する。`
WIP: refactor, commonalize crossfade process -> remove unused vars 2023-03-07 15:46:43 +03:00			`if hasattr(self, 'np_prev_audio1') == True:`
			`delattr(self, "np_prev_audio1")`
WIP:client work v000 2023-01-04 20:28:36 +03:00
WIP: refactor, break down generate input 2023-03-07 17:14:14 +03:00			`# receivedData: tuple of short`
			`def on_request(self, receivedData: any):`
WIP: add so-vits-svc 2023-03-10 19:56:10 +03:00			`processing_sampling_rate = self.voiceChanger.get_processing_sampling_rate()`
WIP: support so-vits-svc, message impruvement 2023-03-10 21:59:03 +03:00			`print_convert_processing(f"------------ Convert processing.... ------------")`
WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00			`# 前処理`
update 2023-02-20 22:07:43 +03:00			`with Timer("pre-process") as t:`
WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00
WIP: add so-vits-svc 2023-03-10 19:56:10 +03:00			`if self.settings.inputSampleRate != processing_sampling_rate:`
			`newData = resampy.resample(receivedData, self.settings.inputSampleRate, processing_sampling_rate)`
WIP: refactor, break down generate input 2023-03-07 17:14:14 +03:00			`else:`
			`newData = receivedData`
WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00
			`inputSize = newData.shape[0]`
			`convertSize = inputSize + min(self.settings.crossFadeOverlapSize, inputSize)`
WIP: support so-vits-svc, message impruvement 2023-03-10 21:59:03 +03:00			`print_convert_processing(`
			`f" Input data size of {receivedData.shape[0]}/{self.settings.inputSampleRate}hz {inputSize}/{processing_sampling_rate}hz")`
WIP: add so-vits-svc 2023-03-10 19:56:10 +03:00
update 2023-02-20 22:07:43 +03:00			`if convertSize < 8192:`
			`convertSize = 8192`
WIP: so-vits-svc, chunk error 2023-03-10 20:31:10 +03:00			`# if convertSize % 128 != 0: # モデルの出力のホップサイズで切り捨てが発生するので補う。`
			`# convertSize = convertSize + (128 - (convertSize % 128))`
			`if convertSize % 512 != 0: # モデルの出力のホップサイズで切り捨てが発生するので補う。`
			`convertSize = convertSize + (512 - (convertSize % 512))`
WIP: add so-vits-svc 2023-03-10 19:56:10 +03:00
			`overlapSize = min(self.settings.crossFadeOverlapSize, inputSize)`
			`cropRange = (-1 * (inputSize + overlapSize), -1 * overlapSize)`

WIP: support so-vits-svc, message impruvement 2023-03-10 21:59:03 +03:00			`print_convert_processing(f" Convert input data size of {convertSize}")`
			`print_convert_processing(f" overlap:{overlapSize}, cropRange:{cropRange}")`

WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00			`self._generate_strength(inputSize)`
WIP: add so-vits-svc 2023-03-10 19:56:10 +03:00			`data = self.voiceChanger.generate_input(newData, convertSize, cropRange)`
update 2023-02-20 22:07:43 +03:00			`preprocess_time = t.secs`

WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00			`# 変換処理`
update 2023-02-20 22:07:43 +03:00			`with Timer("main-process") as t:`
			`try:`
WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00			`# Inference`
			`audio = self.voiceChanger.inference(data)`
WIP: refactor, commonalize crossfade process 2023-03-07 14:55:10 +03:00
			`if hasattr(self, 'np_prev_audio1') == True:`
			`np.set_printoptions(threshold=10000)`
			`prev_overlap = self.np_prev_audio1[-1 * overlapSize:]`
WIP: so-vits-svc, chunk error 2023-03-10 20:31:10 +03:00			`cur_overlap_start = -1 * (inputSize + overlapSize)`
			`cur_overlap_end = -1 * inputSize`
			`cur_overlap = audio[cur_overlap_start:cur_overlap_end]`
			`# cur_overlap = audio[-1 * (inputSize + overlapSize):-1 * inputSize]`
WIP: refactor, commonalize crossfade process 2023-03-07 14:55:10 +03:00			`powered_prev = prev_overlap * self.np_prev_strength`
WIP: support so-vits-svc, message impruvement 2023-03-10 21:59:03 +03:00			`print_convert_processing(`
			`f" audio:{audio.shape}, cur_overlap:{cur_overlap.shape}, self.np_cur_strength:{self.np_cur_strength.shape}")`
			`print_convert_processing(f" cur_overlap_strt:{cur_overlap_start}, cur_overlap_end{cur_overlap_end}")`
WIP: refactor, commonalize crossfade process 2023-03-07 14:55:10 +03:00			`powered_cur = cur_overlap * self.np_cur_strength`
			`powered_result = powered_prev + powered_cur`

			`cur = audio[-1 * inputSize:-1 * overlapSize]`
			`result = np.concatenate([powered_result, cur], axis=0)`
WIP: support so-vits-svc, message impruvement 2023-03-10 21:59:03 +03:00			`print_convert_processing(`
			`f" overlap:{overlapSize}, current:{cur.shape[0]}, result:{result.shape[0]}... result should be same as input")`
			`if cur.shape[0] != result.shape[0]:`
			`print_convert_processing(f" current and result should be same as input")`
WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00
WIP: refactor, commonalize crossfade process 2023-03-07 14:55:10 +03:00			`else:`
WIP: so-vits-svc, chunk error 2023-03-10 20:31:10 +03:00			`result = np.zeros(4096).astype(np.int16)`
WIP: refactor, commonalize crossfade process 2023-03-07 14:55:10 +03:00			`self.np_prev_audio1 = audio`

update 2023-02-20 22:07:43 +03:00			`except Exception as e:`
			`print("VC PROCESSING!!!! EXCEPTION!!!", e)`
			`print(traceback.format_exc())`
			`if hasattr(self, "np_prev_audio1"):`
			`del self.np_prev_audio1`
update 2023-03-01 16:33:51 +03:00			`return np.zeros(1).astype(np.int16), [0, 0, 0]`
update 2023-02-20 22:07:43 +03:00			`mainprocess_time = t.secs`

WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00			`# 後処理`
update 2023-02-20 22:07:43 +03:00			`with Timer("post-process") as t:`
			`result = result.astype(np.int16)`
WIP: add so-vits-svc 2023-03-10 19:56:10 +03:00			`if self.settings.inputSampleRate != processing_sampling_rate:`
			`outputData = resampy.resample(result, processing_sampling_rate, self.settings.inputSampleRate).astype(np.int16)`
			`else:`
			`outputData = result`

WIP: support so-vits-svc, message impruvement 2023-03-10 21:59:03 +03:00			`print_convert_processing(`
			`f" Output data size of {result.shape[0]}/{processing_sampling_rate}hz {outputData.shape[0]}/{self.settings.inputSampleRate}hz")`
WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00
update 2023-02-20 22:07:43 +03:00			`if self.settings.recordIO == 1:`
WIP: refactor, separate mmvc main process 2023-03-07 18:38:09 +03:00			`self.ioRecorder.writeInput(receivedData)`
WIP: add so-vits-svc 2023-03-10 19:56:10 +03:00			`self.ioRecorder.writeOutput(outputData.tobytes())`

			`if receivedData.shape[0] != outputData.shape[0]:`
			`outputData = pad_array(outputData, receivedData.shape[0])`
WIP: support so-vits-svc, message impruvement 2023-03-10 21:59:03 +03:00			`print_convert_processing(`
WIP: add so-vits-svc 2023-03-10 19:56:10 +03:00			`f" Padded!, Output data size of {result.shape[0]}/{processing_sampling_rate}hz {outputData.shape[0]}/{self.settings.inputSampleRate}hz")`
update 2023-02-20 22:07:43 +03:00
			`postprocess_time = t.secs`

WIP: support so-vits-svc, message impruvement 2023-03-10 21:59:03 +03:00			`print_convert_processing(f" [fin] Input/Output size:{receivedData.shape[0]},{outputData.shape[0]}")`
update 2023-02-20 22:07:43 +03:00			`perf = [preprocess_time, mainprocess_time, postprocess_time]`
WIP: add so-vits-svc 2023-03-10 19:56:10 +03:00			`return outputData, perf`
update 2023-02-20 22:07:43 +03:00

WIP: support so-vits-svc, message impruvement 2023-03-10 21:59:03 +03:00			`##############`
			`PRINT_CONVERT_PROCESSING = False`
			`# PRINT_CONVERT_PROCESSING = True`


			`def print_convert_processing(mess: str):`
			`if PRINT_CONVERT_PROCESSING == True:`
			`print(mess)`


WIP: add so-vits-svc 2023-03-10 19:56:10 +03:00			`def pad_array(arr, target_length):`
			`current_length = arr.shape[0]`
			`if current_length >= target_length:`
			`return arr`
			`else:`
			`pad_width = target_length - current_length`
			`pad_left = pad_width // 2`
			`pad_right = pad_width - pad_left`
			`padded_arr = np.pad(arr, (pad_left, pad_right), 'constant', constant_values=(0, 0))`
			`return padded_arr`


update 2023-02-20 22:07:43 +03:00			`class Timer(object):`
			`def __init__(self, title: str):`
			`self.title = title`

			`def __enter__(self):`
			`self.start = time.time()`
			`return self`

			`def __exit__(self, *args):`
			`self.end = time.time()`
			`self.secs = self.end - self.start`
			`self.msecs = self.secs * 1000 # millisecs`