voice-changer/server/voice_changer/DDSP_SVC/DDSP_SVC.py

import json
import sys
import os
from dataclasses import asdict
import numpy as np
import torch
from torchaudio.transforms import Resample
from torch.nn import functional as F

if sys.platform.startswith("darwin"):
    baseDir = [x for x in sys.path if x.endswith("Contents/MacOS")]
    if len(baseDir) != 1:
        print("baseDir should be only one ", baseDir)
        sys.exit()
    modulePath = os.path.join(baseDir[0], "DDSP-SVC")
    sys.path.append(modulePath)
else:
    sys.path.append("DDSP-SVC")

import ddsp.vocoder as vo  # type:ignore
from ddsp.core import upsample  # type:ignore
from enhancer import Enhancer  # type:ignore
from diffusion.infer_gt_mel import DiffGtMel  # type: ignore

from voice_changer.utils.VoiceChangerModel import AudioInOut
from voice_changer.utils.VoiceChangerParams import VoiceChangerParams
from voice_changer.utils.LoadModelParams import LoadModelParams
from voice_changer.DDSP_SVC.DDSP_SVCSetting import DDSP_SVCSettings
from voice_changer.RVC.embedder.EmbedderManager import EmbedderManager
from Exceptions import NoModeLoadedException
from voice_changer.DDSP_SVC.SvcDDSP import SvcDDSP


providers = [
    "OpenVINOExecutionProvider",
    "CUDAExecutionProvider",
    "DmlExecutionProvider",
    "CPUExecutionProvider",
]


def phase_vocoder(a, b, fade_out, fade_in):
    fa = torch.fft.rfft(a)
    fb = torch.fft.rfft(b)
    absab = torch.abs(fa) + torch.abs(fb)
    n = a.shape[0]
    if n % 2 == 0:
        absab[1:-1] *= 2
    else:
        absab[1:] *= 2
    phia = torch.angle(fa)
    phib = torch.angle(fb)
    deltaphase = phib - phia
    deltaphase = deltaphase - 2 * np.pi * torch.floor(deltaphase / 2 / np.pi + 0.5)
    w = 2 * np.pi * torch.arange(n // 2 + 1).to(a) + deltaphase
    t = torch.arange(n).unsqueeze(-1).to(a) / n
    result = (
        a * (fade_out**2)
        + b * (fade_in**2)
        + torch.sum(absab * torch.cos(w * t + phia), -1) * fade_out * fade_in / n
    )
    return result


class DDSP_SVC:
    initialLoad: bool = True
    settings: DDSP_SVCSettings = DDSP_SVCSettings()
    diff_model: DiffGtMel = DiffGtMel()
    svc_model: SvcDDSP = SvcDDSP()
    # diff_model: DiffGtMel = DiffGtMel()

    audio_buffer: AudioInOut | None = None
    prevVol: float = 0
    # resample_kernel = {}

    def __init__(self, params: VoiceChangerParams):
        self.gpu_num = torch.cuda.device_count()
        self.params = params
        self.svc_model.setVCParams(params)
        EmbedderManager.initialize(params)
        print("DDSP-SVC initialization:", params)

    # def useDevice(self):
    #     if self.settings.gpu >= 0 and torch.cuda.is_available():
    #         return torch.device("cuda", index=self.settings.gpu)
    #     else:
    #         return torch.device("cpu")

    def loadModel(self, props: LoadModelParams):
        # target_slot_idx = props.slot
        self.device = torch.device("cuda", index=0)
        params = props.params

        modelFile = params["files"]["ddspSvcModel"]
        diffusionFile = params["files"]["ddspSvcDiffusion"]
        self.svc_model.update_model(modelFile)

        print("diffusion file", diffusionFile)
        self.diff_model.flush_model(diffusionFile, ddsp_config=self.svc_model.args)

        print("params:", params)
        # print("params_arg:", self.args)

        # self.settings.pyTorchModelFile = props.files.pyTorchModelFilename
        # # model
        # model, args = vo.load_model(
        #     self.settings.pyTorchModelFile, device=self.useDevice()
        # )
        # self.model = model
        # self.args = args
        # self.sampling_rate = args.data.sampling_rate
        # self.hop_size = int(
        #     self.args.data.block_size
        #     * self.sampling_rate
        #     / self.args.data.sampling_rate
        # )

        # # hubert
        # self.vec_path = self.params.hubert_soft
        # self.encoder = vo.Units_Encoder(
        #     self.args.data.encoder,
        #     self.vec_path,
        #     self.args.data.encoder_sample_rate,
        #     self.args.data.encoder_hop_size,
        #     device=self.useDevice(),
        # )

        # # f0dec
        # self.f0_detector = vo.F0_Extractor(
        #     # "crepe",
        #     self.settings.f0Detector,
        #     self.sampling_rate,
        #     self.hop_size,
        #     float(50),
        #     float(1100),
        # )

        # self.volume_extractor = vo.Volume_Extractor(self.hop_size)
        # self.enhancer_path = self.params.nsf_hifigan
        # self.enhancer = Enhancer(
        #     self.args.enhancer.type, self.enhancer_path, device=self.useDevice()
        # )
        return self.get_info()

    def update_settings(self, key: str, val: int | float | str):
        #     if key == "onnxExecutionProvider" and self.onnx_session is not None:
        #         if val == "CUDAExecutionProvider":
        #             if self.settings.gpu < 0 or self.settings.gpu >= self.gpu_num:
        #                 self.settings.gpu = 0
        #             provider_options = [{"device_id": self.settings.gpu}]
        #             self.onnx_session.set_providers(
        #                 providers=[val], provider_options=provider_options
        #             )
        #         else:
        #             self.onnx_session.set_providers(providers=[val])
        #     elif key in self.settings.intData:
        #         val = int(val)
        #         setattr(self.settings, key, val)
        #         if (
        #             key == "gpu"
        #             and val >= 0
        #             and val < self.gpu_num
        #             and self.onnx_session is not None
        #         ):
        #             providers = self.onnx_session.get_providers()
        #             print("Providers:", providers)
        #             if "CUDAExecutionProvider" in providers:
        #                 provider_options = [{"device_id": self.settings.gpu}]
        #                 self.onnx_session.set_providers(
        #                     providers=["CUDAExecutionProvider"],
        #                     provider_options=provider_options,
        #                 )
        #         if key == "gpu" and len(self.settings.pyTorchModelFile) > 0:
        #             model, _args = vo.load_model(
        #                 self.settings.pyTorchModelFile, device=self.useDevice()
        #             )
        #             self.model = model
        #             self.enhancer = Enhancer(
        #                 self.args.enhancer.type, self.enhancer_path, device=self.useDevice()
        #             )
        #             self.encoder = vo.Units_Encoder(
        #                 self.args.data.encoder,
        #                 self.vec_path,
        #                 self.args.data.encoder_sample_rate,
        #                 self.args.data.encoder_hop_size,
        #                 device=self.useDevice(),
        #             )

        #     elif key in self.settings.floatData:
        #         setattr(self.settings, key, float(val))
        #     elif key in self.settings.strData:
        #         setattr(self.settings, key, str(val))
        #         if key == "f0Detector":
        #             print("f0Detector update", val)
        #             # if val == "dio":
        #             #     val = "parselmouth"

        #             if hasattr(self, "sampling_rate") is False:
        #                 self.sampling_rate = 44100
        #                 self.hop_size = 512

        #             self.f0_detector = vo.F0_Extractor(
        #                 val, self.sampling_rate, self.hop_size, float(50), float(1100)
        #             )
        #     else:
        #         return False

        return True

    def get_info(self):
        #     data = asdict(self.settings)

        #     data["onnxExecutionProviders"] = (
        #         self.onnx_session.get_providers() if self.onnx_session is not None else []
        #     )
        #     files = ["configFile", "pyTorchModelFile", "onnxModelFile"]
        #     for f in files:
        #         if data[f] is not None and os.path.exists(data[f]):
        #             data[f] = os.path.basename(data[f])
        #         else:
        #             data[f] = ""

        data = {}
        return data

    def get_processing_sampling_rate(self):
        return self.svc_model.args.data.sampling_rate

    def generate_input(
        self,
        newData: AudioInOut,
        inputSize: int,
        crossfadeSize: int,
        solaSearchFrame: int = 0,
    ):
        newData = newData.astype(np.float32) / 32768.0
        # newData = newData.astype(np.float32)

        if self.audio_buffer is not None:
            self.audio_buffer = np.concatenate(
                [self.audio_buffer, newData], 0
            )  # 過去のデータに連結
        else:
            self.audio_buffer = newData

        convertSize = (
            inputSize + crossfadeSize + solaSearchFrame + self.settings.extraConvertSize
        )

        # if convertSize % self.hop_size != 0:  # モデルの出力のホップサイズで切り捨てが発生するので補う。
        #     convertSize = convertSize + (self.hop_size - (convertSize % self.hop_size))

        convertOffset = -1 * convertSize
        self.audio_buffer = self.audio_buffer[convertOffset:]  # 変換対象の部分だけ抽出

        # # f0
        # f0 = self.f0_detector.extract(
        #     self.audio_buffer * 32768.0,
        #     uv_interp=True,
        #     silence_front=self.settings.extraConvertSize / self.sampling_rate,
        # )
        # f0 = torch.from_numpy(f0).float().unsqueeze(-1).unsqueeze(0)
        # f0 = f0 * 2 ** (float(self.settings.tran) / 12)

        # # volume, mask
        # volume = self.volume_extractor.extract(self.audio_buffer)
        # mask = (volume > 10 ** (float(-60) / 20)).astype("float")
        # mask = np.pad(mask, (4, 4), constant_values=(mask[0], mask[-1]))
        # mask = np.array(
        #     [np.max(mask[n : n + 9]) for n in range(len(mask) - 8)]  # noqa: E203
        # )
        # mask = torch.from_numpy(mask).float().unsqueeze(-1).unsqueeze(0)
        # mask = upsample(mask, self.args.data.block_size).squeeze(-1)
        # volume = torch.from_numpy(volume).float().unsqueeze(-1).unsqueeze(0)

        # # embed
        # audio = (
        #     torch.from_numpy(self.audio_buffer)
        #     .float()
        #     .to(self.useDevice())
        #     .unsqueeze(0)
        # )
        # seg_units = self.encoder.encode(audio, self.sampling_rate, self.hop_size)

        # cropOffset = -1 * (inputSize + crossfadeSize)
        # cropEnd = -1 * (crossfadeSize)
        # crop = self.audio_buffer[cropOffset:cropEnd]

        # rms = np.sqrt(np.square(crop).mean(axis=0))
        # vol = max(rms, self.prevVol * 0.0)
        # self.prevVol = vol

        return (self.audio_buffer, inputSize, crossfadeSize, solaSearchFrame)

    # def _onnx_inference(self, data):
    #     if hasattr(self, "onnx_session") is False or self.onnx_session is None:
    #         print("[Voice Changer] No onnx session.")
    #         raise NoModeLoadedException("ONNX")

    #     raise NoModeLoadedException("ONNX")

    def _pyTorch_inference(self, data):
        # if hasattr(self, "model") is False or self.model is None:
        #     print("[Voice Changer] No pyTorch session.")
        #     raise NoModeLoadedException("pytorch")

        input_wav = data[0]
        # inputSize = data[1]
        # crossfadeSize = data[2]
        # solaSearchFrame = data[3]
        # last_delay_frame = int(0.02 * self.svc_model.args.data.sampling_rate)

        # fade_in_window = (
        #     torch.sin(
        #         np.pi * torch.arange(0, 1, 1 / crossfadeSize, device=self.device) / 2
        #     )
        #     ** 2
        # )
        # fade_out_window = 1 - fade_in_window

        _audio, _model_sr = self.svc_model.infer(
            input_wav,
            44100,
            spk_id=1,
            threhold=-45,
            pitch_adjust=10,
            use_spk_mix=False,
            spk_mix_dict=None,
            use_enhancer=False,
            pitch_extractor_type="harvest",
            f0_min=50,
            f0_max=1100,
            safe_prefix_pad_length=0,  # TBD なにこれ？
            diff_model=self.diff_model,
            diff_acc=20,  # TBD なにこれ？
            diff_spk_id=1,
            diff_use=True,
            diff_use_dpm=False,  # TBD なにこれ？
            k_step=120,  # TBD なにこれ？
            diff_silence=False,  # TBD なにこれ？
        )

        print(" _model_sr", _model_sr)
        print("_audio", _audio.shape)
        print("_audio", _audio)
        return _audio.cpu().numpy() * 32768.0

        # if _model_sr != self.svc_model.args.data.sampling_rate:
        #     key_str = str(_model_sr) + "_" + str(self.svc_model.args.data.sampling_rate)
        #     if key_str not in self.resample_kernel:
        #         self.resample_kernel[key_str] = Resample(
        #             _model_sr,
        #             self.svc_model.args.data.sampling_rate,
        #             lowpass_filter_width=128,
        #         ).to(self.device)
        #     _audio = self.resample_kernel[key_str](_audio)
        # temp_wav = _audio[
        #     -inputSize
        #     - crossfadeSize
        #     - solaSearchFrame
        #     - last_delay_frame : -last_delay_frame
        # ]

        # # sola shift
        # conv_input = temp_wav[None, None, : crossfadeSize + solaSearchFrame]
        # cor_nom = F.conv1d(conv_input, self.sola_buffer[None, None, :])
        # cor_den = torch.sqrt(
        #     F.conv1d(
        #         conv_input**2,
        #         torch.ones(1, 1, crossfadeSize, device=self.device),
        #     )
        #     + 1e-8
        # )
        # sola_shift = torch.argmax(cor_nom[0, 0] / cor_den[0, 0])
        # temp_wav = temp_wav[sola_shift : sola_shift + inputSize + crossfadeSize]
        # print("sola_shift: " + str(int(sola_shift)))

        # # phase vocoder
        # # if self.config.use_phase_vocoder:
        # if False:
        #     temp_wav[:crossfadeSize] = phase_vocoder(
        #         self.sola_buffer,
        #         temp_wav[:crossfadeSize],
        #         fade_out_window,
        #         fade_in_window,
        #     )
        # else:
        #     temp_wav[:crossfadeSize] *= fade_in_window
        #     temp_wav[:crossfadeSize] += self.sola_buffer * fade_out_window

        # self.sola_buffer = temp_wav[-crossfadeSize:]

        # result = temp_wav[:-crossfadeSize, None].repeat(1, 2).cpu().numpy()

        ###########################################
        # c = data[0].to(self.useDevice())
        # f0 = data[1].to(self.useDevice())
        # volume = data[2].to(self.useDevice())
        # mask = data[3].to(self.useDevice())

        # # convertSize = data[4]
        # # vol = data[5]
        # # if vol < self.settings.silentThreshold:
        # #     print("threshold")
        # #     return np.zeros(convertSize).astype(np.int16)

        # with torch.no_grad():
        #     spk_id = torch.LongTensor(np.array([[self.settings.dstId]])).to(
        #         self.useDevice()
        #     )
        #     seg_output, _, (s_h, s_n) = self.model(
        #         c, f0, volume, spk_id=spk_id, spk_mix_dict=None
        #     )
        #     seg_output *= mask

        #     if self.settings.enableEnhancer:
        #         seg_output, output_sample_rate = self.enhancer.enhance(
        #             seg_output,
        #             self.args.data.sampling_rate,
        #             f0,
        #             self.args.data.block_size,
        #             # adaptive_key=float(self.settings.enhancerTune),
        #             adaptive_key="auto",
        #             silence_front=self.settings.extraConvertSize / self.sampling_rate,
        #         )

        #     result = seg_output.squeeze().cpu().numpy() * 32768.0

    #        return np.array(result).astype(np.int16)

    def inference(self, data):
        if self.settings.framework == "ONNX":
            audio = self._onnx_inference(data)
        else:
            audio = self._pyTorch_inference(data)
        return audio

    # def destroy(self):
    #     del self.net_g
    #     del self.onnx_session

    def __del__(self):
        del self.net_g
        del self.onnx_session

        remove_path = os.path.join("DDSP-SVC")
        sys.path = [x for x in sys.path if x.endswith(remove_path) is False]

        for key in list(sys.modules):
            val = sys.modules.get(key)
            try:
                file_path = val.__file__
                if file_path.find("DDSP-SVC" + os.path.sep) >= 0:
                    print("remove", key, file_path)
                    sys.modules.pop(key)
            except:  # type:ignore
                pass
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`import json`
1st return 2023-03-24 02:56:15 +03:00			`import sys`
			`import os`
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`from dataclasses import asdict`
			`import numpy as np`
			`import torch`
			`from torchaudio.transforms import Resample`
			`from torch.nn import functional as F`
WIP: refactoring 2023-04-28 08:49:17 +03:00
			`if sys.platform.startswith("darwin"):`
1st return 2023-03-24 02:56:15 +03:00			`baseDir = [x for x in sys.path if x.endswith("Contents/MacOS")]`
			`if len(baseDir) != 1:`
			`print("baseDir should be only one ", baseDir)`
			`sys.exit()`
			`modulePath = os.path.join(baseDir[0], "DDSP-SVC")`
			`sys.path.append(modulePath)`
			`else:`
			`sys.path.append("DDSP-SVC")`

WIP: refactoring 2023-04-28 08:49:17 +03:00			`import ddsp.vocoder as vo # type:ignore`
			`from ddsp.core import upsample # type:ignore`
			`from enhancer import Enhancer # type:ignore`
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`from diffusion.infer_gt_mel import DiffGtMel # type: ignore`
improve error handling 1 2023-04-17 03:45:12 +03:00
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`from voice_changer.utils.VoiceChangerModel import AudioInOut`
			`from voice_changer.utils.VoiceChangerParams import VoiceChangerParams`
			`from voice_changer.utils.LoadModelParams import LoadModelParams`
			`from voice_changer.DDSP_SVC.DDSP_SVCSetting import DDSP_SVCSettings`
			`from voice_changer.RVC.embedder.EmbedderManager import EmbedderManager`
improve error handling 1 2023-04-17 03:45:12 +03:00			`from Exceptions import NoModeLoadedException`
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`from voice_changer.DDSP_SVC.SvcDDSP import SvcDDSP`

improve error handling 1 2023-04-17 03:45:12 +03:00
WIP: refactoring 2023-04-28 08:49:17 +03:00			`providers = [`
			`"OpenVINOExecutionProvider",`
			`"CUDAExecutionProvider",`
			`"DmlExecutionProvider",`
			`"CPUExecutionProvider",`
			`]`
1st return 2023-03-24 02:56:15 +03:00

WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`def phase_vocoder(a, b, fade_out, fade_in):`
			`fa = torch.fft.rfft(a)`
			`fb = torch.fft.rfft(b)`
			`absab = torch.abs(fa) + torch.abs(fb)`
			`n = a.shape[0]`
			`if n % 2 == 0:`
			`absab[1:-1] *= 2`
			`else:`
			`absab[1:] *= 2`
			`phia = torch.angle(fa)`
			`phib = torch.angle(fb)`
			`deltaphase = phib - phia`
			`deltaphase = deltaphase - 2 * np.pi * torch.floor(deltaphase / 2 / np.pi + 0.5)`
			`w = 2 * np.pi * torch.arange(n // 2 + 1).to(a) + deltaphase`
			`t = torch.arange(n).unsqueeze(-1).to(a) / n`
			`result = (`
			`a * (fade_out**2)`
			`+ b * (fade_in**2)`
			`+ torch.sum(absab * torch.cos(w * t + phia), -1) * fade_out * fade_in / n`
			`)`
			`return result`
1st return 2023-03-24 02:56:15 +03:00

			`class DDSP_SVC:`
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`initialLoad: bool = True`
			`settings: DDSP_SVCSettings = DDSP_SVCSettings()`
			`diff_model: DiffGtMel = DiffGtMel()`
			`svc_model: SvcDDSP = SvcDDSP()`
			`# diff_model: DiffGtMel = DiffGtMel()`

WIP: refactoring 2023-04-28 08:49:17 +03:00			`audio_buffer: AudioInOut \| None = None`
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`prevVol: float = 0`
			`# resample_kernel = {}`
WIP: refactoring 2023-04-28 08:49:17 +03:00
			`def __init__(self, params: VoiceChangerParams):`
1st return 2023-03-24 02:56:15 +03:00			`self.gpu_num = torch.cuda.device_count()`
			`self.params = params`
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`self.svc_model.setVCParams(params)`
			`EmbedderManager.initialize(params)`
1st return 2023-03-24 02:56:15 +03:00			`print("DDSP-SVC initialization:", params)`

WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# def useDevice(self):`
			`# if self.settings.gpu >= 0 and torch.cuda.is_available():`
			`# return torch.device("cuda", index=self.settings.gpu)`
			`# else:`
			`# return torch.device("cpu")`
WIP: support DDSP-SVC 2023-04-16 22:37:22 +03:00
WIP: refactoring 2023-04-28 08:49:17 +03:00			`def loadModel(self, props: LoadModelParams):`
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# target_slot_idx = props.slot`
			`self.device = torch.device("cuda", index=0)`
			`params = props.params`
1st return 2023-03-24 02:56:15 +03:00
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`modelFile = params["files"]["ddspSvcModel"]`
			`diffusionFile = params["files"]["ddspSvcDiffusion"]`
			`self.svc_model.update_model(modelFile)`

			`print("diffusion file", diffusionFile)`
			`self.diff_model.flush_model(diffusionFile, ddsp_config=self.svc_model.args)`

			`print("params:", params)`
			`# print("params_arg:", self.args)`
WIP: DDSP_SVC support 2023-03-29 17:11:03 +03:00
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# self.settings.pyTorchModelFile = props.files.pyTorchModelFilename`
			`# # model`
			`# model, args = vo.load_model(`
			`# self.settings.pyTorchModelFile, device=self.useDevice()`
			`# )`
			`# self.model = model`
			`# self.args = args`
			`# self.sampling_rate = args.data.sampling_rate`
			`# self.hop_size = int(`
			`# self.args.data.block_size`
			`# * self.sampling_rate`
			`# / self.args.data.sampling_rate`
WIP: DDSP_SVC support 2023-03-29 17:11:03 +03:00			`# )`
1st return 2023-03-24 02:56:15 +03:00
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# # hubert`
			`# self.vec_path = self.params.hubert_soft`
			`# self.encoder = vo.Units_Encoder(`
			`# self.args.data.encoder,`
			`# self.vec_path,`
			`# self.args.data.encoder_sample_rate,`
			`# self.args.data.encoder_hop_size,`
			`# device=self.useDevice(),`
			`# )`

			`# # f0dec`
			`# self.f0_detector = vo.F0_Extractor(`
			`# # "crepe",`
			`# self.settings.f0Detector,`
			`# self.sampling_rate,`
			`# self.hop_size,`
			`# float(50),`
			`# float(1100),`
			`# )`

			`# self.volume_extractor = vo.Volume_Extractor(self.hop_size)`
			`# self.enhancer_path = self.params.nsf_hifigan`
			`# self.enhancer = Enhancer(`
			`# self.args.enhancer.type, self.enhancer_path, device=self.useDevice()`
			`# )`
1st return 2023-03-24 02:56:15 +03:00			`return self.get_info()`

WIP: refactoring 2023-04-28 08:49:17 +03:00			`def update_settings(self, key: str, val: int \| float \| str):`
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# if key == "onnxExecutionProvider" and self.onnx_session is not None:`
			`# if val == "CUDAExecutionProvider":`
			`# if self.settings.gpu < 0 or self.settings.gpu >= self.gpu_num:`
			`# self.settings.gpu = 0`
			`# provider_options = [{"device_id": self.settings.gpu}]`
			`# self.onnx_session.set_providers(`
			`# providers=[val], provider_options=provider_options`
			`# )`
			`# else:`
			`# self.onnx_session.set_providers(providers=[val])`
			`# elif key in self.settings.intData:`
			`# val = int(val)`
			`# setattr(self.settings, key, val)`
			`# if (`
			`# key == "gpu"`
			`# and val >= 0`
			`# and val < self.gpu_num`
			`# and self.onnx_session is not None`
			`# ):`
			`# providers = self.onnx_session.get_providers()`
			`# print("Providers:", providers)`
			`# if "CUDAExecutionProvider" in providers:`
			`# provider_options = [{"device_id": self.settings.gpu}]`
			`# self.onnx_session.set_providers(`
			`# providers=["CUDAExecutionProvider"],`
			`# provider_options=provider_options,`
			`# )`
			`# if key == "gpu" and len(self.settings.pyTorchModelFile) > 0:`
			`# model, _args = vo.load_model(`
			`# self.settings.pyTorchModelFile, device=self.useDevice()`
			`# )`
			`# self.model = model`
			`# self.enhancer = Enhancer(`
			`# self.args.enhancer.type, self.enhancer_path, device=self.useDevice()`
			`# )`
			`# self.encoder = vo.Units_Encoder(`
			`# self.args.data.encoder,`
			`# self.vec_path,`
			`# self.args.data.encoder_sample_rate,`
			`# self.args.data.encoder_hop_size,`
			`# device=self.useDevice(),`
			`# )`

			`# elif key in self.settings.floatData:`
			`# setattr(self.settings, key, float(val))`
			`# elif key in self.settings.strData:`
			`# setattr(self.settings, key, str(val))`
			`# if key == "f0Detector":`
			`# print("f0Detector update", val)`
			`# # if val == "dio":`
			`# # val = "parselmouth"`

			`# if hasattr(self, "sampling_rate") is False:`
			`# self.sampling_rate = 44100`
			`# self.hop_size = 512`

			`# self.f0_detector = vo.F0_Extractor(`
			`# val, self.sampling_rate, self.hop_size, float(50), float(1100)`
			`# )`
			`# else:`
			`# return False`
1st return 2023-03-24 02:56:15 +03:00
			`return True`

			`def get_info(self):`
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# data = asdict(self.settings)`

			`# data["onnxExecutionProviders"] = (`
			`# self.onnx_session.get_providers() if self.onnx_session is not None else []`
			`# )`
			`# files = ["configFile", "pyTorchModelFile", "onnxModelFile"]`
			`# for f in files:`
			`# if data[f] is not None and os.path.exists(data[f]):`
			`# data[f] = os.path.basename(data[f])`
			`# else:`
			`# data[f] = ""`

			`data = {}`
1st return 2023-03-24 02:56:15 +03:00			`return data`

			`def get_processing_sampling_rate(self):`
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`return self.svc_model.args.data.sampling_rate`
1st return 2023-03-24 02:56:15 +03:00
WIP: refactoring 2023-04-28 08:49:17 +03:00			`def generate_input(`
			`self,`
			`newData: AudioInOut,`
			`inputSize: int,`
			`crossfadeSize: int,`
			`solaSearchFrame: int = 0,`
			`):`
3. move hubert 2023-03-24 03:38:23 +03:00			`newData = newData.astype(np.float32) / 32768.0`
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# newData = newData.astype(np.float32)`
1st return 2023-03-24 02:56:15 +03:00
WIP: refactoring 2023-04-28 08:49:17 +03:00			`if self.audio_buffer is not None:`
			`self.audio_buffer = np.concatenate(`
			`[self.audio_buffer, newData], 0`
			`) # 過去のデータに連結`
1st return 2023-03-24 02:56:15 +03:00			`else:`
			`self.audio_buffer = newData`

WIP: refactoring 2023-04-28 08:49:17 +03:00			`convertSize = (`
			`inputSize + crossfadeSize + solaSearchFrame + self.settings.extraConvertSize`
			`)`
WIP:DDSP-SVC 2023-04-16 15:34:00 +03:00
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# if convertSize % self.hop_size != 0: # モデルの出力のホップサイズで切り捨てが発生するので補う。`
			`# convertSize = convertSize + (self.hop_size - (convertSize % self.hop_size))`
1st return 2023-03-24 02:56:15 +03:00
WIP: refactoring 2023-04-28 08:49:17 +03:00			`convertOffset = -1 * convertSize`
			`self.audio_buffer = self.audio_buffer[convertOffset:] # 変換対象の部分だけ抽出`
1st return 2023-03-24 02:56:15 +03:00
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# # f0`
			`# f0 = self.f0_detector.extract(`
			`# self.audio_buffer * 32768.0,`
			`# uv_interp=True,`
			`# silence_front=self.settings.extraConvertSize / self.sampling_rate,`
			`# )`
			`# f0 = torch.from_numpy(f0).float().unsqueeze(-1).unsqueeze(0)`
			`# f0 = f0 * 2 ** (float(self.settings.tran) / 12)`

			`# # volume, mask`
			`# volume = self.volume_extractor.extract(self.audio_buffer)`
			`# mask = (volume > 10 ** (float(-60) / 20)).astype("float")`
			`# mask = np.pad(mask, (4, 4), constant_values=(mask[0], mask[-1]))`
			`# mask = np.array(`
			`# [np.max(mask[n : n + 9]) for n in range(len(mask) - 8)] # noqa: E203`
			`# )`
			`# mask = torch.from_numpy(mask).float().unsqueeze(-1).unsqueeze(0)`
			`# mask = upsample(mask, self.args.data.block_size).squeeze(-1)`
			`# volume = torch.from_numpy(volume).float().unsqueeze(-1).unsqueeze(0)`

			`# # embed`
			`# audio = (`
			`# torch.from_numpy(self.audio_buffer)`
			`# .float()`
			`# .to(self.useDevice())`
			`# .unsqueeze(0)`
			`# )`
			`# seg_units = self.encoder.encode(audio, self.sampling_rate, self.hop_size)`
7. mv mask 2023-03-24 04:27:45 +03:00
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# cropOffset = -1 * (inputSize + crossfadeSize)`
			`# cropEnd = -1 * (crossfadeSize)`
			`# crop = self.audio_buffer[cropOffset:cropEnd]`
1st return 2023-03-24 02:56:15 +03:00
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# rms = np.sqrt(np.square(crop).mean(axis=0))`
			`# vol = max(rms, self.prevVol * 0.0)`
			`# self.prevVol = vol`
1st return 2023-03-24 02:56:15 +03:00
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`return (self.audio_buffer, inputSize, crossfadeSize, solaSearchFrame)`
1st return 2023-03-24 02:56:15 +03:00
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# def _onnx_inference(self, data):`
			`# if hasattr(self, "onnx_session") is False or self.onnx_session is None:`
			`# print("[Voice Changer] No onnx session.")`
			`# raise NoModeLoadedException("ONNX")`
1st return 2023-03-24 02:56:15 +03:00
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# raise NoModeLoadedException("ONNX")`
1st return 2023-03-24 02:56:15 +03:00
			`def _pyTorch_inference(self, data):`
WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# if hasattr(self, "model") is False or self.model is None:`
			`# print("[Voice Changer] No pyTorch session.")`
			`# raise NoModeLoadedException("pytorch")`

			`input_wav = data[0]`
			`# inputSize = data[1]`
			`# crossfadeSize = data[2]`
			`# solaSearchFrame = data[3]`
			`# last_delay_frame = int(0.02 * self.svc_model.args.data.sampling_rate)`

			`# fade_in_window = (`
			`# torch.sin(`
			`# np.pi * torch.arange(0, 1, 1 / crossfadeSize, device=self.device) / 2`
			`# )`
			`# ** 2`
			`# )`
			`# fade_out_window = 1 - fade_in_window`

			`_audio, _model_sr = self.svc_model.infer(`
			`input_wav,`
			`44100,`
			`spk_id=1,`
			`threhold=-45,`
			`pitch_adjust=10,`
			`use_spk_mix=False,`
			`spk_mix_dict=None,`
			`use_enhancer=False,`
			`pitch_extractor_type="harvest",`
			`f0_min=50,`
			`f0_max=1100,`
			`safe_prefix_pad_length=0, # TBD なにこれ？`
			`diff_model=self.diff_model,`
			`diff_acc=20, # TBD なにこれ？`
			`diff_spk_id=1,`
			`diff_use=True,`
			`diff_use_dpm=False, # TBD なにこれ？`
			`k_step=120, # TBD なにこれ？`
			`diff_silence=False, # TBD なにこれ？`
			`)`

			`print(" _model_sr", _model_sr)`
			`print("_audio", _audio.shape)`
			`print("_audio", _audio)`
			`return _audio.cpu().numpy() * 32768.0`

			`# if _model_sr != self.svc_model.args.data.sampling_rate:`
			`# key_str = str(_model_sr) + "_" + str(self.svc_model.args.data.sampling_rate)`
			`# if key_str not in self.resample_kernel:`
			`# self.resample_kernel[key_str] = Resample(`
			`# _model_sr,`
			`# self.svc_model.args.data.sampling_rate,`
			`# lowpass_filter_width=128,`
			`# ).to(self.device)`
			`# _audio = self.resample_kernel[key_str](_audio)`
			`# temp_wav = _audio[`
			`# -inputSize`
			`# - crossfadeSize`
			`# - solaSearchFrame`
			`# - last_delay_frame : -last_delay_frame`
			`# ]`

			`# # sola shift`
			`# conv_input = temp_wav[None, None, : crossfadeSize + solaSearchFrame]`
			`# cor_nom = F.conv1d(conv_input, self.sola_buffer[None, None, :])`
			`# cor_den = torch.sqrt(`
			`# F.conv1d(`
			`# conv_input**2,`
			`# torch.ones(1, 1, crossfadeSize, device=self.device),`
			`# )`
			`# + 1e-8`
			`# )`
			`# sola_shift = torch.argmax(cor_nom[0, 0] / cor_den[0, 0])`
			`# temp_wav = temp_wav[sola_shift : sola_shift + inputSize + crossfadeSize]`
			`# print("sola_shift: " + str(int(sola_shift)))`

			`# # phase vocoder`
			`# # if self.config.use_phase_vocoder:`
			`# if False:`
			`# temp_wav[:crossfadeSize] = phase_vocoder(`
			`# self.sola_buffer,`
			`# temp_wav[:crossfadeSize],`
			`# fade_out_window,`
			`# fade_in_window,`
			`# )`
			`# else:`
			`# temp_wav[:crossfadeSize] *= fade_in_window`
			`# temp_wav[:crossfadeSize] += self.sola_buffer * fade_out_window`

			`# self.sola_buffer = temp_wav[-crossfadeSize:]`

			`# result = temp_wav[:-crossfadeSize, None].repeat(1, 2).cpu().numpy()`

			`###########################################`
			`# c = data[0].to(self.useDevice())`
			`# f0 = data[1].to(self.useDevice())`
			`# volume = data[2].to(self.useDevice())`
			`# mask = data[3].to(self.useDevice())`

			`# # convertSize = data[4]`
			`# # vol = data[5]`
			`# # if vol < self.settings.silentThreshold:`
			`# # print("threshold")`
			`# # return np.zeros(convertSize).astype(np.int16)`

			`# with torch.no_grad():`
			`# spk_id = torch.LongTensor(np.array([[self.settings.dstId]])).to(`
			`# self.useDevice()`
			`# )`
			`# seg_output, _, (s_h, s_n) = self.model(`
			`# c, f0, volume, spk_id=spk_id, spk_mix_dict=None`
			`# )`
			`# seg_output *= mask`

			`# if self.settings.enableEnhancer:`
			`# seg_output, output_sample_rate = self.enhancer.enhance(`
			`# seg_output,`
			`# self.args.data.sampling_rate,`
			`# f0,`
			`# self.args.data.block_size,`
			`# # adaptive_key=float(self.settings.enhancerTune),`
			`# adaptive_key="auto",`
			`# silence_front=self.settings.extraConvertSize / self.sampling_rate,`
			`# )`

			`# result = seg_output.squeeze().cpu().numpy() * 32768.0`

			`# return np.array(result).astype(np.int16)`
1st return 2023-03-24 02:56:15 +03:00
			`def inference(self, data):`
			`if self.settings.framework == "ONNX":`
			`audio = self._onnx_inference(data)`
			`else:`
			`audio = self._pyTorch_inference(data)`
			`return audio`

WIP DDSPSVC 2023-05-07 23:51:24 +03:00			`# def destroy(self):`
			`# del self.net_g`
			`# del self.onnx_session`
1st return 2023-03-24 02:56:15 +03:00
WIP:VC select 2023-04-10 18:21:17 +03:00			`def __del__(self):`
			`del self.net_g`
			`del self.onnx_session`

WIP:DDSP-SVC 2023-04-16 15:34:00 +03:00			`remove_path = os.path.join("DDSP-SVC")`
WIP: refactoring 2023-04-28 08:49:17 +03:00			`sys.path = [x for x in sys.path if x.endswith(remove_path) is False]`
WIP:DDSP-SVC 2023-04-16 15:34:00 +03:00
			`for key in list(sys.modules):`
			`val = sys.modules.get(key)`
			`try:`
			`file_path = val.__file__`
			`if file_path.find("DDSP-SVC" + os.path.sep) >= 0:`
			`print("remove", key, file_path)`
			`sys.modules.pop(key)`
WIP: refactoring 2023-04-28 08:49:17 +03:00			`except: # type:ignore`
WIP:DDSP-SVC 2023-04-16 15:34:00 +03:00			`pass`