voice-changer/server/voice_changer/RVC/ModelWrapper.py

import onnxruntime
import torch
import numpy as np
import json

# providers = ['OpenVINOExecutionProvider', "CUDAExecutionProvider", "DmlExecutionProvider", "CPUExecutionProvider"]
providers = ["CPUExecutionProvider"]


class ModelWrapper:
    def __init__(self, onnx_model):
        self.onnx_model = onnx_model

        # ort_options = onnxruntime.SessionOptions()
        # ort_options.intra_op_num_threads = 8
        self.onnx_session = onnxruntime.InferenceSession(
            self.onnx_model, providers=providers
        )
        # input_info = s
        first_input_type = self.onnx_session.get_inputs()[0].type
        if first_input_type == "tensor(float)":
            self.is_half = False
        else:
            self.is_half = True
        modelmeta = self.onnx_session.get_modelmeta()
        try:
            metadata = json.loads(modelmeta.custom_metadata_map["metadata"])
            self.samplingRate = metadata["samplingRate"]
            self.f0 = metadata["f0"]
            self.embChannels = metadata["embChannels"]
            self.modelType = metadata["modelType"]
            self.deprecated = False
            self.embedder = (
                metadata["embedder"] if "embedder" in metadata else "hubert_base"
            )
            print(
                f"[Voice Changer] Onnx metadata: sr:{self.samplingRate}, f0:{self.f0}, embedder:{self.embedder}"
            )
        except:
            self.samplingRate = 48000
            self.f0 = True
            self.embChannels = 256
            self.modelType = 0
            self.deprecated = True
            self.embedder = "hubert_base"
            print(
                "[Voice Changer] ############## !!!! CAUTION !!!! ####################"
            )
            print(
                "[Voice Changer] This onnx's version is depricated. Please regenerate onnxfile. Fallback to default"
            )
            print(
                f"[Voice Changer] Onnx metadata: sr:{self.samplingRate}, f0:{self.f0}"
            )
            print(
                "[Voice Changer] ############## !!!! CAUTION !!!! ####################"
            )

    def getSamplingRate(self):
        return self.samplingRate

    def getF0(self):
        return self.f0

    def getEmbChannels(self):
        return self.embChannels

    def getModelType(self):
        return self.modelType

    def getDeprecated(self):
        return self.deprecated

    def getEmbedder(self):
        return self.embedder

    def set_providers(self, providers, provider_options=[{}]):
        self.onnx_session.set_providers(
            providers=providers, provider_options=provider_options
        )

    def get_providers(self):
        return self.onnx_session.get_providers()

    def infer_pitchless(self, feats, p_len, sid):
        if self.is_half:
            audio1 = self.onnx_session.run(
                ["audio"],
                {
                    "feats": feats.cpu().numpy().astype(np.float16),
                    "p_len": p_len.cpu().numpy().astype(np.int64),
                    "sid": sid.cpu().numpy().astype(np.int64),
                },
            )
        else:
            audio1 = self.onnx_session.run(
                ["audio"],
                {
                    "feats": feats.cpu().numpy().astype(np.float32),
                    "p_len": p_len.cpu().numpy().astype(np.int64),
                    "sid": sid.cpu().numpy().astype(np.int64),
                },
            )
        return torch.tensor(np.array(audio1))

    def infer(self, feats, p_len, pitch, pitchf, sid):
        if self.is_half:
            audio1 = self.onnx_session.run(
                ["audio"],
                {
                    "feats": feats.cpu().numpy().astype(np.float16),
                    "p_len": p_len.cpu().numpy().astype(np.int64),
                    "pitch": pitch.cpu().numpy().astype(np.int64),
                    "pitchf": pitchf.cpu().numpy().astype(np.float32),
                    "sid": sid.cpu().numpy().astype(np.int64),
                },
            )
        else:
            audio1 = self.onnx_session.run(
                ["audio"],
                {
                    "feats": feats.cpu().numpy().astype(np.float32),
                    "p_len": p_len.cpu().numpy().astype(np.int64),
                    "pitch": pitch.cpu().numpy().astype(np.int64),
                    "pitchf": pitchf.cpu().numpy().astype(np.float32),
                    "sid": sid.cpu().numpy().astype(np.int64),
                },
            )

        return torch.tensor(np.array(audio1))
add feature and index to RVC 2023-04-07 21:11:37 +03:00			`import onnxruntime`
			`import torch`
			`import numpy as np`
WIP: support rvc-webui, pitch-less is not support yet 2023-04-23 23:54:36 +03:00			`import json`
WIP: refactoring 2023-04-28 02:46:34 +03:00
add feature and index to RVC 2023-04-07 21:11:37 +03:00			`# providers = ['OpenVINOExecutionProvider', "CUDAExecutionProvider", "DmlExecutionProvider", "CPUExecutionProvider"]`
			`providers = ["CPUExecutionProvider"]`


			`class ModelWrapper:`
bugfxi: onnx for cpu 2023-04-14 10:38:08 +03:00			`def __init__(self, onnx_model):`
add feature and index to RVC 2023-04-07 21:11:37 +03:00			`self.onnx_model = onnx_model`

			`# ort_options = onnxruntime.SessionOptions()`
			`# ort_options.intra_op_num_threads = 8`
			`self.onnx_session = onnxruntime.InferenceSession(`
WIP: refactoring 2023-04-28 02:46:34 +03:00			`self.onnx_model, providers=providers`
add feature and index to RVC 2023-04-07 21:11:37 +03:00			`)`
			`# input_info = s`
bugfxi: onnx for cpu 2023-04-14 10:38:08 +03:00			`first_input_type = self.onnx_session.get_inputs()[0].type`
			`if first_input_type == "tensor(float)":`
			`self.is_half = False`
			`else:`
			`self.is_half = True`
WIP: support rvc-webui, pitch-less is not support yet 2023-04-23 23:54:36 +03:00			`modelmeta = self.onnx_session.get_modelmeta()`
			`try:`
			`metadata = json.loads(modelmeta.custom_metadata_map["metadata"])`
			`self.samplingRate = metadata["samplingRate"]`
			`self.f0 = metadata["f0"]`
WIP: support rvc-webui, refactoring 2023-04-24 11:39:31 +03:00			`self.embChannels = metadata["embChannels"]`
improve gui 2023-04-25 10:15:13 +03:00			`self.modelType = metadata["modelType"]`
			`self.deprecated = False`
WIP: refactoring 2023-04-28 02:46:34 +03:00			`self.embedder = (`
			`metadata["embedder"] if "embedder" in metadata else "hubert_base"`
			`)`
			`print(`
			`f"[Voice Changer] Onnx metadata: sr:{self.samplingRate}, f0:{self.f0}, embedder:{self.embedder}"`
			`)`
WIP: support rvc-webui, pitch-less is not support yet 2023-04-23 23:54:36 +03:00			`except:`
WIP: support rvc-webui, refactoring 2023-04-24 21:03:38 +03:00			`self.samplingRate = 48000`
WIP: support rvc-webui, pitch-less is not support yet 2023-04-23 23:54:36 +03:00			`self.f0 = True`
WIP: support rvc-webui, refactoring 2023-04-24 21:03:38 +03:00			`self.embChannels = 256`
improve gui 2023-04-25 10:15:13 +03:00			`self.modelType = 0`
			`self.deprecated = True`
refactoring 2023-04-27 17:38:25 +03:00			`self.embedder = "hubert_base"`
WIP: refactoring 2023-04-28 02:46:34 +03:00			`print(`
			`"[Voice Changer] ############## !!!! CAUTION !!!! ####################"`
			`)`
			`print(`
			`"[Voice Changer] This onnx's version is depricated. Please regenerate onnxfile. Fallback to default"`
			`)`
			`print(`
			`f"[Voice Changer] Onnx metadata: sr:{self.samplingRate}, f0:{self.f0}"`
			`)`
			`print(`
			`"[Voice Changer] ############## !!!! CAUTION !!!! ####################"`
			`)`
WIP: support rvc-webui, pitch-less is not support yet 2023-04-23 23:54:36 +03:00
			`def getSamplingRate(self):`
			`return self.samplingRate`

			`def getF0(self):`
			`return self.f0`
add feature and index to RVC 2023-04-07 21:11:37 +03:00
WIP: support rvc-webui, refactoring 2023-04-24 11:39:31 +03:00			`def getEmbChannels(self):`
			`return self.embChannels`

improve gui 2023-04-25 10:15:13 +03:00			`def getModelType(self):`
			`return self.modelType`

			`def getDeprecated(self):`
			`return self.deprecated`

refactoring 2023-04-27 17:38:25 +03:00			`def getEmbedder(self):`
			`return self.embedder`

add feature and index to RVC 2023-04-07 21:11:37 +03:00			`def set_providers(self, providers, provider_options=[{}]):`
WIP: refactoring 2023-04-28 02:46:34 +03:00			`self.onnx_session.set_providers(`
			`providers=providers, provider_options=provider_options`
			`)`
add feature and index to RVC 2023-04-07 21:11:37 +03:00
			`def get_providers(self):`
			`return self.onnx_session.get_providers()`

WIP: support rvc-webui, pitch-less is not support yet 2023-04-23 23:54:36 +03:00			`def infer_pitchless(self, feats, p_len, sid):`
add feature and index to RVC 2023-04-07 21:11:37 +03:00			`if self.is_half:`
WIP: support rvc-webui, pitch-less is not support yet 2023-04-23 23:54:36 +03:00			`audio1 = self.onnx_session.run(`
			`["audio"],`
			`{`
			`"feats": feats.cpu().numpy().astype(np.float16),`
			`"p_len": p_len.cpu().numpy().astype(np.int64),`
			`"sid": sid.cpu().numpy().astype(np.int64),`
WIP: refactoring 2023-04-28 02:46:34 +03:00			`},`
			`)`
WIP: support rvc-webui, pitch-less is not support yet 2023-04-23 23:54:36 +03:00			`else:`
			`audio1 = self.onnx_session.run(`
			`["audio"],`
			`{`
			`"feats": feats.cpu().numpy().astype(np.float32),`
			`"p_len": p_len.cpu().numpy().astype(np.int64),`
			`"sid": sid.cpu().numpy().astype(np.int64),`
WIP: refactoring 2023-04-28 02:46:34 +03:00			`},`
			`)`
WIP: support rvc-webui, pitch-less is not support yet 2023-04-23 23:54:36 +03:00			`return torch.tensor(np.array(audio1))`
add feature and index to RVC 2023-04-07 21:11:37 +03:00
WIP: support rvc-webui, pitch-less is not support yet 2023-04-23 23:54:36 +03:00			`def infer(self, feats, p_len, pitch, pitchf, sid):`
			`if self.is_half:`
add feature and index to RVC 2023-04-07 21:11:37 +03:00			`audio1 = self.onnx_session.run(`
			`["audio"],`
			`{`
			`"feats": feats.cpu().numpy().astype(np.float16),`
			`"p_len": p_len.cpu().numpy().astype(np.int64),`
			`"pitch": pitch.cpu().numpy().astype(np.int64),`
			`"pitchf": pitchf.cpu().numpy().astype(np.float32),`
			`"sid": sid.cpu().numpy().astype(np.int64),`
WIP: refactoring 2023-04-28 02:46:34 +03:00			`},`
			`)`
add feature and index to RVC 2023-04-07 21:11:37 +03:00			`else:`
			`audio1 = self.onnx_session.run(`
			`["audio"],`
			`{`
bugfxi: onnx for cpu 2023-04-14 10:38:08 +03:00			`"feats": feats.cpu().numpy().astype(np.float32),`
			`"p_len": p_len.cpu().numpy().astype(np.int64),`
			`"pitch": pitch.cpu().numpy().astype(np.int64),`
			`"pitchf": pitchf.cpu().numpy().astype(np.float32),`
			`"sid": sid.cpu().numpy().astype(np.int64),`
WIP: refactoring 2023-04-28 02:46:34 +03:00			`},`
			`)`
add feature and index to RVC 2023-04-07 21:11:37 +03:00
			`return torch.tensor(np.array(audio1))`