voice-changer/server/voice_changer/RVC/inferencer/OnnxRVCInferencer.py

import torch
import onnxruntime
from const import EnumInferenceTypes
from voice_changer.RVC.deviceManager.DeviceManager import DeviceManager
from voice_changer.RVC.inferencer.Inferencer import Inferencer
import numpy as np


class OnnxRVCInferencer(Inferencer):
    def loadModel(self, file: str, gpu: int, inferencerTypeVersion: str | None = None):
        self.setProps(EnumInferenceTypes.onnxRVC, file, True, gpu)
        (
            onnxProviders,
            onnxProviderOptions,
        ) = DeviceManager.get_instance().getOnnxExecutionProvider(gpu)

        onnx_session = onnxruntime.InferenceSession(
            file, providers=onnxProviders, provider_options=onnxProviderOptions
        )

        # check half-precision
        first_input_type = onnx_session.get_inputs()[0].type
        if first_input_type == "tensor(float)":
            self.isHalf = False
        else:
            self.isHalf = True

        self.model = onnx_session

        self.inferencerTypeVersion = inferencerTypeVersion

        return self

    def infer(
        self,
        feats: torch.Tensor,
        pitch_length: torch.Tensor,
        pitch: torch.Tensor,
        pitchf: torch.Tensor,
        sid: torch.Tensor,
        convert_length: int | None,
    ) -> torch.Tensor:
        if pitch is None or pitchf is None:
            raise RuntimeError("[Voice Changer] Pitch or Pitchf is not found.")

        # print("INFER1", self.model.get_providers())
        # print("INFER2", self.model.get_provider_options())
        # print("INFER3", self.model.get_session_options())
        if self.isHalf:
            audio1 = self.model.run(
                ["audio"],
                {
                    "feats": feats.cpu().numpy().astype(np.float16),
                    "p_len": pitch_length.cpu().numpy().astype(np.int64),
                    "pitch": pitch.cpu().numpy().astype(np.int64),
                    "pitchf": pitchf.cpu().numpy().astype(np.float32),
                    "sid": sid.cpu().numpy().astype(np.int64)
                },
            )
        else:
            audio1 = self.model.run(
                ["audio"],
                {
                    "feats": feats.cpu().numpy().astype(np.float32),
                    "p_len": pitch_length.cpu().numpy().astype(np.int64),
                    "pitch": pitch.cpu().numpy().astype(np.int64),
                    "pitchf": pitchf.cpu().numpy().astype(np.float32),
                    "sid": sid.cpu().numpy().astype(np.int64)
                },
            )

        if self.inferencerTypeVersion == "v2.1" or self.inferencerTypeVersion == "v2.2" or self.inferencerTypeVersion == "v1.1":
            res = audio1[0]
        else:
            res = np.array(audio1)[0][0, 0]
            res = np.clip(res, -1.0, 1.0)
        return torch.tensor(res)

        # return torch.tensor(np.array(audio1))

    def getInferencerInfo(self):
        inferencer = super().getInferencerInfo()
        inferencer["onnxExecutionProvider"] = self.model.get_providers()
        return inferencer
WIP: Japanese Hubert 2023-05-02 14:57:12 +03:00			`import torch`
			`import onnxruntime`
get pipeline info 2023-05-31 08:30:35 +03:00			`from const import EnumInferenceTypes`
WIP: DML onnx inferencer 2023-05-29 11:34:35 +03:00			`from voice_changer.RVC.deviceManager.DeviceManager import DeviceManager`
WIP: Japanese Hubert 2023-05-02 14:57:12 +03:00			`from voice_changer.RVC.inferencer.Inferencer import Inferencer`
			`import numpy as np`


WIP: Japanese Hubert 2023-05-03 07:14:00 +03:00			`class OnnxRVCInferencer(Inferencer):`
WIP onnx improve 2023-09-06 02:04:39 +03:00			`def loadModel(self, file: str, gpu: int, inferencerTypeVersion: str \| None = None):`
get pipeline info 2023-05-31 08:30:35 +03:00			`self.setProps(EnumInferenceTypes.onnxRVC, file, True, gpu)`
WIP: DML onnx inferencer 2023-05-29 11:34:35 +03:00			`(`
			`onnxProviders,`
			`onnxProviderOptions,`
			`) = DeviceManager.get_instance().getOnnxExecutionProvider(gpu)`
WIP: Japanese Hubert 2023-05-02 14:57:12 +03:00
WIP: DML onnx inferencer 2023-05-29 11:34:35 +03:00			`onnx_session = onnxruntime.InferenceSession(`
			`file, providers=onnxProviders, provider_options=onnxProviderOptions`
			`)`
WIP: Japanese Hubert 2023-05-02 14:57:12 +03:00
			`# check half-precision`
WIP: Japanese Hubert 2023-05-03 07:14:00 +03:00			`first_input_type = onnx_session.get_inputs()[0].type`
WIP: Japanese Hubert 2023-05-02 14:57:12 +03:00			`if first_input_type == "tensor(float)":`
			`self.isHalf = False`
			`else:`
			`self.isHalf = True`

			`self.model = onnx_session`
WIP onnx improve 2023-09-06 02:04:39 +03:00
			`self.inferencerTypeVersion = inferencerTypeVersion`

WIP: Japanese Hubert 2023-05-02 14:57:12 +03:00			`return self`

			`def infer(`
			`self,`
			`feats: torch.Tensor,`
			`pitch_length: torch.Tensor,`
WIP: Japanese Hubert 2023-05-03 07:14:00 +03:00			`pitch: torch.Tensor,`
			`pitchf: torch.Tensor,`
WIP: Japanese Hubert 2023-05-02 14:57:12 +03:00			`sid: torch.Tensor,`
inferenceの高品質化+高速化 2023-07-01 10:45:25 +03:00			`convert_length: int \| None,`
WIP: Japanese Hubert 2023-05-02 14:57:12 +03:00			`) -> torch.Tensor:`
			`if pitch is None or pitchf is None:`
			`raise RuntimeError("[Voice Changer] Pitch or Pitchf is not found.")`

remove comment 2023-05-04 20:20:33 +03:00			`# print("INFER1", self.model.get_providers())`
			`# print("INFER2", self.model.get_provider_options())`
			`# print("INFER3", self.model.get_session_options())`
WIP: Japanese Hubert 2023-05-02 14:57:12 +03:00			`if self.isHalf:`
			`audio1 = self.model.run(`
			`["audio"],`
			`{`
			`"feats": feats.cpu().numpy().astype(np.float16),`
			`"p_len": pitch_length.cpu().numpy().astype(np.int64),`
			`"pitch": pitch.cpu().numpy().astype(np.int64),`
			`"pitchf": pitchf.cpu().numpy().astype(np.float32),`
New Feature: - Add Crepe Full/Tiny (onnx) - remove test connect for local Refactor: - RVC: comment out module importer 2023-07-06 20:17:29 +03:00			`"sid": sid.cpu().numpy().astype(np.int64)`
WIP: Japanese Hubert 2023-05-02 14:57:12 +03:00			`},`
			`)`
			`else:`
			`audio1 = self.model.run(`
			`["audio"],`
			`{`
			`"feats": feats.cpu().numpy().astype(np.float32),`
			`"p_len": pitch_length.cpu().numpy().astype(np.int64),`
			`"pitch": pitch.cpu().numpy().astype(np.int64),`
			`"pitchf": pitchf.cpu().numpy().astype(np.float32),`
New Feature: - Add Crepe Full/Tiny (onnx) - remove test connect for local Refactor: - RVC: comment out module importer 2023-07-06 20:17:29 +03:00			`"sid": sid.cpu().numpy().astype(np.int64)`
WIP: Japanese Hubert 2023-05-02 14:57:12 +03:00			`},`
			`)`

update 2023-11-03 04:17:45 +03:00			`if self.inferencerTypeVersion == "v2.1" or self.inferencerTypeVersion == "v2.2" or self.inferencerTypeVersion == "v1.1":`
WIP onnx improve 2023-09-06 02:04:39 +03:00			`res = audio1[0]`
			`else:`
			`res = np.array(audio1)[0][0, 0]`
			`res = np.clip(res, -1.0, 1.0)`
			`return torch.tensor(res)`

			`# return torch.tensor(np.array(audio1))`
get pipeline info 2023-05-31 08:30:35 +03:00
			`def getInferencerInfo(self):`
			`inferencer = super().getInferencerInfo()`
			`inferencer["onnxExecutionProvider"] = self.model.get_providers()`
			`return inferencer`