voice-changer/demo/mods/Whisper.py

import whisper
import numpy as np
import torchaudio
from scipy.io.wavfile import write

_MODELS = {
    "tiny": "/whisper/tiny.pt",
    "base": "/whisper/base.pt",
    "small": "/whisper/small.pt",
    "medium": "/whisper/medium.pt",
}


class Whisper():
    def __init__(self):
        self.storedSizeFromTry = 0

    def loadModel(self, model):
        # self.model = whisper.load_model(_MODELS[model], device="cpu")
        self.model = whisper.load_model(_MODELS[model])
        self.data = np.zeros(1).astype(np.float)
    
    def addData(self, unpackedData):
        self.data = np.concatenate([self.data, unpackedData], 0)

    def transcribe(self, audio):
        received_data_file = "received_data.wav"
        write(received_data_file, 24000, self.data.astype(np.int16))
        source, sr = torchaudio.load(received_data_file) 
        target = torchaudio.functional.resample(source, 24000, 16000)
        result = self.model.transcribe(received_data_file)
        print("WHISPER1:::", result["text"])
        print("WHISPER2:::", result["segments"])
        self.data = np.zeros(1).astype(np.float)
        return result["text"]
update 2022-11-02 22:05:42 +03:00			`import whisper`
			`import numpy as np`
			`import torchaudio`
			`from scipy.io.wavfile import write`

			`_MODELS = {`
			`"tiny": "/whisper/tiny.pt",`
			`"base": "/whisper/base.pt",`
			`"small": "/whisper/small.pt",`
			`"medium": "/whisper/medium.pt",`
			`}`


			`class Whisper():`
			`def __init__(self):`
			`self.storedSizeFromTry = 0`

			`def loadModel(self, model):`
			`# self.model = whisper.load_model(_MODELS[model], device="cpu")`
			`self.model = whisper.load_model(_MODELS[model])`
			`self.data = np.zeros(1).astype(np.float)`

			`def addData(self, unpackedData):`
			`self.data = np.concatenate([self.data, unpackedData], 0)`

			`def transcribe(self, audio):`
			`received_data_file = "received_data.wav"`
			`write(received_data_file, 24000, self.data.astype(np.int16))`
			`source, sr = torchaudio.load(received_data_file)`
			`target = torchaudio.functional.resample(source, 24000, 16000)`
			`result = self.model.transcribe(received_data_file)`
			`print("WHISPER1:::", result["text"])`
			`print("WHISPER2:::", result["segments"])`
			`self.data = np.zeros(1).astype(np.float)`
			`return result["text"]`