Merge branch dev_gzf_llm2 into dev_gzf_deepspeed

Title: wss 本次代码评审主要加入了时间戳打印，用于追踪WebSocket服务器中语音处理的关键步骤时间点，并新增了一个多轮对话处理的WebSocket服务器实现，包括语音合成和模型推理过程，提高了代码的可追溯性和诊断能力。 Link: https://code.alibaba-inc.com/zhifu.gzf/FunASR/codereview/18228062
2025-09-15 14:48:36 +08:00 · 2024-09-04 15:25:11 +08:00 · 2024-09-04 15:25:11 +08:00 · 0941f8edad
commit 0941f8edad
parent 245ba8fd45 b10a1ab523
2 changed files with 551 additions and 2 deletions
--- a/runtime/python/websocket/funasr_wss_server_llm.py
+++ b/runtime/python/websocket/funasr_wss_server_llm.py
@ -10,6 +10,7 @@ import ssl
 import nls
 from collections import deque
 import threading
+from datetime import datetime


 class NlsTtsSynthesizer:
@ -48,6 +49,7 @@ class NlsTtsSynthesizer:
        )

    def on_data(self, data, *args):
+        print(f"on_data: {datetime.now()}, len: {len(data)}")
        self.count += len(data)
        self.tts_fifo.append(data)
        # with open('tts_server.pcm', 'ab') as file:
@ -262,6 +264,7 @@ async def model_inference(
    history=None,
    text_usr="",
 ):
+    print(f"model_inference: {datetime.now()}")
    fifo_queue = deque()
    synthesizer = NlsTtsSynthesizer(
        websocket=websocket, tts_fifo=fifo_queue, token=appkey_token, appkey=appkey
@ -302,11 +305,12 @@ async def model_inference(
        )
        contents_i = [{"role": "system", "content": system_prompt}] + contents_i[3:]

-    # print(f"contents_i: {contents_i}")
+    print(f"contents_i: {len(contents_i)}")

    inputs_embeds, contents, batch, source_ids, meta_data = model.inference_prepare(
        [contents_i], None, "test_demo", tokenizer, frontend, device=device
    )
+    print(f"speech_encoder: {datetime.now()}")
    model_inputs = {}
    model_inputs["inputs_embeds"] = inputs_embeds

@ -324,7 +328,7 @@ async def model_inference(
    for new_text in streamer:
        end_llm = time.time()
        print(
-            f"generated new text： {new_text}, time_fr_receive: {end_llm - beg0:.2f}, time_llm_decode: {end_llm - beg_llm:.2f}"
+            f"{datetime.now()}, generated new text： {new_text}, time_fr_receive: {end_llm - beg0:.2f}, time_llm_decode: {end_llm - beg_llm:.2f}"
        )
        if len(new_text) > 0:
            new_text = new_text.replace("<|im_end|>", "")
@ -403,9 +407,11 @@ async def ws_serve(websocket, path):
    websocket.mode = "2pass"
    websocket.llm_state = None
    print("new user connected", flush=True)
+    print(f"connected time: {datetime.now()}")

    try:
        async for message in websocket:
+            print(f"reci time: {datetime.now()}")
            if isinstance(message, str):
                messagejson = json.loads(message)

--- a/runtime/python/websocket/funasr_wss_server_llm_multiturn.py
+++ b/runtime/python/websocket/funasr_wss_server_llm_multiturn.py
@ -0,0 +1,543 @@
+import asyncio
+import json
+import websockets
+import time
+import logging
+import tracemalloc
+import numpy as np
+import argparse
+import ssl
+import nls
+from collections import deque
+import threading
+from datetime import datetime
+
+
+class NlsTtsSynthesizer:
+    def __init__(
+        self,
+        websocket,
+        tts_fifo,
+        token,
+        appkey,
+        url="wss://nls-gateway-cn-beijing.aliyuncs.com/ws/v1",
+    ):
+        self.websocket = websocket
+        self.tts_fifo = tts_fifo
+        self.url = url
+        self.token = token
+        self.appkey = appkey
+        self.sdk = None
+        self.started = False
+        self.count = 0
+        self.init_sdk()
+
+    def init_sdk(self):
+        # 配置回调函数
+        self.sdk = nls.NlsStreamInputTtsSynthesizer(
+            url=self.url,
+            token=self.token,
+            appkey=self.appkey,
+            on_data=self.on_data,
+            on_sentence_begin=self.on_sentence_begin,
+            on_sentence_synthesis=self.on_sentence_synthesis,
+            on_sentence_end=self.on_sentence_end,
+            on_completed=self.on_completed,
+            on_error=self.on_error,
+            on_close=self.on_close,
+            callback_args=[],
+        )
+
+    def on_data(self, data, *args):
+        print(f"on_data: {datetime.now()}, len: {len(data)}")
+        self.count += len(data)
+        self.tts_fifo.append(data)
+        # with open('tts_server.pcm', 'ab') as file:
+        #    file.write(data)
+
+    def on_sentence_begin(self, message, *args):
+        print("on sentence begin =>{}".format(message))
+
+    def on_sentence_synthesis(self, message, *args):
+        print("on sentence synthesis =>{}".format(message))
+
+    def on_sentence_end(self, message, *args):
+        print("on sentence end =>{}".format(message))
+
+    def on_completed(self, message, *args):
+        print("on message data cout: =>{}".format(self.count))
+        print("on completed =>{}".format(message))
+        self.started = False
+
+    def on_error(self, message, *args):
+        print("on_error args=>{}".format(args))
+
+    def on_close(self, *args):
+        print("on_close: args=>{}".format(args))
+
+    def start(self):
+        self.sdk.startStreamInputTts()
+        self.started = True
+
+    def send_text(self, text):
+        self.sdk.sendStreamInputTts(text)
+
+    def stop(self):
+        self.sdk.stopStreamInputTts()
+
+
+parser = argparse.ArgumentParser()
+parser.add_argument(
+    "--host", type=str, default="0.0.0.0", required=False, help="host ip, localhost, 0.0.0.0"
+)
+parser.add_argument("--port", type=int, default=10096, required=False, help="grpc server port")
+parser.add_argument(
+    "--asr_model",
+    type=str,
+    default="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",
+    help="model from modelscope",
+)
+parser.add_argument("--asr_model_revision", type=str, default="master", help="")
+parser.add_argument(
+    "--asr_model_online",
+    type=str,
+    default="iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online",
+    help="model from modelscope",
+)
+parser.add_argument("--asr_model_online_revision", type=str, default="master", help="")
+parser.add_argument(
+    "--vad_model",
+    type=str,
+    default="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",
+    help="model from modelscope",
+)
+parser.add_argument("--vad_model_revision", type=str, default="master", help="")
+parser.add_argument("--ngpu", type=int, default=1, help="0 for cpu, 1 for gpu")
+parser.add_argument("--device", type=str, default="cuda", help="cuda, cpu")
+parser.add_argument("--ncpu", type=int, default=4, help="cpu cores")
+parser.add_argument(
+    "--certfile",
+    type=str,
+    default="../../ssl_key/server.crt",
+    required=False,
+    help="certfile for ssl",
+)
+
+parser.add_argument(
+    "--keyfile",
+    type=str,
+    default="../../ssl_key/server.key",
+    required=False,
+    help="keyfile for ssl",
+)
+args = parser.parse_args()
+
+websocket_users = {}
+
+print("model loading")
+from funasr import AutoModel
+
+# vad
+model_vad = AutoModel(
+    model=args.vad_model,
+    model_revision=args.vad_model_revision,
+    ngpu=args.ngpu,
+    ncpu=args.ncpu,
+    device=args.device,
+    disable_pbar=True,
+    disable_log=True,
+    # chunk_size=60,
+)
+
+import os
+
+# from install_model_requirements import install_requirements
+#
+# install_requirements()
+
+# import librosa
+# import base64
+# import io
+# import gradio as gr
+# import re
+
+import numpy as np
+import torch
+import torchaudio
+from transformers import TextIteratorStreamer
+from threading import Thread
+import torch
+import time
+import traceback
+
+# torch.backends.cuda.enable_mem_efficient_sdp(False)
+# torch.backends.cuda.enable_flash_sdp(False)
+
+from funasr import AutoModel
+
+import re
+
+import sys
+
+from modelscope.hub.api import HubApi
+
+api = HubApi()
+if "key" in os.environ:
+    key = os.environ["key"]
+    api.login(key)
+
+appkey = "xxx"
+appkey_token = "xxx"
+if "appkey" in os.environ:
+    appkey = os.environ["appkey"]
+    appkey_token = os.environ["appkey_token"]
+
+from modelscope.hub.snapshot_download import snapshot_download
+
+os.environ["MODELSCOPE_CACHE"] = "/mnt/workspace"
+llm_dir = snapshot_download("qwen/Qwen2-7B-Instruct", cache_dir=None, revision="master")
+audio_encoder_dir = snapshot_download("iic/SenseVoice", cache_dir=None, revision="master")
+
+# llm_dir = "/cpfs_speech/zhifu.gzf/init_model/qwen/Qwen2-7B-Instruct"
+# audio_encoder_dir = "/nfs/zhifu.gzf/init_model/SenseVoiceLargeModelscope"
+
+device = "cuda:0"
+
+all_file_paths = [
+    # "/nfs/zhifu.gzf/init_model/Speech2Text_Align_V0712_modelscope"
+    "FunAudioLLM/Speech2Text_Align_V0712",
+    # "FunAudioLLM/Speech2Text_Align_V0718",
+    # "FunAudioLLM/Speech2Text_Align_V0628",
+]
+
+llm_kwargs = {"num_beams": 1, "do_sample": False}
+
+ckpt_dir = all_file_paths[0]
+
+model_llm = AutoModel(
+    model=ckpt_dir,
+    device=device,
+    fp16=False,
+    bf16=False,
+    llm_dtype="bf16",
+    max_length=1024,
+    llm_kwargs=llm_kwargs,
+    llm_conf={"init_param_path": llm_dir},
+    tokenizer_conf={"init_param_path": llm_dir},
+    audio_encoder=audio_encoder_dir,
+)
+
+model = model_llm.model
+frontend = model_llm.kwargs["frontend"]
+tokenizer = model_llm.kwargs["tokenizer"]
+
+model_dict = {"model": model, "frontend": frontend, "tokenizer": tokenizer}
+
+
+async def send_to_client(websocket, syntheszier, tts_fifo):
+    # Sending tts data to the client
+    while True:
+        if websocket.open and (syntheszier.started or len(tts_fifo) > 0):
+            try:
+                if len(tts_fifo) > 0:
+                    await websocket.send(tts_fifo.popleft())
+                else:
+                    await asyncio.sleep(0.01)
+            except Exception as e:
+                print(f"Error sending data to client: {e}")
+        else:
+            print("WebSocket connection is not open or syntheszier is not started.")
+            break
+
+
+def tts_sync_thread(coro):
+    asyncio.run(coro)
+
+
+async def model_inference(
+    websocket,
+    audio_in,
+    his_state=None,
+    system_prompt="",
+    state=None,
+    turn_num=5,
+    history=None,
+    text_usr="",
+):
+    print(f"model_inference: {datetime.now()}")
+    fifo_queue = deque()
+    synthesizer = NlsTtsSynthesizer(
+        websocket=websocket, tts_fifo=fifo_queue, token=appkey_token, appkey=appkey
+    )
+    synthesizer.start()
+    beg0 = time.time()
+    if his_state is None:
+        his_state = model_dict
+    model = his_state["model"]
+    frontend = his_state["frontend"]
+    tokenizer = his_state["tokenizer"]
+    # print(f"text_inputs: {text_inputs}")
+    # print(f"audio_in: {audio_in}")
+    # print(f"websocket.llm_state: {websocket.llm_state}")
+
+    if websocket_users[websocket]["llm_state"].get("contents_i", None) is None:
+        websocket_users[websocket]["llm_state"]["contents_i"] = []
+    # print(f"history: {history}")
+    # if history is None:
+    #     history = []
+
+    # audio_in = "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/tmp/1.wav"
+    # user_prompt = f"<|startofspeech|>!{audio_in}<|endofspeech|>"
+    user_prompt = websocket_users[websocket].get("user_prompt", "")
+    user_prompt = f"{user_prompt}<|startofspeech|>!!<|endofspeech|>"
+
+    contents_i = websocket_users[websocket]["llm_state"]["contents_i"]
+
+    # print(f"contents_i_0: {contents_i}")
+    system_prompt = websocket_users[websocket].get(
+        "system_prompt",
+        "你是小夏，一位典型的温婉江南姑娘。你出生于杭州，声音清甜并有亲近感，会用简洁语言表达你的想法。你是用户的好朋友。你的回答将通过逼真的文字转语音技术读出。",
+    )
+
+    if len(contents_i) < 1:
+        contents_i.append({"role": "system", "content": system_prompt})
+    contents_i.append({"role": "user", "content": user_prompt, "audio": audio_in})
+    contents_i.append({"role": "assistant", "content": "target_out"})
+
+    turn_num = websocket_users[websocket].get("turn_num", 5)
+    if len(contents_i) > 2 * turn_num + 1:
+        print(
+            f"clip dialog pairs from: {len(contents_i)} to: {turn_num}, \ncontents_i_before_clip: {contents_i}"
+        )
+        contents_i = [{"role": "system", "content": system_prompt}] + contents_i[3:]
+
+    # print(f"contents_i: {len(contents_i)}")
+
+    inputs_embeds, contents, batch, source_ids, meta_data = model.inference_prepare(
+        [contents_i], None, "test_demo", tokenizer, frontend, device=device
+    )
+    print(f"speech_encoder: {datetime.now()}")
+    model_inputs = {}
+    model_inputs["inputs_embeds"] = inputs_embeds
+
+    streamer = TextIteratorStreamer(tokenizer)
+
+    generation_kwargs = dict(model_inputs, streamer=streamer, max_new_tokens=1024)
+    thread = Thread(target=model.llm.generate, kwargs=generation_kwargs)
+    thread.start()
+    res = ""
+    beg_llm = time.time()
+    tts_thread = Thread(
+        target=tts_sync_thread, args=(send_to_client(websocket, synthesizer, fifo_queue),)
+    )
+    tts_thread.start()
+    for new_text in streamer:
+        end_llm = time.time()
+        print(
+            f"{datetime.now()}, generated new text： {new_text}, time_fr_receive: {end_llm - beg0:.2f}, time_llm_decode: {end_llm - beg_llm:.2f}"
+        )
+        if len(new_text) > 0:
+            new_text = new_text.replace("<|im_end|>", "")
+            res += new_text
+            synthesizer.send_text(new_text)
+
+            contents_i[-1]["content"] = res
+            websocket_users[websocket]["llm_state"]["contents_i"] = contents_i
+            # history[-1][1] = res
+
+            mode = "2pass-online"
+            message = json.dumps(
+                {
+                    "mode": mode,
+                    "text": new_text,
+                    "wav_name": websocket_users[websocket].get("wav_name", "microphone"),
+                    "is_final": False,
+                }
+            )
+            # print(f"online: {message}")
+            await websocket.send(message)
+
+    synthesizer.stop()
+    # await tts_to_client_task
+    tts_thread.join()
+    mode = "2pass-offline"
+    message = json.dumps(
+        {
+            "mode": mode,
+            "text": res,
+            "wav_name": websocket_users[websocket].get("wav_name", "microphone"),
+            "is_final": True,
+        }
+    )
+    # print(f"offline: {message}")
+    await websocket.send(message)
+
+
+print("model loaded! only support one client at the same time now!!!!")
+
+
+async def ws_reset(websocket):
+    print("ws reset now, total num is ", len(websocket_users))
+
+    if websocket in websocket_users:
+        del websocket_users[websocket]
+
+    await websocket.close()
+
+
+async def clear_websocket():
+    for websocket in websocket_users:
+        await ws_reset(websocket)
+    websocket_users.clear()
+
+
+async def ws_serve(websocket, path):
+    frames = []
+    frames_asr = []
+    frames_llm = []
+    global websocket_users
+    # await clear_websocket()
+    websocket_users[websocket] = {}
+    websocket_users[websocket]["status_dict_asr"] = {}
+    websocket_users[websocket]["status_dict_vad"] = {"cache": {}, "is_final": False}
+
+    websocket_users[websocket]["chunk_interval"] = 10
+    websocket_users[websocket]["vad_pre_idx"] = 0
+    speech_start = False
+    speech_end_i = -1
+    websocket_users[websocket]["wav_name"] = "microphone"
+    websocket_users[websocket]["mode"] = "2pass"
+    websocket_users[websocket]["llm_state"] = {}
+    websocket.stop_send = False
+    print(f"new user connected: {len(websocket_users)}", flush=True)
+    print(f"connected time: {datetime.now()}")
+
+    try:
+        async for message in websocket:
+            print(f"receive time: {datetime.now()}")
+            if isinstance(message, str):
+                messagejson = json.loads(message)
+
+                if "is_speaking" in messagejson:
+                    websocket_users[websocket]["is_speaking"] = messagejson["is_speaking"]
+                    websocket_users[websocket]["speech_start"] = messagejson["is_speaking"]
+                if "chunk_interval" in messagejson:
+                    websocket_users[websocket]["chunk_interval"] = messagejson["chunk_interval"]
+                if "wav_name" in messagejson:
+                    websocket_users[websocket]["wav_name"] = messagejson.get("wav_name")
+                if "chunk_size" in messagejson:
+                    chunk_size = messagejson["chunk_size"]
+                    if isinstance(chunk_size, str):
+                        chunk_size = chunk_size.split(",")
+                    chunk_size = [int(x) for x in chunk_size]
+                    websocket_users[websocket]["status_dict_vad"]["chunk_size"] = (
+                        chunk_size[1] * 60 / websocket_users[websocket].get("chunk_interval", 10)
+                    )
+
+                if "mode" in messagejson:
+                    websocket_users[websocket]["mode"] = messagejson["mode"]
+                if "is_close" in messagejson:
+                    websocket_users[websocket]["is_close"] = messagejson["is_close"]
+                if "system_prompt" in messagejson:
+                    websocket_users[websocket]["system_prompt"] = messagejson["system_prompt"]
+                if "user_prompt" in messagejson:
+                    websocket_users[websocket]["user_prompt"] = messagejson["user_prompt"]
+            if len(frames_asr) > 0 or not isinstance(message, str) or len(frames_llm) > 0:
+                if not isinstance(message, str):
+                    frames.append(message)
+
+                    if websocket_users[websocket].get("speech_start", True):
+                        frames_llm.append(message)
+                    # duration_ms = len(message) // 32
+                    # websocket.vad_pre_idx += duration_ms
+
+                    # if speech_start:
+                    #     frames_asr.append(message)
+                    # # vad online
+                    # try:
+                    #     speech_start_i, speech_end_i = await async_vad(websocket, message)
+                    # except:
+                    #     print("error in vad")
+                    # if speech_start_i != -1:
+                    #     speech_start = True
+                    #     beg_bias = (websocket.vad_pre_idx - speech_start_i) // duration_ms
+                    #     frames_pre = frames[-beg_bias:]
+                    #     frames_asr = []
+                    #     frames_asr.extend(frames_pre)
+
+                # if speech_end_i != -1 or not websocket.is_speaking:
+                if not websocket_users[websocket].get("is_speaking", True):
+                    # print("vad end point")
+                    if (
+                        websocket_users[websocket].get("mode", "2pass") == "2pass"
+                        or websocket_users[websocket].get("mode", "2pass") == "2pass" == "offline"
+                    ):
+                        # audio_in = b"".join(frames_asr)
+                        audio_in = b"".join(frames_llm)
+                        try:
+                            # await async_asr(websocket, audio_in)
+                            await model_inference(websocket, audio_in)
+                        except Exception as e:
+                            print(f"{str(e)}, {traceback.format_exc()}")
+                    # frames_asr = []
+                    # speech_start = False
+                    frames_llm = []
+
+                    # if not websocket.is_speaking:
+                    #     websocket.vad_pre_idx = 0
+                    #     frames = []
+                    #     websocket.status_dict_vad["cache"] = {}
+                    # else:
+                    #     frames = frames[-20:]
+                    frames = frames[-20:]
+            else:
+                print(f"message: {message}")
+            if websocket_users[websocket].get("is_close", False):
+                print(f'is_close: {websocket_users[websocket].get("is_close", False)}')
+                websocket.stop_send = True
+                del websocket_users[websocket]
+                # await ws_reset(websocket)
+
+    except websockets.ConnectionClosed:
+        print("ConnectionClosed...", websocket_users, flush=True)
+        await ws_reset(websocket)
+
+    except websockets.InvalidState:
+        print("InvalidState...")
+    except Exception as e:
+        print("Exception:", e)
+
+
+# async def async_vad(websocket, audio_in):
+#     segments_result = model_vad.generate(input=audio_in, **websocket.status_dict_vad)[0]["value"]
+#     # print(segments_result)
+#
+#     speech_start = -1
+#     speech_end = -1
+#
+#     if len(segments_result) == 0 or len(segments_result) > 1:
+#         return speech_start, speech_end
+#     if segments_result[0][0] != -1:
+#         speech_start = segments_result[0][0]
+#     if segments_result[0][1] != -1:
+#         speech_end = segments_result[0][1]
+#     return speech_start, speech_end
+
+
+if False:  # len(args.certfile) > 0:
+    ssl_context = ssl.SSLContext(ssl.PROTOCOL_TLS_SERVER)
+
+    # Generate with Lets Encrypt, copied to this location, chown to current user and 400 permissions
+    ssl_cert = args.certfile
+    ssl_key = args.keyfile
+
+    ssl_context.load_cert_chain(ssl_cert, keyfile=ssl_key)
+    start_server = websockets.serve(
+        ws_serve, args.host, args.port, subprotocols=["binary"], ping_interval=None, ssl=ssl_context
+    )
+else:
+    start_server = websockets.serve(
+        ws_serve, args.host, args.port, subprotocols=["binary"], ping_interval=None
+    )
+asyncio.get_event_loop().run_until_complete(start_server)
+asyncio.get_event_loop().run_forever()