docs

2025-09-15 14:48:36 +08:00 · 2023-04-20 16:12:42 +08:00 · 2023-04-20 16:12:42 +08:00 · 3927728a43
commit 3927728a43
parent 88f45071da
4 changed files with 49 additions and 1 deletions
--- a/docs/index.rst
+++ b/docs/index.rst
@ -47,6 +47,7 @@ FunASR hopes to build a bridge between academic research and industrial applicat
   ./modescope_pipeline/punc_pipeline.md
   ./modescope_pipeline/tp_pipeline.md
   ./modescope_pipeline/sv_pipeline.md
+   ./modescope_pipeline/sd_pipeline.md
   ./modescope_pipeline/lm_pipeline.md

 .. toctree::
--- a/docs/modescope_pipeline/lm_pipeline.md
+++ b/docs/modescope_pipeline/lm_pipeline.md
@ -1,4 +1,4 @@
-# Speech Recognition
+# Language Models

 ## Inference with pipeline
 ### Quick start
--- a/docs/modescope_pipeline/quick_start.md
+++ b/docs/modescope_pipeline/quick_start.md
@ -87,6 +87,33 @@ rec_result = inference_sv_pipline(audio_in=('https://isv-data.oss-cn-hangzhou.al
 print(rec_result["scores"][0])
 ```

+### Speaker diarization
+#### SOND
+```python
+from modelscope.pipelines import pipeline
+from modelscope.utils.constant import Tasks
+
+inference_diar_pipline = pipeline(
+    mode="sond_demo",
+    num_workers=0,
+    task=Tasks.speaker_diarization,
+    diar_model_config="sond.yaml",
+    model='damo/speech_diarization_sond-en-us-callhome-8k-n16k4-pytorch',
+    sv_model="damo/speech_xvector_sv-en-us-callhome-8k-spk6135-pytorch",
+    sv_model_revision="master",
+)
+
+audio_list=[
+    "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_data/record.wav",
+    "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_data/spk_A.wav",
+    "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_data/spk_B.wav",
+    "https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_data/spk_B1.wav"
+]
+
+results = inference_diar_pipline(audio_in=audio_list)
+print(results)
+```
+
 ### FAQ
 #### How to switch device from GPU to CPU with pipeline

--- a/docs/modescope_pipeline/sd_pipeline.md
+++ b/docs/modescope_pipeline/sd_pipeline.md
@ -0,0 +1,20 @@
+# Speaker diarization
+
+## Inference with pipeline
+
+### Quick start
+
+### Inference with you data
+
+### Inference with multi-threads on CPU
+
+### Inference with multi GPU
+
+## Finetune with pipeline
+
+### Quick start
+
+### Finetune with your data
+
+## Inference with your finetuned model
+