mirror of
https://github.com/FunAudioLLM/SenseVoice.git
synced 2025-09-15 15:08:35 +08:00
docs
This commit is contained in:
parent
90b0b77745
commit
8cdade0699
@ -349,7 +349,9 @@ python webui.py
|
||||
<div align="center"><img src="image/webui.png" width="700"/> </div>
|
||||
|
||||
|
||||
|
||||
## Remarkable Third-Party Work
|
||||
- Triton (GPU) Deployment Best Practices: Using Triton + TensorRT, tested with FP32, achieving an acceleration ratio of 526 on V100 GPU. FP16 support is in progress. [Repository](https://github.com/modelscope/FunASR/blob/main/runtime/triton_gpu/README.md)
|
||||
- Sherpa-onnx Deployment Best Practices: Supports using SenseVoice in 10 programming languages: C++, C, Python, C#, Go, Swift, Kotlin, Java, JavaScript, and Dart. Also supports deploying SenseVoice on platforms like iOS, Android, and Raspberry Pi. [Repository](https://k2-fsa.github.io/sherpa/onnx/sense-voice/index.html)
|
||||
|
||||
<a name="Community"></a>
|
||||
# Community
|
||||
|
||||
74
README_ja.md
74
README_ja.md
@ -243,12 +243,78 @@ pip3 install -e ./
|
||||
|
||||
### データ準備
|
||||
|
||||
データ形式には以下のフィールドが含まれている必要があります:
|
||||
データ例
|
||||
```text
|
||||
{"key": "YOU0000008470_S0000238_punc_itn", "text_language": "<|en|>", "emo_target": "<|NEUTRAL|>", "event_target": "<|Speech|>", "with_or_wo_itn": "<|withitn|>", "target": "Including legal due diligence, subscription agreement, negotiation.", "source": "/cpfs01/shared/Group-speech/beinian.lzr/data/industrial_data/english_all/audio/YOU0000008470_S0000238.wav", "target_len": 7, "source_len": 140}
|
||||
{"key": "AUD0000001556_S0007580", "text_language": "<|en|>", "emo_target": "<|NEUTRAL|>", "event_target": "<|Speech|>", "with_or_wo_itn": "<|woitn|>", "target": "there is a tendency to identify the self or take interest in what one has got used to", "source": "/cpfs01/shared/Group-speech/beinian.lzr/data/industrial_data/english_all/audio/AUD0000001556_S0007580.wav", "target_len": 18, "source_len": 360}
|
||||
```
|
||||
詳細は:`data/train_example.jsonl`を参照してください。
|
||||
詳細は `data/train_example.jsonl` を参照してください。
|
||||
|
||||
説明:
|
||||
- `key`:音声ファイルのユニークID
|
||||
- `source`:音声ファイルのパス
|
||||
- `source_len`:音声ファイルのfbankフレーム数
|
||||
- `target`:文字起こし結果
|
||||
- `target_len`:target(文字起こし)の長さ
|
||||
- `text_language`:音声ファイルの言語ID
|
||||
- `emo_target`:音声ファイルの感情ラベル
|
||||
- `event_target`:音声ファイルのイベントラベル
|
||||
- `with_or_wo_itn`:句読点と逆テキスト正規化を含むかどうか
|
||||
|
||||
`train_text.txt`
|
||||
```bash
|
||||
BAC009S0764W0121 甚至出现交易几乎停滞的情况
|
||||
BAC009S0916W0489 湖北一公司以员工名义贷款数十员工负债千万
|
||||
asr_example_cn_en 所有只要处理 data 不管你是做 machine learning 做 deep learning 做 data analytics 做 data science 也好 scientist 也好通通都要都做的基本功啊那 again 先先对有一些>也许对
|
||||
ID0012W0014 he tried to think how it could be
|
||||
```
|
||||
`train_wav.scp`
|
||||
```bash
|
||||
BAC009S0764W0121 https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0764W0121.wav
|
||||
BAC009S0916W0489 https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0916W0489.wav
|
||||
asr_example_cn_en https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_cn_en.wav
|
||||
ID0012W0014 https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_en.wav
|
||||
```
|
||||
`train_text_language.txt`
|
||||
言語IDは `<|zh|>`、`<|en|>`、`<|yue|>`、`<|ja|>`、および `<|ko|>`を含みます。
|
||||
```bash
|
||||
BAC009S0764W0121 <|zh|>
|
||||
BAC009S0916W0489 <|zh|>
|
||||
asr_example_cn_en <|zh|>
|
||||
ID0012W0014 <|en|>
|
||||
```
|
||||
`train_emo.txt`
|
||||
感情ラベルは、`<|HAPPY|>`、`<|SAD|>`、`<|ANGRY|>`、`<|NEUTRAL|>`、`<|FEARFUL|>`、`<|DISGUSTED|>` および `<|SURPRISED|>`を含みます。
|
||||
```bash
|
||||
BAC009S0764W0121 <|NEUTRAL|>
|
||||
BAC009S0916W0489 <|NEUTRAL|>
|
||||
asr_example_cn_en <|NEUTRAL|>
|
||||
ID0012W0014 <|NEUTRAL|>
|
||||
```
|
||||
`train_event.txt`
|
||||
イベントラベルは、 `<|BGM|>`、`<|Speech|>`、`<|Applause|>`、`<|Laughter|>`、`<|Cry|>`、`<|Sneeze|>`、`<|Breath|>` および `<|Cough|>`を含みます。
|
||||
```bash
|
||||
BAC009S0764W0121 <|Speech|>
|
||||
BAC009S0916W0489 <|Speech|>
|
||||
asr_example_cn_en <|Speech|>
|
||||
ID0012W0014 <|Speech|>
|
||||
```
|
||||
`コマンド`
|
||||
```shell
|
||||
# wav.scp、text.txt、text_language.txt、emo_target.txt、event_target.txt から train.jsonl と val.jsonl を生成します
|
||||
sensevoice2jsonl \
|
||||
++scp_file_list='["../../../data/list/train_wav.scp", "../../../data/list/train_text.txt", "../../../data/list/train_text_language.txt", "../../../data/list/train_emo.txt", "../../../data/list/train_event.txt"]' \
|
||||
++data_type_list='["source", "target", "text_language", "emo_target", "event_target"]' \
|
||||
++jsonl_file_out="../../../data/list/train.jsonl"
|
||||
```
|
||||
`train_text_language.txt`、`train_emo_target.txt`、`train_event_target.txt` がない場合、`SenseVoice` モデルを使用して言語、感情、およびイベントラベルが自動的に予測されます。
|
||||
```shell
|
||||
# wav.scp と text.txt から train.jsonl と val.jsonl を生成します
|
||||
sensevoice2jsonl \
|
||||
++scp_file_list='["../../../data/list/train_wav.scp", "../../../data/list/train_text.txt"]' \
|
||||
++data_type_list='["source", "target"]' \
|
||||
++jsonl_file_out="../../../data/list/train.jsonl"
|
||||
```
|
||||
|
||||
### トレーニングの開始
|
||||
|
||||
@ -266,6 +332,10 @@ python webui.py
|
||||
|
||||
<div align="center"><img src="image/webui.png" width="700"/> </div>
|
||||
|
||||
## 注目すべきサードパーティの取り組み
|
||||
- Triton (GPU) デプロイメントのベストプラクティス:Triton + TensorRT を使用し、FP32 でテスト。V100 GPU で加速比 526 を達成。FP16 のサポートは進行中です。[リポジトリ](https://github.com/modelscope/FunASR/blob/main/runtime/triton_gpu/README.md)
|
||||
- Sherpa-onnx デプロイメントのベストプラクティス:SenseVoice を10種類のプログラミング言語(C++, C, Python, C#, Go, Swift, Kotlin, Java, JavaScript, Dart)で使用可能。また、iOS, Android, Raspberry Pi などのプラットフォームでも SenseVoice をデプロイできます。[リポジトリ](https://k2-fsa.github.io/sherpa/onnx/sense-voice/index.html)
|
||||
|
||||
# お問い合わせ
|
||||
|
||||
使用中に問題が発生した場合は、githubページで直接Issuesを提起できます。音声に興味のある方は、以下のDingTalkグループQRコードをスキャンしてコミュニティグループに参加し、交流と議論を行ってください。
|
||||
|
||||
@ -361,6 +361,11 @@ python webui.py
|
||||
|
||||
<div align="center"><img src="image/webui.png" width="700"/> </div>
|
||||
|
||||
## 优秀三方工作
|
||||
|
||||
- Triton(GPU)部署最佳实践,triton + tensorrt,fp32测试,V100 GPU上加速比526,fp16支持中,[repo](https://github.com/modelscope/FunASR/blob/main/runtime/triton_gpu/README.md)
|
||||
- sherpa-onnx部署最佳实践,支持在10种编程语言里面使用 SenseVoice, 即 C++, C, Python, C#, Go, Swift, Kotlin, Java, JavaScript, Dart. 支持在 iOS, Android, Raspberry Pi 等平台使用SenseVoice,[repo](https://k2-fsa.github.io/sherpa/onnx/sense-voice/index.html)
|
||||
|
||||
# 联系我们
|
||||
|
||||
如果您在使用中遇到问题,可以直接在github页面提Issues。欢迎语音兴趣爱好者扫描以下的钉钉群二维码加入社区群,进行交流和讨论。
|
||||
|
||||
Loading…
Reference in New Issue
Block a user