mirror of
https://github.com/espressif/esp-sr.git
synced 2025-09-15 15:28:44 +08:00
78 lines
4.4 KiB
Markdown
78 lines
4.4 KiB
Markdown
# 乐鑫语音唤醒方案客户定制流程 [[English]](./ESP_Wake_Words_Customization.md)
|
||
|
||
#### 一、离线唤醒词定制服务
|
||
|
||
乐鑫提供 离线语音唤醒词 定制服务,详情如下:
|
||
|
||
1. “嗨乐鑫“,”你好小鑫”,“你好小智”和“嗨Jeson” 等官方公开的唤醒词,客户可直接商用
|
||
- 如 ADF/ASR Demo 提供的离线命令词提供
|
||
- 乐鑫会逐渐开放更多的商用 Free 关键词
|
||
|
||
2. 除官方开放的唤醒词,可接受客户定制服务,分如下两种情况
|
||
- 如果客户提供 唤醒词语料
|
||
- 需要提供大于 1.5 万条合格的语料(语料需求见下文)
|
||
- 语料提供给乐鑫后,需要 2~3 周进行模型训练及调优
|
||
- 根据量级收取少量模型定制费用
|
||
|
||
- 如果客户不提供 唤醒词语料
|
||
- 所有训练语料由乐鑫采集提供(训练前、后,乐鑫不会泄露客户语料)
|
||
- 语料提供给乐鑫后,需要 2~3 周进行模型训练及调优
|
||
- 根据量级收取少量模型定制费用(语料采集费用另收)
|
||
|
||
- 费用收取具体定价和定制时间,烦请邮件至 sales@espressif.com 协议商定
|
||
- 收费取决于 唤醒词定制的数量 以及 产品量产数量
|
||
|
||
3. 对于乐鑫唤醒词模型:
|
||
- 目前单个模型最多支持5个及以内的唤醒词识别
|
||
- 每个唤醒词通常由 3-6 音节组成,比如“hi乐鑫”,“Alexa”,“小爱同学”,“你好天猫”等
|
||
- 可多个唤醒模型一起使用,具体需根据客户应用的资源消耗确定
|
||
|
||
|
||
#### 二、训练语料要求
|
||
|
||
客户可自备训练语料或向第三方采购,对于语料有以下要求
|
||
|
||
- 语料音频格式要求
|
||
- 采样率(sample rate):16 KHz
|
||
- 编码(encoding):16-bit signed int
|
||
- 通道数(channel):mono
|
||
- 格式:wav
|
||
|
||
- 语料采集要求
|
||
- 采样人数:最好样本可以大于 500 人,其中男女,年龄分布均衡,儿童不小于 100 人
|
||
- 采样环境:环境噪声低(< 40 dB),建议在语音室等专业环境下录制
|
||
- 录制场景:距离麦克风 1 m 处每人录制 15 遍,其中 5 遍快语速,5 遍正常语速,5 遍慢语速;距离麦克风 3 m 处每人录制 15 遍,其中 5 遍快语速,5 遍正常语速,5 遍慢语速
|
||
- 录制设备:高保真麦克风
|
||
- 样本命名需体现样本信息:如 female_age_fast_id.wav 或有单独表格记录每个样本的年龄,性别等信息
|
||
|
||
#### 三、硬件设计与测试
|
||
|
||
语音唤醒效果与硬件设计以及腔体结构有很大关系,为确保硬件设备设计合理,请认真阅读以下内容
|
||
|
||
- 硬件设计要求
|
||
- 对于各类语音音箱类设计,乐鑫可提供 原理图/PCB 等设计参考,客户可以根据自身具体需求设计修改,设计完毕后,乐鑫可提供Review服务,避免常见设计问题。
|
||
|
||
- 腔体结构,最好有专门的声学人员参与设计,乐鑫不提供 ID 设计类的参考,客户可以市场上主流音箱设计为参考
|
||
> 例如 天猫精灵、小度音箱、谷歌音箱等
|
||
|
||
2. 硬件设计好后,客户可通过以下简单测试,验证硬件设计效果(下列测试都是基于语音室环境,客户可以根据自身测试环境做调整)
|
||
- 录音测试,验证 MIC、codec 录音增益以及失真情况
|
||
|
||
- 音源 90 dB,距离 0.1 m 播放样本,调节增益,保证录音样本不饱和
|
||
- 使用扫频文件(0~20 KHz),使用 16 KHz 采样率录音,音频不会出现明显频率混叠
|
||
- 录制 100 个语音样本,使用公开的云端语音识别端口识别,识别率达到指定标准
|
||
|
||
- 播音测试,验证 功率放大器(PA)、喇叭的失真情况
|
||
- 测试PA功率 @1% 总谐波失真(THD)
|
||
|
||
- 语音算法测试,验证 AEC、BFM、NS 效果
|
||
- 首先需要注意下参考信号延时,不同的 AEC 算法有不同的要求
|
||
- 以实际产品场景为测试指标,例如 MIC 播放 85DB-90DB 大梦想家.wav, 设备回采
|
||
- 保存回声参考信号、回声消除后的信号分析,对比查看 AEC、NS、BFM 等效果
|
||
|
||
- DSP性能测试,验证DSP参数是否合适,同时尽可能减少DSP算法中的非线性失真
|
||
- 降噪(Noise suppression)算法性能测试
|
||
- 回声消除(Acoustic Echo Cancellation)算法性能测试
|
||
- 语音增强(Speech Enhancement)算法性能测试
|
||
|
||
3. 硬件设计完毕后,**可寄送** 1-2 台硬件至乐鑫,乐鑫会基于客户整机做唤醒词性能调优 |