esp-sr/wake_word_engine/乐鑫语音唤醒词定制流程.md
2019-10-11 16:19:04 +08:00

78 lines
4.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 乐鑫语音唤醒方案客户定制流程 [[English]](./ESP_Wake_Words_Customization.md)
#### 一、离线唤醒词定制服务
乐鑫提供 离线语音唤醒词 定制服务,详情如下:
1. “嗨乐鑫“”你好小鑫”“你好小智”和“嗨Jeson” 等官方公开的唤醒词,客户可直接商用
- 如 ADFASR Demo 提供的离线命令词提供
- 乐鑫会逐渐开放更多的商用 Free 关键词
2. 除官方开放的唤醒词,可接受客户定制服务,分如下两种情况
- 如果客户提供 唤醒词语料
- 需要提供大于 1.5 万条合格的语料(语料需求见下文)
- 语料提供给乐鑫后,需要 23 周进行模型训练及调优
- 根据量级收取少量模型定制费用
- 如果客户不提供 唤醒词语料
- 所有训练语料由乐鑫采集提供(训练前、后,乐鑫不会泄露客户语料)
- 语料提供给乐鑫后,需要 23 周进行模型训练及调优
- 根据量级收取少量模型定制费用(语料采集费用另收)
- 费用收取具体定价和定制时间,烦请邮件至 sales@espressif.com 协议商定
- 收费取决于 唤醒词定制的数量 以及 产品量产数量
3. 对于乐鑫唤醒词模型:
- 目前单个模型最多支持5个及以内的唤醒词识别
- 每个唤醒词通常由 3-6 音节组成比如“hi乐鑫”“Alexa”“小爱同学”“你好天猫”等
- 可多个唤醒模型一起使用,具体需根据客户应用的资源消耗确定
#### 二、训练语料要求
客户可自备训练语料或向第三方采购,对于语料有以下要求
- 语料音频格式要求
- 采样率(sample rate)16 KHz
- 编码encoding)16-bit signed int
- 通道数channelmono
- 格式wav
- 语料采集要求
- 采样人数:最好样本可以大于 500 人,其中男女,年龄分布均衡,儿童不小于 100 人
- 采样环境:环境噪声低(< 40 dB建议在语音室等专业环境下录制
- 录制场景距离麦克风 1 m 处每人录制 15 其中 5 遍快语速5 遍正常语速5 遍慢语速距离麦克风 3 m 处每人录制 15 其中 5 遍快语速5 遍正常语速5 遍慢语速
- 录制设备高保真麦克风
- 样本命名需体现样本信息 female_age_fast_id.wav 或有单独表格记录每个样本的年龄性别等信息
#### 三、硬件设计与测试
语音唤醒效果与硬件设计以及腔体结构有很大关系为确保硬件设备设计合理请认真阅读以下内容
- 硬件设计要求
- 对于各类语音音箱类设计乐鑫可提供 原理图PCB 等设计参考客户可以根据自身具体需求设计修改设计完毕后乐鑫可提供Review服务避免常见设计问题
- 腔体结构最好有专门的声学人员参与设计乐鑫不提供 ID 设计类的参考客户可以市场上主流音箱设计为参考
> 例如 天猫精灵、小度音箱、谷歌音箱等
2. 硬件设计好后客户可通过以下简单测试验证硬件设计效果下列测试都是基于语音室环境客户可以根据自身测试环境做调整
- 录音测试验证 MICcodec 录音增益以及失真情况
- 音源 90 dB距离 0.1 m 播放样本调节增益保证录音样本不饱和
- 使用扫频文件0~20 KHz使用 16 KHz 采样率录音音频不会出现明显频率混叠
- 录制 100 个语音样本使用公开的云端语音识别端口识别识别率达到指定标准
- 播音测试验证 功率放大器(PA)、喇叭的失真情况
- 测试PA功率 @1% 总谐波失真THD
- 语音算法测试验证 AECBFMNS 效果
- 首先需要注意下参考信号延时不同的 AEC 算法有不同的要求
- 以实际产品场景为测试指标例如 MIC 播放 85DB-90DB 大梦想家.wav, 设备回采
- 保存回声参考信号回声消除后的信号分析对比查看 AECNSBFM 等效果
- DSP性能测试验证DSP参数是否合适同时尽可能减少DSP算法中的非线性失真
- 降噪(Noise suppression)算法性能测试
- 回声消除Acoustic Echo Cancellation算法性能测试
- 语音增强Speech Enhancement算法性能测试
3. 硬件设计完毕后**可寄送** 1-2 台硬件至乐鑫乐鑫会基于客户整机做唤醒词性能调优