乐鑫语音唤醒方案客户定制流程 [English]

乐鑫提供离线语音唤醒词定制服务，详情如下：

“嗨乐鑫“，”你好小鑫”，“你好小智”和“嗨Jeson” 等官方公开的唤醒词，客户可直接商用
- 如 ADF／ASR Demo 提供的离线命令词提供
- 乐鑫会逐渐开放更多的商用 Free 关键词
除官方开放的唤醒词，可接受客户定制服务，分如下两种情况
- 如果客户提供唤醒词语料
  - 需要提供大于 1.5 万条合格的语料（语料需求见下文）
  - 语料提供给乐鑫后，需要 2～3 周进行模型训练及调优
  - 根据量级收取少量模型定制费用
- 如果客户不提供唤醒词语料
  - 所有训练语料由乐鑫采集提供（训练前、后，乐鑫不会泄露客户语料）
  - 语料提供给乐鑫后，需要 2～3 周进行模型训练及调优
  - 根据量级收取少量模型定制费用（语料采集费用另收）
- 费用收取具体定价和定制时间，烦请邮件至 sales@espressif.com 协议商定
  - 收费取决于唤醒词定制的数量以及产品量产数量
对于乐鑫唤醒词模型：
- 目前单个模型最多支持5个及以内的唤醒词识别
- 每个唤醒词通常由 3-6 音节组成，比如“hi乐鑫”，“Alexa”，“小爱同学”，“你好天猫”等
- 可多个唤醒模型一起使用，具体需根据客户应用的资源消耗确定

客户可自备训练语料或向第三方采购，对于语料有以下要求

语料音频格式要求
- 采样率(sample rate)：16 KHz
- 编码（encoding)：16-bit signed int
- 通道数（channel）：mono
- 格式：wav
语料采集要求
- 采样人数：最好样本可以大于 500 人，其中男女，年龄分布均衡，儿童不小于 100 人
- 采样环境：环境噪声低（< 40 dB），建议在语音室等专业环境下录制
- 录制场景：距离麦克风 1 m 处每人录制 15 遍，其中 5 遍快语速，5 遍正常语速，5 遍慢语速；距离麦克风 3 m 处每人录制 15 遍，其中 5 遍快语速，5 遍正常语速，5 遍慢语速
- 录制设备：高保真麦克风
- 样本命名需体现样本信息：如 female_age_fast_id.wav 或有单独表格记录每个样本的年龄，性别等信息

语音唤醒效果与硬件设计以及腔体结构有很大关系，为确保硬件设备设计合理，请认真阅读以下内容

硬件设计要求
- 对于各类语音音箱类设计，乐鑫可提供原理图／PCB 等设计参考，客户可以根据自身具体需求设计修改，设计完毕后，乐鑫可提供Review服务，避免常见设计问题。
- 腔体结构，最好有专门的声学人员参与设计，乐鑫不提供 ID 设计类的参考，客户可以市场上主流音箱设计为参考
  
  例如天猫精灵、小度音箱、谷歌音箱等