esp-sr/docs/wake_word_engine/乐鑫语音唤醒词定制流程.md

# 乐鑫语音唤醒方案客户定制流程 [[English]](./ESP_Wake_Words_Customization.md)

#### 一、离线唤醒词定制服务

乐鑫提供 离线语音唤醒词 定制服务，详情如下：

 1. “嗨乐鑫“，”你好小鑫”，“你好小智”和“嗨Jeson” 等官方公开的唤醒词，客户可直接商用
	- 如 ADF／ASR Demo 提供的离线命令词提供
	- 乐鑫会逐渐开放更多的商用 Free 关键词

 2. 除官方开放的唤醒词，可接受客户定制服务，分如下两种情况
	- 如果客户提供 唤醒词语料
		- 需要提供大于 1.5 万条合格的语料（语料需求见下文）
		- 语料提供给乐鑫后，需要 2～3 周进行模型训练及调优
		- 根据量级收取少量模型定制费用

	- 如果客户不提供 唤醒词语料
		- 所有训练语料由乐鑫采集提供（训练前、后，乐鑫不会泄露客户语料）
		- 语料提供给乐鑫后，需要 2～3 周进行模型训练及调优
		- 根据量级收取少量模型定制费用（语料采集费用另收）

	- 费用收取具体定价和定制时间，烦请邮件至 sales@espressif.com 协议商定
		- 收费取决于 唤醒词定制的数量 以及 产品量产数量

 3. 对于乐鑫唤醒词模型：
 	- 目前单个模型最多支持5个及以内的唤醒词识别
 	- 每个唤醒词通常由 3-6 音节组成，比如“hi乐鑫”，“Alexa”，“小爱同学”，“你好天猫”等
	- 可多个唤醒模型一起使用，具体需根据客户应用的资源消耗确定


#### 二、训练语料要求

客户可自备训练语料或向第三方采购，对于语料有以下要求

- 语料音频格式要求
	- 采样率(sample rate)：16 KHz
	- 编码（encoding)：16-bit signed int
	- 通道数（channel）：mono
	- 格式：wav

- 语料采集要求
	- 采样人数：最好样本可以大于 500 人，其中男女，年龄分布均衡，儿童不小于 100 人
	- 采样环境：环境噪声低（< 40 dB），建议在语音室等专业环境下录制
	- 录制场景：距离麦克风 1 m 处每人录制 15 遍，其中 5 遍快语速，5 遍正常语速，5 遍慢语速；距离麦克风 3 m 处每人录制 15 遍，其中 5 遍快语速，5 遍正常语速，5 遍慢语速
	- 录制设备：高保真麦克风
	- 样本命名需体现样本信息：如 female_age_fast_id.wav 或有单独表格记录每个样本的年龄，性别等信息

#### 三、硬件设计与测试

语音唤醒效果与硬件设计以及腔体结构有很大关系，为确保硬件设备设计合理，请认真阅读以下内容

- 硬件设计要求
	- 对于各类语音音箱类设计，乐鑫可提供 原理图／PCB 等设计参考，客户可以根据自身具体需求设计修改，设计完毕后，乐鑫可提供Review服务，避免常见设计问题。

	- 腔体结构，最好有专门的声学人员参与设计，乐鑫不提供 ID 设计类的参考，客户可以市场上主流音箱设计为参考
		> 例如 天猫精灵、小度音箱、谷歌音箱等

2. 硬件设计好后，客户可通过以下简单测试，验证硬件设计效果（下列测试都是基于语音室环境，客户可以根据自身测试环境做调整）
	- 录音测试，验证 MIC、codec 录音增益以及失真情况

  		 - 音源 90 dB，距离 0.1 m 播放样本，调节增益，保证录音样本不饱和
  		 - 使用扫频文件（0~20 KHz），使用 16 KHz 采样率录音，音频不会出现明显频率混叠
  		 - 录制 100 个语音样本，使用公开的云端语音识别端口识别，识别率达到指定标准

	- 播音测试，验证 功率放大器(PA）、喇叭的失真情况
  		- 测试PA功率 @1% 总谐波失真（THD）

	- 语音算法测试，验证 AEC、BFM、NS 效果
  		- 首先需要注意下参考信号延时，不同的 AEC 算法有不同的要求
  		- 以实际产品场景为测试指标，例如 MIC 播放 85DB-90DB 大梦想家.wav, 设备回采
  		- 保存回声参考信号、回声消除后的信号分析，对比查看 AEC、NS、BFM 等效果

	- DSP性能测试，验证DSP参数是否合适，同时尽可能减少DSP算法中的非线性失真
 	  - 降噪(Noise suppression)算法性能测试
 	  - 回声消除（Acoustic Echo Cancellation）算法性能测试
 	  - 语音增强（Speech Enhancement）算法性能测试

3. 硬件设计完毕后，**可寄送** 1-2 台硬件至乐鑫，乐鑫会基于客户整机做唤醒词性能调优