一种语音唤醒方法及装置制造方法及图纸

技术编号：28843136 阅读：26 留言：0更新日期：2021-06-11 23:42

本申请实施例公开了一种语音唤醒方法及装置，方法包括：接收用户语音；提取用户语音中每一帧的声学特征；将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率；其中，第一音素序列是预定义的关键词的音素序列；对后验概率进行最小编辑距离加和置信度判决；若后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块，对关键词进行优化，加强了建模效果；依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统，提高了识别关键词的能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音唤醒方法及装置
本专利技术涉及语音识别
尤其涉及一种语音唤醒方法及装置。
技术介绍
语音唤醒技术作为语音识别领域的一个子领域，是人机交互领域的重要研究内容之一。语音唤醒技术在语音流中检测指定关键词并在第一时间触发唤醒系统。通常的语音唤醒技术需要大量的关键词数据来进行训练，收集和标注数据需要耗费大量的资源，且关键词只能使用预先设置好的词。随着语音唤醒技术日渐成熟，用户个人定制关键词的需求逐渐增多，传统方法难以完成要求。常规自定义唤醒采用通用语音识别模型，对解码网络进行优化，只保存关键词相关路径。但这种方法模型没有对关键词进行优化，建模效果相对较差，而且解码阶段运算复杂度高，需要耗费较多资源。
技术实现思路
本专利技术实施例提出一种语音唤醒方法及装置，用于解决通用语音识别模型没有对关键词进行优化，建模效果相对较差，而且解码阶段运算复杂度高，需要耗费较多资源的问题。该技术方案如下：第一方面，本申请实施例提出一种语音唤醒方法，包括：接收用户语音；提取所述用户语音中每一帧的声学特征；将所述用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到所述第一音素序列中的每一个音素在所述用户语音中每一帧的后验概率；其中，所述第一音素序列是预定义的关键词的音素序列；对所述后验概率进行最小编辑距离加和置信度判决；若所述后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。在一种可能的实现中，所述训练后的关键词偏置声学...

【技术保护点】
1.一种语音唤醒方法，其特征在于，包括：/n接收用户语音；/n提取所述用户语音中每一帧的声学特征；/n将所述用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到所述第一音素序列中的每一个音素在所述用户语音中每一帧的后验概率；其中，所述第一音素序列是预定义的关键词的音素序列；/n对所述后验概率进行最小编辑距离加和置信度判决；/n若所述后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。/n

【技术特征摘要】
1.一种语音唤醒方法，其特征在于，包括：
接收用户语音；
提取所述用户语音中每一帧的声学特征；
将所述用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到所述第一音素序列中的每一个音素在所述用户语音中每一帧的后验概率；其中，所述第一音素序列是预定义的关键词的音素序列；
对所述后验概率进行最小编辑距离加和置信度判决；
若所述后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。

2.根据权利要求1所述的方法，其特征在于，所述训练后的关键词偏置声学模型包括：RNN-T网络和注意力偏置模块；
所述RNN-T网络，包括声学编码器、文本编码器和联合建模编码器；其中，所述联合建模编码器与一个softmax函数连接，所述softmax函数的输出作为所述RNN-T网络的最终输出；
所述注意力偏置模块，包括关键词编码器和注意力模块。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：
根据所述关键词编码器的输出和所述文本编码器的上一状态输出，确定所述注意力模块的输出。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：
将所述注意力偏置模块的输出与所述RNN-T网络的上一状态输出进行拼接，得到拼接结果；
将所述拼接结果输入所述文本编码器中。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：
在训练所述关键词偏置声学模型过程中，参考答案中的部分词序列和随机生成的词序列作为关键词，以音素序列的形式输入所述关键词编码器中。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：
针对所述第一音素序列中的每一个音素，确定出其在所述用户语音中每一帧的后验概率中的最大值；
将每一个音素在所述用户语音中每一帧的后验概率中的最大值加和得到后验概率加和置信度；
将所述后验概率加和置信度除以...

【专利技术属性】
技术研发人员：黎塔，刘作桢，张鹏远，颜永红，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人