一种基于模型融合框架的两阶段语音唤醒算法制造技术

技术编号：27111613 阅读：55 留言：0更新日期：2021-01-25 19:07

本发明专利技术公开了一种基于模型融合框架的两阶段语音唤醒算法，1)准备两个不同结构的神经网络，第一阶段训练一个小模型，应用全部训练数据；2)训练结束后，所有负样本训练数据过模型得到不同的分数，将一定得分以上的音频段选出来，作为region of interest，加上原本的正样本，作为第二阶段训练的数据；3)解码时，需要输入音频通过两个模型结果都大于阈值才可以唤醒；本发明专利技术提供的一种基于模型融合框架的两阶段语音唤醒算法，通过结果层面模型融合的方式从工程上构建两个阶段的唤醒判别，使得网络层面实现简单。层面实现简单。层面实现简单。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于模型融合框架的两阶段语音唤醒算法

[0001]本专利技术涉及语音识别
，进一步说，尤其涉及一种基于模型融合框架的两阶段语音唤醒算法。

技术介绍

[0002]语音唤醒现在逐渐开始应用在各种生活场景中，而误唤醒是多数唤醒系统的一个主要问题，尤其在例如智能家居这样的应用中，一般对误唤醒容忍度很低，且家庭语音环境复杂更容易误唤醒，本申请方案通过多个模型融合，从训练到解码两方面进行分阶段唤醒，以到达一个非常低的误唤醒水平。
[0003]经检索，申请号为201210455175.2、名称为一种语音唤醒模块的实现方法及应用的技术方案，解决技术问题是即使在嘈杂环境下不论是否有播放音乐，都可以通过语音唤醒词开启语音唤醒功能，同时语音唤醒效果好；采用的技术方案是：语音输入(1)、语音唤醒算法(2)和唤醒执行(3)步骤，语音唤醒算法(2)获取语音输入(1)的语音信号，进行语音唤醒处理后，将结果输出给唤醒执行(3)，从而完成唤醒操作；所述语音唤醒算法(2)通过声学特征提取(4)、唤醒词检测(5)、唤醒词确认(6)、构建唤醒词检测网络(7)、训练声学模型(8)和构建唤醒词确认网络(9)来实现，具体实现过程如下：第一步，声学特征提取(4)：通过语音输入(1)获取语音信号输入，提取具有区分性的、并且是基于人耳听觉特性提取的特征，选取语音识别中用到的美尔频率倒谱系数特征作为声学特征；第二步，唤醒词检测(5)：将提取得到的声学特征，采用训练的声学模型(8)在唤醒词检测网络(7)上计算声学得分，如果声学得分最优的路径中包含要检测的

【技术保护点】

【技术特征摘要】
1.一种基于模型融合框架的两阶段语音唤醒算法，其特征在于：1)准备两个不同结构的神经网络，第一阶段训练一个小模型，应用全部训练数据；2)训练结束后，所有负样本训练数据过模型得到不同的分数，将一定得分以上的音频段选出来，作为region of interest，加上原本的正样本，作为第二阶段训练的数据；3)解码时，需要输入音频通过两个模型结果都大于阈值才可以唤醒。2.如权利要求1所述的一种基于模型融合框架的两阶段语音唤醒算法，其特征在于：3)步骤，利用模型融合，分阶段判别唤醒。3.如权利要求2所述的一种基于模型融合框架的两阶段语音唤醒算法，其特征在于：1)步骤，训练阶段：a.所有正样本数据清洗之后与所有负样本数据一起送到第一个比较小的网络训练；b.负样本通过第一个训练好的网络，得到一批confidence，其中得分比较高的表示更接近正样本，作为第一个网络难以分别的样本，把这些部分选出来称作region of interest；c.将region of interest以及所有正样本一起送入第二个较大的网络，通过focal loss中的gamma调整难样本的权重，同时网络中使用多层的splice拼接帧。4.如权利要求3所述的一种基于模型融合框架的两阶段语音唤醒算法，其特征在于：1)步骤，训练阶段：训练中使用focal loss更大程度区分难样本：FL(p
t

【专利技术属性】
技术研发人员：朱国锋，蔡洪滨，何昕，
申请(专利权)人：上海声瀚信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人