一种语音唤醒方法及装置制造方法及图纸

技术编号:28843136 阅读:26 留言:0更新日期:2021-06-11 23:42
本申请实施例公开了一种语音唤醒方法及装置,方法包括:接收用户语音;提取用户语音中每一帧的声学特征;将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率;其中,第一音素序列是预定义的关键词的音素序列;对后验概率进行最小编辑距离加和置信度判决;若后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块,对关键词进行优化,加强了建模效果;依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统,提高了识别关键词的能力。

【技术实现步骤摘要】
一种语音唤醒方法及装置
本专利技术涉及语音识别
尤其涉及一种语音唤醒方法及装置。
技术介绍
语音唤醒技术作为语音识别领域的一个子领域,是人机交互领域的重要研究内容之一。语音唤醒技术在语音流中检测指定关键词并在第一时间触发唤醒系统。通常的语音唤醒技术需要大量的关键词数据来进行训练,收集和标注数据需要耗费大量的资源,且关键词只能使用预先设置好的词。随着语音唤醒技术日渐成熟,用户个人定制关键词的需求逐渐增多,传统方法难以完成要求。常规自定义唤醒采用通用语音识别模型,对解码网络进行优化,只保存关键词相关路径。但这种方法模型没有对关键词进行优化,建模效果相对较差,而且解码阶段运算复杂度高,需要耗费较多资源。
技术实现思路
本专利技术实施例提出一种语音唤醒方法及装置,用于解决通用语音识别模型没有对关键词进行优化,建模效果相对较差,而且解码阶段运算复杂度高,需要耗费较多资源的问题。该技术方案如下:第一方面,本申请实施例提出一种语音唤醒方法,包括:接收用户语音;提取所述用户语音中每一帧的声学特征;将所述用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到所述第一音素序列中的每一个音素在所述用户语音中每一帧的后验概率;其中,所述第一音素序列是预定义的关键词的音素序列;对所述后验概率进行最小编辑距离加和置信度判决;若所述后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。在一种可能的实现中,所述训练后的关键词偏置声学模型包括:RNN-T网络和注意力偏置模块;所述RNN-T网络,包括声学编码器、文本编码器和联合建模编码器;其中,所述联合建模编码器与一个softmax函数连接,所述softmax函数的输出作为所述RNN-T网络的最终输出;所述注意力偏置模块,包括关键词编码器和注意力模块。在一种可能的实现中,所述方法还包括:根据所述关键词编码器的输出和所述文本编码器的上一状态输出,确定所述注意力模块的输出。在一种可能的实现中,所述方法还包括:将所述注意力偏置模块的输出与所述RNN-T网络的上一状态输出进行拼接,得到拼接结果;将所述拼接结果输入所述文本编码器中。在一种可能的实现中,所述方法还包括:在训练所述关键词偏置声学模型过程中,参考答案中的部分词序列和随机生成的词序列作为关键词,以音素序列的形式输入所述关键词编码器中。在一种可能的实现中,所述方法还包括:针对所述第一音素序列中的每一个音素,确定出其在所述用户语音中每一帧的后验概率中的最大值;将每一个音素在所述用户语音中每一帧的后验概率中的最大值加和得到后验概率加和置信度;将所述后验概率加和置信度除以第一音素序列的长度,得到第一后验概率加和置信度;若所述第一后验概率加和置信度大于预设阈值,则确定第一用户语音;其中,所述第一用户语音为包含关键词的用户语音。在一种可能的实现中,所述对所述后验概率进行最小编辑距离加和置信度判决,包括:对所述第一用户语音对应的音素序列中的每一个音素在该第一用户语音中每一帧的后验概率进行贪心解码,得到推测序列;根据所述第一音素序列与所述推测序列的对应关系,确定最小编辑距离概率加和置信度。在一种可能的实现中,所述若所述后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统,包括:将所述最小编辑距离概率加和置信度除以第一音素序列的长度,得到第一最小编辑距离概率加和置信度;在所述第一最小编辑距离概率加和置信度大于预设阈值的情况下,根据确定最小编辑距离概率加和置信度过程中所述第一音素序列的第一概率与所述推测序列的第二概率,确定近似似然值置信度;其中,所述第一音素序列的第一概率根据正确和替换错的时间点对应所述关键词的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应所述关键词的音素的概率确定;所述推测序列的第二概率根据正确和替换错的时间点对应所述推测序列的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应blank的概率确定;将所述近似似然值置信度除以第一音素序列的长度,得到第一近似似然值置信度;在所述第一近似似然值置信度大于预设阈值的情况下,触发所述唤醒系统。第二方面,本申请实施例还提出一种语音唤醒装置,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行如第一方面及各种可能的实现中的各个步骤。第三方面,本申请实施例还提出一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面及各种可能的实现中的各个步骤。由上述技术方案可知,本申请实施例通过增加一个注意力偏置模块,对关键词进行优化,加强了建模效果;依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统,提高了识别关键词的能力。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。图1为本申请实施例构建的关键词偏置声学模型;图2为本申请实施例提供的一种语音唤醒方法的流程示意图;图3为本申请实施例提供的三阶段判决示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。需要说明的是,本申请实施例的说明书和权利要求书中的术语“第一”是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一后验概率加和置信度是用于区别不同的后验概率加和置信度,而不是用于描述目标对象的特定顺序。在本申请实施例中,“示例性的”、“举例来说”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“举例来说”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“举例来说”或者“例如”等词旨在以具体方式呈现相关概念。在一种可能的实现中,采用通用语音识别模型识别用户语音中的关键词,触发唤醒系统。但是通用语音识别模型没有对关键词进行优化,建模效果相对较差,而且解码阶段运算复杂度高,需要耗费较多资源。为此,本申请实施例提出一种语音唤醒方法。需要说明的是,本申请提及的关键词为预设的触发唤醒系统的词语。图1为本申请实施例构建的关键词偏置声学模型,能够实现上述语音唤醒方法。参见图1,该关键词偏置声学模型包括:RNN-T网络和注意力偏置模块,用于加强模型中对关键词信息的建模。RNN-T网络包括声学编码器Encoder,其中,xt为输入的声学特征本文档来自技高网...

【技术保护点】
1.一种语音唤醒方法,其特征在于,包括:/n接收用户语音;/n提取所述用户语音中每一帧的声学特征;/n将所述用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到所述第一音素序列中的每一个音素在所述用户语音中每一帧的后验概率;其中,所述第一音素序列是预定义的关键词的音素序列;/n对所述后验概率进行最小编辑距离加和置信度判决;/n若所述后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。/n

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括:
接收用户语音;
提取所述用户语音中每一帧的声学特征;
将所述用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到所述第一音素序列中的每一个音素在所述用户语音中每一帧的后验概率;其中,所述第一音素序列是预定义的关键词的音素序列;
对所述后验概率进行最小编辑距离加和置信度判决;
若所述后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。


2.根据权利要求1所述的方法,其特征在于,所述训练后的关键词偏置声学模型包括:RNN-T网络和注意力偏置模块;
所述RNN-T网络,包括声学编码器、文本编码器和联合建模编码器;其中,所述联合建模编码器与一个softmax函数连接,所述softmax函数的输出作为所述RNN-T网络的最终输出;
所述注意力偏置模块,包括关键词编码器和注意力模块。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述关键词编码器的输出和所述文本编码器的上一状态输出,确定所述注意力模块的输出。


4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述注意力偏置模块的输出与所述RNN-T网络的上一状态输出进行拼接,得到拼接结果;
将所述拼接结果输入所述文本编码器中。


5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在训练所述关键词偏置声学模型过程中,参考答案中的部分词序列和随机生成的词序列作为关键词,以音素序列的形式输入所述关键词编码器中。


6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述第一音素序列中的每一个音素,确定出其在所述用户语音中每一帧的后验概率中的最大值;
将每一个音素在所述用户语音中每一帧的后验概率中的最大值加和得到后验概率加和置信度;
将所述后验概率加和置信度除以...

【专利技术属性】
技术研发人员:黎塔刘作桢张鹏远颜永红
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1