语音识别功能的唤醒方法及装置制造方法及图纸

技术编号:17616421 阅读:47 留言:0更新日期:2018-04-04 07:26
本发明专利技术是关于一种语音识别功能的唤醒方法及装置,其中,方法包括:获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;获取用户输入的当前语音信息;根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;根据所述置信度确定是否允许唤醒所述语音识别功能。通过该技术方案,可以保证唤醒词识别的准确率,从而提高语音识别功能唤醒的准确率,降低误唤醒。

The wake-up method and device of speech recognition function

The present invention is to wake up method and device, a voice recognition function wherein the method comprises: obtaining the wake-up function of speech recognition target wake word and at least one redundant word command; on the target words and awaken the at least one redundant command words were trained by the depth of the neural network, to awaken word recognition model get the current user input; voice information; according to the wake-up word recognition model determines the current voice information belonging to the target to awaken confidence words; according to the confidence level to determine whether to allow the wake-up speech recognition function. Through this technical scheme, the accuracy of the recognition of the wake-up words can be guaranteed, thus improving the accuracy of the awakening of the speech recognition function and reducing the false awakening.

【技术实现步骤摘要】
语音识别功能的唤醒方法及装置
本专利技术涉及语音识别
,尤其涉及一种语音识别功能的唤醒方法及装置。
技术介绍
目前,相关技术中可以通过语音对设备进行控制,设备不是实时录音并识别语音命令的,而是先识别是否收到唤醒词,如果收到唤醒词则激活,然后识别语音命令。而如果误识别了唤醒词,则会导致误唤醒。
技术实现思路
本专利技术实施例提供一种语音识别功能的唤醒方法及装置,用以实现提高语音识别功能唤醒的准确率,降低误唤醒。根据本专利技术实施例的第一方面,提供一种语音识别功能的唤醒方法,包括:获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;获取用户输入的当前语音信息;根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;根据所述置信度确定是否允许唤醒所述语音识别功能。在该实施例中,利用目标唤醒词和冗余命令词进行训练,得到唤醒词识别模型,进而通过该唤醒词识别模型确定当前语音信息属于目标唤醒词的置信度,这样,可以保证唤醒词识别的准确率,从而提高语音识别功能唤醒的准确率,降低误唤醒。在一个实施例中,所述根据所述置信度确定是否允许唤醒所述语音识别功能,包括:当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。在该实施例中,在当前语音信息属于目标唤醒词的置信度大于预设置信度时,才允许唤醒语音唤醒功能,从而降低语音唤醒功能误唤醒。在一个实施例中,所述利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型,包括:将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。在该实施例中,冗余命令词即说这些词时一定不会唤醒语音识别功能。这样,通过将目标唤醒词作为正例,冗余命令词作为负例进行训练,得到的唤醒词识别模型可以提高唤醒词识别的准确率,降低误唤醒。在一个实施例中,所述根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度,包括:获取所述当前语音信息对应的当前音频帧特征序列信息;将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。在该实施例中,将当前语音帧特征序列信息与目标唤醒词对应的目标识别模型序列进行对齐强制处理,进而从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围,并从该范围中选取出预设数量的目标音频帧,通过唤醒词识别模型和目标音频帧的特征信息确定当前语音信息属于目标唤醒词的置信度,进而确定是否唤醒语音唤醒功能。这样,有效地减少了语音唤醒的计算量,从而能应用于存在低计算资源限制的语音设备中。在一个实施例中,所述根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度,包括:使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。在该实施例中,将选出的全部目标语音帧对应的特征信息使用唤醒词识别模型计算对应的声学后验得分,对每个音素的多个声学后验得分选择其中的最大后验得分,并使用全部音素的最大后验得分计算得到当前语音信息属于目标唤醒词的置信度,这样,只需要计算目标音频帧的声学后验得分,无需计算所有的音频帧的得分,在保证识别结果的准确性的基础上,大大减少了计算量,缩短了识别当前语音信息所需的时长,提升了用户的使用体验。根据本专利技术实施例的第二方面,提供一种语音识别功能的唤醒装置,包括:第一获取模块,用于获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;训练模块,用于利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;第二获取模块,用于获取用户输入的当前语音信息;第一确定模块,用于根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;第二确定模块,用于根据所述置信度确定是否允许唤醒所述语音识别功能。在一个实施例中,所述第二确定模块包括:第一处理子模块,用于当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;第二处理子模块,用于当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。在一个实施例中,所述训练模块包括:第一确定子模块,用于将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;训练子模块,用于利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。在一个实施例中,所述第一确定模块包括:获取子模块,用于获取所述当前语音信息对应的当前音频帧特征序列信息;定位子模块,用于将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;选取子模块,用于计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;第二确定子模块,用于根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。在一个实施例中,所述第二确定子模块用于:使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种语音识别功能的唤醒方法的流程图。图2是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S105的流程图。图3是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S102的流程图。图4是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S104的流程图。图5是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S404的流程图。图6是根据一示例性实施例示出的一种语音识别功能的唤醒装置的框图。图7是根据本文档来自技高网...
语音识别功能的唤醒方法及装置

【技术保护点】
一种语音识别功能的唤醒方法,其特征在于,包括:获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;获取用户输入的当前语音信息;根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;根据所述置信度确定是否允许唤醒所述语音识别功能。

【技术特征摘要】
1.一种语音识别功能的唤醒方法,其特征在于,包括:获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;获取用户输入的当前语音信息;根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;根据所述置信度确定是否允许唤醒所述语音识别功能。2.根据权利要求1所述的方法,其特征在于,所述根据所述置信度确定是否允许唤醒所述语音识别功能,包括:当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。3.根据权利要求1所述的方法,其特征在于,所述利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型,包括:将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。4.根据权利要求1所述的方法,其特征在于,所述根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度,包括:获取所述当前语音信息对应的当前音频帧特征序列信息;将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。5.根据权利要求4所述的方法,其特征在于,所述根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度,包括:使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒...

【专利技术属性】
技术研发人员:谢书杰苏牧
申请(专利权)人:北京云知声信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1