一种语音识别的方法、唤醒词检测的方法及装置制造方法及图纸

技术编号:20078066 阅读:35 留言:0更新日期:2019-01-15 01:33
本发明专利技术公开了一种唤醒词检测的方法,包括:获取待识别语音信息,待识别语音信息中包含目标字集合,目标字集合由重复的至少两组目标词组成,每组目标词包括至少一个目标字;根据待识别语音信息获取目标语音特征向量;通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合,语音识别模型用于输出语音信息中每个字所对应的概率分值,目标概率分值集合包括每个目标字所对应的目标概率分值;若目标概率分值集合满足语音唤醒条件,则确定待识别语音信息包含目标唤醒词,目标唤醒词属于唤醒词集合中的一个唤醒词。本发明专利技术公开了一种唤醒词检测装置及终端设备。本发明专利技术提升叠词式唤醒词的检测性能,具有较高的唤醒率,以及较低的误唤醒率。

A Speech Recognition Method, Wake-up Word Detection Method and Device

The invention discloses a wake-up word detection method, which includes: acquiring the speech information to be recognized, including the target word set, which consists of at least two groups of repetitive target words, each group of target words including at least one target word; acquiring the target speech feature vector based on the speech information to be recognized; and determining the target speech feature through the speech recognition model. The target probability score set corresponding to the vector, the speech recognition model is used to output the probability score corresponding to each word in the speech information. The target probability score set includes the target probability score corresponding to each target word. If the target probability score set satisfies the condition of speech awakening, it is determined that the speech information to be recognized contains the target wake-up word, and the target wake-up word belongs to the wake-up word set. A wake-up word. The invention discloses a wake-up word detection device and a terminal device. The invention improves the detection performance of reduplicated wake-up words, has higher wake-up rate and lower false wake-up rate.

【技术实现步骤摘要】
一种语音识别的方法、唤醒词检测的方法及装置
本专利技术涉及人工智能计算机领域,尤其涉及一种语音识别的方法、唤醒词检测的方法及装置。
技术介绍
随着智能语音设备开始推广,通过语音命令与智能设备进行人机交互已成为重要功能。在语音交互应用中,用户可以通过语音唤醒词来唤醒智能设备,因此智能设备的唤醒词检测性能对人机交互体验具有重大影响。目前,针对唤醒词检测可以采用基于动态时间弯折(dynamictimewarping,DTW)的方法,该方法将语音与预先录制的若干条同一唤醒词的录音进行声学特征的动态匹配,将匹配距离与预先设定的阈值比较,当距离小于阈值时,判断该语音为要检测的唤醒词。在中文语言应用的场景下,选择叠词作为唤醒词广受用户欢迎,同时选择叠词式唤醒词(例如“腾讯腾讯”)具有良好的唤醒性能,然而,基于目前提供的唤醒词检测方法,尚未针对叠词式唤醒词设计合理的方案,因此,在语音交互设备中,对于叠词式唤醒词的检测而言,其检测性能较差。
技术实现思路
本专利技术实施例提供了一种语音识别的方法、唤醒词检测的方法及装置,充分考虑到叠词的发音特征,利用语音识别模型对叠词中的的每个字进行分值计算,只有在分值满足条件的情况下才识别为唤醒词,从而提升叠词式唤醒词的检测性能,具有较高的唤醒率,以及较低的误唤醒率。有鉴于此,一种语音识别的方法,包括:获取待识别语音信息,其中,所述待识别语音信息中包含目标字集合,所述目标字集合由重复的至少两组目标词组成,每组目标词包括至少一个目标字;根据所述待识别语音信息获取目标语音特征向量;通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,其中,所述语音识别模型用于输出语音信息中每个字所对应的概率分值,所述目标概率分值集合包括每个目标字所对应的目标概率分值;若所述目标概率分值集合满足语音唤醒条件,则确定所述待识别语音信息包含目标唤醒词,其中,所述目标唤醒词属于唤醒词集合中的一个唤醒词;获取所述目标唤醒词所对应的目标语音识别结果;执行所述目标语音识别结果。本专利技术的第二方面提供了一种唤醒词检测的方法,包括:获取待识别语音信息,其中,所述待识别语音信息中包含目标字集合,所述目标字集合由重复的至少两组目标词组成,每组目标词包括至少一个目标字;根据所述待识别语音信息获取目标语音特征向量;通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,其中,所述语音识别模型用于输出语音信息中每个字所对应的概率分值,所述目标概率分值集合包括每个目标字所对应的目标概率分值;若所述目标概率分值集合满足语音唤醒条件,则确定所述待识别语音信息包含目标唤醒词,其中,所述目标唤醒词属于唤醒词集合中的一个唤醒词。本专利技术的第三方面提供了一种唤醒词检测装置,包括:获取模块,用于获取待识别语音信息,其中,所述待识别语音信息中包含目标字集合,所述目标字集合由重复的至少两组目标词组成,每组目标词包括至少一个目标字;所述获取模块,还用于根据所述待识别语音信息获取目标语音特征向量;确定模块,用于通过语音识别模型确定所述获取模块获取的所述目标语音特征向量所对应的目标概率分值集合,其中,所述语音识别模型用于输出语音信息中每个字所对应的概率分值,所述目标概率分值集合包括每个目标字所对应的目标概率分值;所述确定模块,还用于若所述目标概率分值集合满足语音唤醒条件,则确定所述待识别语音信息包含目标唤醒词,其中,所述目标唤醒词属于唤醒词集合中的一个唤醒词。本专利技术的第四方面提供了一种终端设备,包括:存储器、收发器、处理器以及总线系统;其中,所述存储器用于存储程序;所述处理器用于执行所述存储器中的程序,包括如下步骤:获取待识别语音信息,其中,所述待识别语音信息中包含目标字集合,所述目标字集合由重复的至少两组目标词组成,每组目标词包括至少一个目标字;根据所述待识别语音信息获取目标语音特征向量;通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,其中,所述语音识别模型用于输出语音信息中每个字所对应的概率分值,所述目标概率分值集合包括每个目标字所对应的目标概率分值;若所述目标概率分值集合满足语音唤醒条件,则确定所述待识别语音信息包含目标唤醒词,其中,所述目标唤醒词属于唤醒词集合中的一个唤醒词所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。本专利技术的第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。从以上技术方案可以看出,本专利技术实施例具有以下优点:本专利技术实施例中,提供了一种唤醒词检测的方法,首先,唤醒词检测装置获取待识别语音信息,待识别语音信息中包含目标字集合,该目标字集合由重复的至少两组目标词组成,每组目标词包括至少一个目标字,然后根据待识别语音信息获取目标语音特征向量,再通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合,语音识别模型用于输出语音信息中每个字所对应的概率分值,目标概率分值集合包括每个目标字所对应的目标概率分值,如果目标概率分值集合满足语音唤醒条件,那么唤醒词检测装置可以确定待识别语音信息包含目标唤醒词,目标唤醒词属于唤醒词集合中的一个唤醒词。通过上述方式,设计出专用于对叠词进行唤醒词检测的方案,充分考虑到叠词的发音特征,利用语音识别模型对叠词中的的每个字进行分值计算,只有在分值满足条件的情况下才识别为唤醒词,从而提升叠词式唤醒词的检测性能,具有较高的唤醒率,以及较低的误唤醒率。附图说明图1A为本专利技术实施例中唤醒词检测系统的一个架构示意图;图1B为本专利技术实施例中唤醒词检测逻辑的一个框架示意图;图2为本专利技术实施例中语音识别的方法一个实施例示意图;图3为本专利技术实施例中唤醒词检测的方法一个实施例示意图;图4为本专利技术实施例中基于叠词的语音识别模型一个结构示意图;图5为本专利技术应用场景中检测唤醒词的一个流程示意图;图6为本专利技术实施例中概率分值的一个实施例示意图;图7为本专利技术实施例中平滑分值的一个实施例示意图;图8为本专利技术实施例中唤醒词检测装置一个实施例示意图;图9为本专利技术实施例中唤醒词检测装置另一个实施例示意图;图10为本专利技术实施例中唤醒词检测装置另一个实施例示意图;图11为本专利技术实施例中唤醒词检测装置另一个实施例示意图;图12为本专利技术实施例中终端设备一个结构示意图。具体实施方式本专利技术实施例提供了一种语音识别的方法、唤醒词检测的方法及装置,充分考虑到叠词的发音特征,利用语音识别模型对叠词中的的每个字进行分值计算,只有在分值满足条件的情况下才识别为唤醒词,从而提升对于叠词式唤醒词进行检测的性能,具有较高的唤醒率,以及较低的误唤醒率。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这本文档来自技高网...

【技术保护点】
1.一种语音识别的方法,其特征在于,包括:获取待识别语音信息,其中,所述待识别语音信息中包含目标字集合,所述目标字集合由重复的至少两组目标词组成,每组目标词包括至少一个目标字;根据所述待识别语音信息获取目标语音特征向量;通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,其中,所述语音识别模型用于输出语音信息中每个字所对应的概率分值,所述目标概率分值集合包括每个目标字所对应的目标概率分值;若所述目标概率分值集合满足语音唤醒条件,则确定所述待识别语音信息包含目标唤醒词,其中,所述目标唤醒词属于唤醒词集合中的一个唤醒词;获取所述目标唤醒词所对应的目标语音识别结果;执行所述目标语音识别结果。

【技术特征摘要】
1.一种语音识别的方法,其特征在于,包括:获取待识别语音信息,其中,所述待识别语音信息中包含目标字集合,所述目标字集合由重复的至少两组目标词组成,每组目标词包括至少一个目标字;根据所述待识别语音信息获取目标语音特征向量;通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,其中,所述语音识别模型用于输出语音信息中每个字所对应的概率分值,所述目标概率分值集合包括每个目标字所对应的目标概率分值;若所述目标概率分值集合满足语音唤醒条件,则确定所述待识别语音信息包含目标唤醒词,其中,所述目标唤醒词属于唤醒词集合中的一个唤醒词;获取所述目标唤醒词所对应的目标语音识别结果;执行所述目标语音识别结果。2.一种唤醒词检测的方法,其特征在于,包括:获取待识别语音信息,其中,所述待识别语音信息中包含目标字集合,所述目标字集合由重复的至少两组目标词组成,每组目标词包括至少一个目标字;根据所述待识别语音信息获取目标语音特征向量;通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,其中,所述语音识别模型用于输出语音信息中每个字所对应的概率分值,所述目标概率分值集合包括每个目标字所对应的目标概率分值;若所述目标概率分值集合满足语音唤醒条件,则确定所述待识别语音信息包含目标唤醒词,其中,所述目标唤醒词属于唤醒词集合中的一个唤醒词。3.根据权利要求2所述的方法,其特征在于,所述待识别语音信息中还包括非目标字集合,所述非目标字集合包含至少一个非目标字;所述根据所述待识别语音信息获取目标语音特征向量之后,所述方法还包括:通过所述语音识别模型确定所述目标语音特征向量所对应的非目标概率分值,其中,所述非目标概率分值为所述非目标字集合的概率分值。4.根据权利要求2所述的方法,其特征在于,所述获取待识别语音信息,包括:从所述待识别语音信息中提取第一语音帧,其中,所述第一语音帧包括至少一个子语音帧;所述根据所述待识别语音信息获取目标语音特征向量,包括:根据所述第一语音帧生成第一语音特征向量;所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,包括:通过语音识别模型确定所述第一语音特征向量所对应的第一概率分值;所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后,所述方法还包括:若所述第一概率分值达到预设概率值门限,则确定所述第一语音帧属于第一目标字所在时间段内的语音信号,其中,所述第一目标字为所述目标字集合中的一个目标字;若所述第一概率分值未达到预设概率值门限,则执行所述获取所述待识别语音信息的步骤。5.根据权利要求4所述的方法,其特征在于,所述执行所述获取所述待识别语音信息的步骤,包括:从所述待识别语音信息中提取第二语音帧,其中,所述第二语音帧包括至少一个子语音帧;所述根据所述待识别语音信息获取目标语音特征向量,包括:根据所述第二语音帧生成第二语音特征向量;所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,包括:通过语音识别模型确定所述第二语音特征向量所对应的第二概率分值;通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后,所述方法还包括:若所述第二概率分值达到所述预设概率值门限,则确定所述第二语音帧属于第二目标字所在时间段内的语音信号,其中,所述第二目标字为所述第一目标字之后相邻的一个目标字;若所述第二概率分值未达到所述预设概率值门限,则执行所述获取所述待识别语音信息的步骤。6.根据权利要求5所述的方法,其特征在于,所述执行所述获取所述待识别语音信息的步骤,包括:从所述待识别语音信息中提取第三语音帧,其中,所述第三语音帧包括至少一个子语音帧;所述根据所述待识别语音信息获取目标语音特征向量,包括:根据所述第三语音帧生成第三语音特征向量;所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,包括:通过语音识别模型确定所述第三语音特征向量所对应的第三概率分值;所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后,所述方法还包括:若所述第三概率分值达到所述预设概率值门限,则确定所述第三语音帧属于第三目标字所在时间段内的语音信号,其中,所述第三目标字为所述第二目标字之后相邻的一个目标字;若所述第三概率分值未达到所述预设概率值门限,则执行所述获取所述待识别语音信息的步骤。7.根据权利要求6所述的方法,其特征在于,所述执行所述获取所述待识别语音信息的步骤,包括:从所述待识别语音信息中提取第四语音帧,其中,所述第四语音帧包括至少一个子语音帧;所述根据所述待识别语音信息获取目标语音特征向量...

【专利技术属性】
技术研发人员:高毅陈杰苏丹于蒙罗敏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1