The invention discloses a wake-up word detection method, which includes: acquiring the speech information to be recognized, including the target word set, which consists of at least two groups of repetitive target words, each group of target words including at least one target word; acquiring the target speech feature vector based on the speech information to be recognized; and determining the target speech feature through the speech recognition model. The target probability score set corresponding to the vector, the speech recognition model is used to output the probability score corresponding to each word in the speech information. The target probability score set includes the target probability score corresponding to each target word. If the target probability score set satisfies the condition of speech awakening, it is determined that the speech information to be recognized contains the target wake-up word, and the target wake-up word belongs to the wake-up word set. A wake-up word. The invention discloses a wake-up word detection device and a terminal device. The invention improves the detection performance of reduplicated wake-up words, has higher wake-up rate and lower false wake-up rate.
【技术实现步骤摘要】
一种语音识别的方法、唤醒词检测的方法及装置
本专利技术涉及人工智能计算机领域,尤其涉及一种语音识别的方法、唤醒词检测的方法及装置。
技术介绍
随着智能语音设备开始推广,通过语音命令与智能设备进行人机交互已成为重要功能。在语音交互应用中,用户可以通过语音唤醒词来唤醒智能设备,因此智能设备的唤醒词检测性能对人机交互体验具有重大影响。目前,针对唤醒词检测可以采用基于动态时间弯折(dynamictimewarping,DTW)的方法,该方法将语音与预先录制的若干条同一唤醒词的录音进行声学特征的动态匹配,将匹配距离与预先设定的阈值比较,当距离小于阈值时,判断该语音为要检测的唤醒词。在中文语言应用的场景下,选择叠词作为唤醒词广受用户欢迎,同时选择叠词式唤醒词(例如“腾讯腾讯”)具有良好的唤醒性能,然而,基于目前提供的唤醒词检测方法,尚未针对叠词式唤醒词设计合理的方案,因此,在语音交互设备中,对于叠词式唤醒词的检测而言,其检测性能较差。
技术实现思路
本专利技术实施例提供了一种语音识别的方法、唤醒词检测的方法及装置,充分考虑到叠词的发音特征,利用语音识别模型对叠词中的的每个字进行分值计算,只有在分值满足条件的情况下才识别为唤醒词,从而提升叠词式唤醒词的检测性能,具有较高的唤醒率,以及较低的误唤醒率。有鉴于此,一种语音识别的方法,包括:获取待识别语音信息,其中,所述待识别语音信息中包含目标字集合,所述目标字集合由重复的至少两组目标词组成,每组目标词包括至少一个目标字;根据所述待识别语音信息获取目标语音特征向量;通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合, ...
【技术保护点】
1.一种语音识别的方法,其特征在于,包括:获取待识别语音信息,其中,所述待识别语音信息中包含目标字集合,所述目标字集合由重复的至少两组目标词组成,每组目标词包括至少一个目标字;根据所述待识别语音信息获取目标语音特征向量;通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,其中,所述语音识别模型用于输出语音信息中每个字所对应的概率分值,所述目标概率分值集合包括每个目标字所对应的目标概率分值;若所述目标概率分值集合满足语音唤醒条件,则确定所述待识别语音信息包含目标唤醒词,其中,所述目标唤醒词属于唤醒词集合中的一个唤醒词;获取所述目标唤醒词所对应的目标语音识别结果;执行所述目标语音识别结果。
【技术特征摘要】
1.一种语音识别的方法,其特征在于,包括:获取待识别语音信息,其中,所述待识别语音信息中包含目标字集合,所述目标字集合由重复的至少两组目标词组成,每组目标词包括至少一个目标字;根据所述待识别语音信息获取目标语音特征向量;通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,其中,所述语音识别模型用于输出语音信息中每个字所对应的概率分值,所述目标概率分值集合包括每个目标字所对应的目标概率分值;若所述目标概率分值集合满足语音唤醒条件,则确定所述待识别语音信息包含目标唤醒词,其中,所述目标唤醒词属于唤醒词集合中的一个唤醒词;获取所述目标唤醒词所对应的目标语音识别结果;执行所述目标语音识别结果。2.一种唤醒词检测的方法,其特征在于,包括:获取待识别语音信息,其中,所述待识别语音信息中包含目标字集合,所述目标字集合由重复的至少两组目标词组成,每组目标词包括至少一个目标字;根据所述待识别语音信息获取目标语音特征向量;通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,其中,所述语音识别模型用于输出语音信息中每个字所对应的概率分值,所述目标概率分值集合包括每个目标字所对应的目标概率分值;若所述目标概率分值集合满足语音唤醒条件,则确定所述待识别语音信息包含目标唤醒词,其中,所述目标唤醒词属于唤醒词集合中的一个唤醒词。3.根据权利要求2所述的方法,其特征在于,所述待识别语音信息中还包括非目标字集合,所述非目标字集合包含至少一个非目标字;所述根据所述待识别语音信息获取目标语音特征向量之后,所述方法还包括:通过所述语音识别模型确定所述目标语音特征向量所对应的非目标概率分值,其中,所述非目标概率分值为所述非目标字集合的概率分值。4.根据权利要求2所述的方法,其特征在于,所述获取待识别语音信息,包括:从所述待识别语音信息中提取第一语音帧,其中,所述第一语音帧包括至少一个子语音帧;所述根据所述待识别语音信息获取目标语音特征向量,包括:根据所述第一语音帧生成第一语音特征向量;所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,包括:通过语音识别模型确定所述第一语音特征向量所对应的第一概率分值;所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后,所述方法还包括:若所述第一概率分值达到预设概率值门限,则确定所述第一语音帧属于第一目标字所在时间段内的语音信号,其中,所述第一目标字为所述目标字集合中的一个目标字;若所述第一概率分值未达到预设概率值门限,则执行所述获取所述待识别语音信息的步骤。5.根据权利要求4所述的方法,其特征在于,所述执行所述获取所述待识别语音信息的步骤,包括:从所述待识别语音信息中提取第二语音帧,其中,所述第二语音帧包括至少一个子语音帧;所述根据所述待识别语音信息获取目标语音特征向量,包括:根据所述第二语音帧生成第二语音特征向量;所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,包括:通过语音识别模型确定所述第二语音特征向量所对应的第二概率分值;通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后,所述方法还包括:若所述第二概率分值达到所述预设概率值门限,则确定所述第二语音帧属于第二目标字所在时间段内的语音信号,其中,所述第二目标字为所述第一目标字之后相邻的一个目标字;若所述第二概率分值未达到所述预设概率值门限,则执行所述获取所述待识别语音信息的步骤。6.根据权利要求5所述的方法,其特征在于,所述执行所述获取所述待识别语音信息的步骤,包括:从所述待识别语音信息中提取第三语音帧,其中,所述第三语音帧包括至少一个子语音帧;所述根据所述待识别语音信息获取目标语音特征向量,包括:根据所述第三语音帧生成第三语音特征向量;所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合,包括:通过语音识别模型确定所述第三语音特征向量所对应的第三概率分值;所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后,所述方法还包括:若所述第三概率分值达到所述预设概率值门限,则确定所述第三语音帧属于第三目标字所在时间段内的语音信号,其中,所述第三目标字为所述第二目标字之后相邻的一个目标字;若所述第三概率分值未达到所述预设概率值门限,则执行所述获取所述待识别语音信息的步骤。7.根据权利要求6所述的方法,其特征在于,所述执行所述获取所述待识别语音信息的步骤,包括:从所述待识别语音信息中提取第四语音帧,其中,所述第四语音帧包括至少一个子语音帧;所述根据所述待识别语音信息获取目标语音特征向量...
【专利技术属性】
技术研发人员:高毅,陈杰,苏丹,于蒙,罗敏,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。