一种语音唤醒方法及装置制造方法及图纸

技术编号:15507892 阅读:140 留言:0更新日期:2017-06-04 02:23
本发明专利技术是关于一种语音唤醒方法及装置,其中,方法包括:获取输入的当前语音信息对应的当前音频帧特征序列信息;将当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理,从当前音频帧序列信息中定位出与目标声学模型序列信息中的每个音素对应的音频帧的范围;计算每个音频帧的声学似然评分,并从每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息,确定当前语音信息属于目标唤醒词的置信度;根据置信度确定是否允许唤醒语音唤醒功能。通过该技术方案,效地减少了语音唤醒的计算量,从而能应用于存在低计算资源限制的语音设备中。

Voice wakeup method and device

The present invention relates to a method and device for voice wake, wherein the method comprises the following steps: acquiring the voice information corresponding to the input of the current audio frame sequence information; the current audio frame sequence information and the target wake target acoustic model sequence information word corresponding to the forced alignment, from the current audio frame sequence information in positioning range each audio frame corresponding to the target phoneme sequence information in the acoustic model; acoustic likelihood score is calculated for each audio frame, and the range of each audio frame is selected in accordance with preset number of target audio frames design requirements; according to the characteristic information of the acoustic model and target audio frame corresponding to the use of the depth of the neural network modeling sure, the confidence of speech information belongs to the target word awakened; according to the degree of confidence to determine whether to allow voice wake up function. The technical scheme effectively reduces the amount of computation of speech wakeup so as to be applied to a speech device with a low computing resource limitation.

【技术实现步骤摘要】
一种语音唤醒方法及装置
本专利技术涉及语音识别
,尤其涉及一种语音唤醒方法及装置。
技术介绍
目前,在对语音唤醒功能的唤醒词进行识别时,是采用深度学习算法对用户输入的整个语音信息进行识别,计算量比较大,耗时长。
技术实现思路
本专利技术实施例提供一种语音唤醒方法及装置,用以减少语音唤醒的计算量,从而使语音唤醒方法能应用于存在低计算资源限制的语音设备中。根据本专利技术实施例的第一方面,提供一种语音唤醒方法,包括:获取输入的当前语音信息对应的当前音频帧特征序列信息;将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围;计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度;根据所述置信度确定是否允许唤醒所述语音唤醒功能。在该实施例中,将当前语音帧特征序列信息与目标唤醒词对应的目标声学模型序列进行对齐强制处理,进而从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围,并从该范围中选取出预设数量的目标音频帧,通过使用深度神经网络建模的声学模型和目标音频帧的特征信息确定当前语音信息属于目标唤醒词的置信度,进而确定是否唤醒语音唤醒功能。这样,有效地减少了语音唤醒的计算量,从而能应用于存在低计算资源限制的语音设备中。在一个实施例中,将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围,包括:将所述当前音频帧序列信息与使用子空间聚类高斯混合方法对所述目标唤醒词进行建模得到的目标声学模型序列信息进行强制对齐处理,以确定所述目标声学模型序列信息中每个音节的每个音素与所述当前语音帧特征序列信息中音频帧的范围之间的对应关系。在该实施例中,利用子空间聚类高斯混合方法确定当前语音信息中与目标唤醒词的每个音素对应的音频帧的范围,从而缩小语音唤醒的计算量。在一个实施例中,所述从所述音频帧的范围中选取出符合预设要求的预设数量的目标音频帧,包括:从与每个音素对应的音频帧的范围中选取出声学似然评分大于或者等于预设评分和/或物理位置满足预设物理位置的预设数量的目标音频帧。在该实施例中,预设数量可以远小于音频帧的范围的数量,例如,某个音素对应的音频帧的范围为0至30帧,假设预设数量为5帧,则可以从0至30帧的音频帧中选择出声学似然评分高的5帧音频帧,还可以选择同时根据声学似然评分和物理位置进行选择,如选择出3帧音频帧高的帧,其他2帧按照物理位置进行选择,如选择处于中间位置的第10帧和第20帧,从而保证选取出的目标音频帧的准确性。在一个实施例中,所述根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度,包括:使用深度神经网络建模的声学模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。在该实施例中,将选出的全部目标语音帧对应的特征信息使用深度神经网络建模的声学模型计算对应的声学后验得分,对每个音素的多个声学后验得分选择其中的最大后验得分,并使用全部音素的最大后验得分计算得到当前语音信息属于目标唤醒词的置信度,这样,只需要计算目标音频帧的声学后验得分,无需计算所有的音频帧的得分,在保证识别结果的准确性的基础上,大大减少了计算量,缩短了识别当前语音信息所需的时长,提升了用户的使用体验。在一个实施例中,所述根据所述置信度确定是否允许唤醒所述语音唤醒功能,包括:当所述置信度大于或者等于预设置信度时,确定允许唤醒所述语音唤醒功能;当所述置信度小于所述预设置信度时,确定不允许唤醒所述语音唤醒功能。在该实施例中,在当前语音信息属于目标唤醒词的置信度大于或者等于预设置信度时,才允许唤醒语音唤醒功能,从而避免语音唤醒功能误唤醒。根据本专利技术实施例的第二方面,提供一种语音唤醒装置,包括:获取模块,用于获取输入的当前语音信息对应的当前音频帧特征序列信息;对齐模块,用于将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围;选取模块,用于计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;确定模块,用于根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度;唤醒模块,用于根据所述置信度确定是否允许唤醒所述语音唤醒功能。在一个实施例中,所述对齐模块用于:将所述当前音频帧序列信息与使用子空间聚类高斯混合方法对所述目标唤醒词进行建模得到的目标声学模型序列信息进行强制对齐处理,以确定所述目标声学模型序列信息中每个音节的每个音素与所述当前语音帧特征序列信息中音频帧的范围之间的对应关系。在一个实施例中,所述选取模块用于:从与每个音素对应的音频帧的范围中选取出声学似然评分大于或者等于预设评分和/或物理位置满足预设物理位置的预设数量的目标音频帧。在一个实施例中,所述确定模块包括:第一计算子模块,用于使用深度神经网络建模的声学模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;选取子模块,用于从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;第二计算子模块,用于根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。在一个实施例中,所述唤醒模块包括:第一处理子模块,用于当所述置信度大于或者等于预设置信度时,确定允许唤醒所述语音唤醒功能;第二处理子模块,用于当所述置信度小于所述预设置信度时,确定不允许唤醒所述语音唤醒功能。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种语音唤醒方法的流程图。图2是根据一示例性实施例示出的另一种语音唤醒方法的流程图。图3是根据一示例性实施例示出的又一种语音唤醒方法的流程图。图4是根据一示例性实施例示出的一种语音唤醒方法中步骤S104的流程图。图5是根据一示例性实施例示出的一种语音唤醒方法中步骤S105的流程图。图6是根据一示例性实施例示出的一种语音唤醒装置的框图。图7是根据一示例性实施例示出本文档来自技高网...
一种语音唤醒方法及装置

【技术保护点】
一种语音唤醒方法,其特征在于,包括:获取输入的当前语音信息对应的当前音频帧特征序列信息;将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围;计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度;根据所述置信度确定是否允许唤醒所述语音唤醒功能。

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括:获取输入的当前语音信息对应的当前音频帧特征序列信息;将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围;计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度;根据所述置信度确定是否允许唤醒所述语音唤醒功能。2.根据权利要求1所述的方法,其特征在于,所述将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围,包括:将所述当前音频帧序列信息与使用子空间聚类高斯混合方法对所述目标唤醒词进行建模得到的目标声学模型序列信息进行强制对齐处理,以确定所述目标声学模型序列信息中每个音节的每个音素与所述当前语音帧特征序列信息中音频帧的范围之间的对应关系。3.根据权利要求2所述的方法,其特征在于,所述从所述音频帧的范围中选取出符合预设要求的预设数量的目标音频帧,包括:从与每个音素对应的音频帧的范围中选取出声学似然评分大于或者等于预设评分和/或物理位置满足预设物理位置的预设数量的目标音频帧。4.根据权利要求3所述的方法,其特征在于,所述根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度,包括:使用深度神经网络建模的声学模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。5.根据权利要求1所述的方法,其特征在于,所述根据所述置信度确定是否允许唤醒所述语音唤醒功能,包括:当所述置信度大于或者等于预设置信度时,...

【专利技术属性】
技术研发人员:张军苏牧梁家恩
申请(专利权)人:北京云知声信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1