命令词识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:30434902 阅读:12 留言:0更新日期:2021-10-24 17:33
本发明专利技术提供一种命令词识别方法、装置、电子设备和存储介质,所述方法包括:提取待激活语音指令的声学特征;对声学特征进行解码,得到待激活语音指令的解码结果;解码结果包括待激活语音指令中候选命令词的得分和候选命令词的音节参数;基于待激活语音指令的信噪比,以及候选命令词的音节参数,确定候选命令词的激活阈值;若得分小于激活阈值,则确定候选命令词为待激活语音指令的命令词。本发明专利技术的激活阈值能够根据不同场景和不同音节参数动态调整,避免不同场景下携带的噪声以及不同音节参数影响命令词的识别,提高了命令词的召回率,同时避免使用复杂算法识别命令词,降低了计算难度,提高了识别效率。提高了识别效率。提高了识别效率。

【技术实现步骤摘要】
命令词识别方法、装置、电子设备和存储介质


[0001]本专利技术涉及语音识别
,尤其涉及一种命令词识别方法、装置、电子设备和存储介质。

技术介绍

[0002]在传统的语音交互场景中,人们通过键盘、鼠标、触摸屏、按钮的方式实现人机交互,而语音作为人机交互最自然的方法,随着AI技术的进一步发展,语音命令词交互技术得到了广泛的应用。
[0003]目前语音命令词识别的交互方式主要有三种:一是通过按键触发命令词检出方法;二是通过语音唤醒触发命令词检出方法;三是非触发式命令词检出方法。然而,上述方法命令词的召回率较低,无法适用于不同的工业制造场景。

技术实现思路

[0004]本专利技术提供一种命令词识别方法、装置、电子设备和存储介质,用以解决现有技术中命令词的召回率较低的缺陷。
[0005]本专利技术提供一种命令词识别方法,包括:
[0006]提取待激活语音指令的声学特征;
[0007]对所述声学特征进行解码,得到所述待激活语音指令的解码结果;所述解码结果包括所述待激活语音指令中候选命令词的得分和所述候选命令词的音节参数;
[0008]基于所述待激活语音指令的信噪比,以及所述候选命令词的音节参数,确定所述候选命令词的激活阈值;
[0009]若所述得分小于所述激活阈值,则确定所述候选命令词为所述语音指令的命令词。
[0010]根据本专利技术提供的一种命令词识别方法,所述对所述声学特征进行解码,得到所述待激活语音指令的解码结果,包括:
[0011]基于图解码网络,对所述声学特征进行解码,得到所述待激活语音指令的解码结果;
[0012]其中,所述图解码网络是基于样本命令词的声学特征及其对应的解码结果训练得到的。
[0013]根据本专利技术提供的一种命令词识别方法,所述样本命令词的声学特征是对原始样本命令词的语音数据进行降噪处理后提取的。
[0014]根据本专利技术提供的一种命令词识别方法,所述基于所述待激活语音指令的信噪比,以及所述候选命令词的音节参数,确定所述候选命令词的激活阈值,包括:
[0015]基于所述待激活语音指令的信噪比、所述候选命令词的音节参数以及所述候选命令词的激活阈值之间的映射关系,确定所述候选命令词的激活阈值。
[0016]根据本专利技术提供的一种命令词识别方法,所述提取待激活语音指令的声学特征,
包括:
[0017]获取待激活的原始语音指令的语音数据;
[0018]对所述原始语音指令的语音数据进行降噪处理,得到所述待激活语音指令的语音数据,并对所述待激活语音指令的语音数据进行特征提取,得到所述待激活语音指令的声学特征。
[0019]根据本专利技术提供的一种命令词识别方法,所述确定所述候选命令词为所述待激活语音指令的命令词,之后还包括:激活所述待激活语音指令。
[0020]根据本专利技术提供的一种命令词识别方法,所述候选命令词的音节参数包括候选命令词的音节个数先验概率和/或音节类型先验概率。
[0021]本专利技术还提供一种命令词识别装置,包括:
[0022]特征提取单元,用于提取待激活语音指令的声学特征;
[0023]特征解码单元,用于对所述声学特征进行解码,得到所述待激活语音指令的解码结果;所述解码结果包括所述待激活语音指令中候选命令词的得分和所述候选命令词的音节参数;
[0024]阈值确定单元,用于基于所述待激活语音指令的信噪比,以及所述候选命令词的音节参数,确定所述候选命令词的激活阈值;
[0025]命令识别单元,用于若所述得分小于所述激活阈值,则确定所述候选命令词为所述待激活语音指令的命令词。
[0026]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述命令词识别方法的步骤。
[0027]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述命令词识别方法的步骤。
[0028]本专利技术提供的命令词识别方法、装置、电子设备和存储介质,基于待激活语音指令的信噪比,以及候选命令词的音节参数,确定候选命令词的激活阈值,从而使得激活阈值能够根据不同场景和不同音节参数动态调整,避免不同场景下携带的噪声以及不同音节参数影响命令词的识别,提高了命令词的召回率。同时基于激活阈值判断候选命令词是否作为待激活语音指令的命令词,避免使用复杂算法识别命令词,降低了计算难度,提高了识别效率。
附图说明
[0029]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]图1是本专利技术提供的命令词识别方法的流程示意图;
[0031]图2是本专利技术提供的又一命令词识别方法的流程示意图;
[0032]图3是本专利技术提供的命令词识别装置的结构示意图;
[0033]图4是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0034]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0035]目前语音命令词识别的交互方式主要有三种:一是通过按键触发命令词检出方法;二是通过语音唤醒触发命令词检出方法;三是非触发式命令词检出方法。然而,在不同的工业制造场景中,语音会混合有噪声,进而影响命令词的召回率,导致无法准确识别命令词。
[0036]对此,本专利技术提供一种命令词识别方法。图1是本专利技术提供的命令词识别方法的流程示意图,如图1所示,该方法包括如下步骤:
[0037]步骤110、提取待激活语音指令的声学特征。
[0038]具体地,待激活语音指令是指候选命令词的语音指令,该语音指令可以是通过语音设备实时采集得到的语音,也可以是通过语音设备采集得到的录音,本专利技术实施例对此不作具体限定。待激活语音指令的声学特征用于区分待激活语音指令中的各个单词,不同单词对应的声学特征不同。其中,声学特征可以通过Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)提取,也可以通过前端处理算法(FilterBank,Fbank)提取,还可以通过感知线性预测(Perceptual Linear Predictive,PLP)提取,本专利技术实施例对此不作具体限定。
[0039]步骤120、对声学特征进行解码,得到待激活语音指令的解码结果;解码结果包括待激活语音指令中候选命令词的得分和候选命令词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命令词识别方法,其特征在于,包括:提取待激活语音指令的声学特征;对所述声学特征进行解码,得到所述待激活语音指令的解码结果;所述解码结果包括所述待激活语音指令中候选命令词的得分和所述候选命令词的音节参数;基于所述待激活语音指令的信噪比,以及所述候选命令词的音节参数,确定所述候选命令词的激活阈值;若所述得分小于所述激活阈值,则确定所述候选命令词为所述待激活语音指令的命令词。2.根据权利要求1所述的命令词识别方法,其特征在于,所述对所述声学特征进行解码,得到所述待激活语音指令的解码结果,包括:基于图解码网络,对所述声学特征进行解码,得到所述待激活语音指令的解码结果;其中,所述图解码网络是基于样本命令词的声学特征及其对应的解码结果训练得到的。3.根据权利要求2所述的命令词识别方法,其特征在于,所述样本命令词的声学特征是对原始样本命令词的语音数据进行降噪处理后提取的。4.根据权利要求1至3任一项所述的命令词识别方法,其特征在于,所述基于所述待激活语音指令的信噪比,以及所述候选命令词的音节参数,确定所述候选命令词的激活阈值,包括:基于所述待激活语音指令的信噪比、所述候选命令词的音节参数以及所述候选命令词的激活阈值之间的映射关系,确定所述候选命令词的激活阈值。5.根据权利要求1至3任一项所述的命令词识别方法,其特征在于,所述提取待激活语音指令的声学特征,包括:获取待激活原始语音指令的语音数据;对所述原始语音指令的语音数...

【专利技术属性】
技术研发人员:王江蒋华晨奚少亨
申请(专利权)人:盛景智能科技嘉兴有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1