【技术实现步骤摘要】
语音命令识别方法、装置、存储介质及计算机设备
本申请涉及语音
,具体涉及一种语音命令识别方法、装置、存储介质及计算机设备。
技术介绍
在语音唤醒场景中,通常通过对音频进行识别,再依据识别结果判断是否执行唤醒动作。音素是语音的自然属性划分出来的最小语音单位,音素持续时间长短不一,当音频数据量跨越一个音素的长度时,会造成识别效果下降,现有技术中,对音频识别的模型一般是针对整段音频进行识别,数据量远远超于音素的长度,识别时往往不考虑每个音素的准确性,而只得到整体的识别结果,造成识别效果差,对命令的识别准确率不高。
技术实现思路
本申请的主要目的为提供一种语音命令识别方法、装置、存储介质、计算机设备及语音识别方法,旨在解决现有技术中语音命令识别准确率不够高的技术问题。基于上述专利技术目的,本申请实施例提出一种语音命令识别方法,包括:获取N帧音素数据;将所述音素数据以M帧为一个单元,依次输入预设的预测模型进行计算,得到得到N/M个对应的预测结果,所述预测结果包括预测的音素及其概率值,所 ...
【技术保护点】
1.一种语音命令识别方法,其特征在于,包括:/n获取N帧音素数据;/n将所述音素数据以M帧为一个单元,依次输入预设的预测模型进行计算,得到得到N/M个对应的预测结果,所述预测结果包括预测的音素及其概率值,所述预测模型基于多头注意力机制构建,其中M<N,M及N为正整数,且N为M的倍数,不同类别的音素由不同帧数的音素数据构成,M小于所有类别音素的帧数中的最小值;/n将所述预测的音素按输出顺序拼接成预测词;/n当所述预测词包含预设的命令词时,执行所述命令词对应的动作,当所述预测词不包含所述命令词或者只包含部分所述命令词时,则不执行所述命令词对应的动作。/n
【技术特征摘要】
1.一种语音命令识别方法,其特征在于,包括:
获取N帧音素数据;
将所述音素数据以M帧为一个单元,依次输入预设的预测模型进行计算,得到得到N/M个对应的预测结果,所述预测结果包括预测的音素及其概率值,所述预测模型基于多头注意力机制构建,其中M<N,M及N为正整数,且N为M的倍数,不同类别的音素由不同帧数的音素数据构成,M小于所有类别音素的帧数中的最小值;
将所述预测的音素按输出顺序拼接成预测词;
当所述预测词包含预设的命令词时,执行所述命令词对应的动作,当所述预测词不包含所述命令词或者只包含部分所述命令词时,则不执行所述命令词对应的动作。
2.如权利要求1所述的语音命令识别方法,其特征在于,所述将所述音素数据以M帧为一个单元,依次输入预设的预测模型进行计算,得到N/M个对应的预测结果的步骤,包括:
将每次输入的M帧所述指定音素数据进行计算,得到相应的第一特征矩阵;
将各所述第一特征矩阵输入至预设的全连接层进行转换计算,得到相应的第二特征矩阵;
将各所述第二特征矩阵依次输入预设的多头注意力机制网络进行选择计算,得到对应的第三特征矩阵;
将各所述第三特征矩阵输入到vector层进行计算,得到对各所述第三特征矩阵的特征向量;
将各所述特征向量输入softmax层进行计算,得到N/M个音素类别及其概率值。
3.如权利要求2所述的语音命令识别方法,其特征在于,所述多头注意力机制网络由多个所述多头注意力层首尾连接构成,所述将各所述第二特征矩阵依次输入预设的多头注意力机制网络进行选择计算,得到对应的第三特征矩阵的步骤,包括:
将各所述第二特征矩阵依次输入第一层多头注意力层进行计算,得到相应的第一结果;
将各所述第一结果输入第二层多头注意力层进行计算,得到相应的第二结果,如此以上一输出数据为下一输入数据的方式遍历各所述多头注意力层,得到对应的第三特征矩阵。
4.如权利要求3所述的语音命令识别方法,其特征在于,所述第二特征矩阵的列数为J,所述多头注意力机制网络由多层多头注意力层构成,每层的注意力头数量为k,每个所述注意力头计算矩阵的列数为w,且所述J、k以及w的关系满足公式w*k=J,J、k以及w为正整数。
5.如权利要求4所述的语音命令识别方法,其特征在于,所述多头注意力机制网络中所述多头注意力层首尾连接,其中,以k值最大的多头注意力层作为第一层,按k值逐渐减小至最小再逐渐增加至最大的顺序,依次连接各所述多头注意力层。
6.如权利要求1所述的语音命令识别方法,其特征在于,所述获取N帧音素数据步骤之前,包括...
【专利技术属性】
技术研发人员:徐泓洋,王广新,杨汉丹,
申请(专利权)人:深圳市友杰智新科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。