语音识别方法、语音识别模型的训练方法和装置制造方法及图纸

技术编号:34546110 阅读:11 留言:0更新日期:2022-08-17 12:28
本公开关于一种语音识别方法、语音识别模型的训练方法和装置,其中,语音识别的方法包含:获取运动件的运动信号,以及采集的语音信号,对语音信号进行特征提取,生成语音特征,对运动信号进行频域特征提取,生成频谱特征,将语音特征和频谱特征,输入训练得到的语音识别模型,得到语音识别结果。本申请中,对于语音采集过程中,包含特定噪声的场景,在语音识别的过程中充分考虑了运动件产生的噪音信号,提高了语音识别的效果。了语音识别的效果。了语音识别的效果。

【技术实现步骤摘要】
语音识别方法、语音识别模型的训练方法和装置


[0001]本公开涉及语音识别
,尤其涉及一种语音识别方法、语音识别模型的训练方法和装置。

技术介绍

[0002]随着机器人的不断发展,机器人宠物越来越普及。然而,机器人宠物,例如足式机器人,在与人语音交互过程中,其是不断运动的。与传统固定的智能设备(如智能音箱)不同,由于机器宠物的不断运动,其自身会产生很多噪声,例如驱动电机的噪声,运动过程中关节部分机械传动噪声等等,这些噪声会对语音的识别产生很大的干扰。
[0003]此外,由于机器人时刻处于运动状态,因此其可能会距离用户非常远,此时由于自身噪声以及环境噪声的影响,就会导致用户的语音识别不准确,从而导致机器人无法准确响应用户的指令。

技术实现思路

[0004]本公开提供一种语音识别方法、语音识别模型的训练方法和装置,以至少解决相关技术中语音识别准确率较低的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种语音识别方法,应用在机器人上,所述机器人包括运动件,包括:
[0006]获取所述运动件的运动信号,以及采集的语音信号;其中,所述运动件用于驱动所述机器人运动;
[0007]对所述语音信号进行特征提取,生成语音特征;
[0008]对所述运动信号进行频域特征提取,生成频谱特征;
[0009]将所述语音特征和所述频谱特征,输入训练得到的语音识别模型,得到语音识别结果。
[0010]可选地,所述语音信号为多帧,各帧语音信号具有对应的语音特征;所述将所述语音特征和所述频谱特征,输入训练得到的语音识别模型,得到语音识别结果,包括:
[0011]将所述各帧语音信号的语音特征输入所述语音识别模型的第一特征提取层,得到所述第一特征提取层输出的各帧语音信号的第一中间向量;其中,所述第一特征提取层,包含多个卷积层;
[0012]将所述频谱特征输入所述语音识别模型的第二特征提取层,得到所述第二特征提取层输出的第二中间向量;其中,所述第二特征提取层,包含多个卷积层;
[0013]将所述第一中间向量和所述第二中间向量进行拼接,得到输入向量;
[0014]将所述输入向量输入所述语音识别模型的第三特征提取层,得到所述第三特征提取层输出的各帧语音信号对应的音素表征向量;
[0015]将所述各帧语音信号对应的音素表征向量,输入所述语音识别模型的输出层,以输出各帧语音信号对应音素的后验概率;
[0016]根据所述各帧语音信号对应音素的后验概率,生成所述语音识别结果。
[0017]可选地,所述对所述语音信号进行特征提取,生成语音特征,包括:
[0018]对所述语音信号进行分帧,以生成多帧语音信号;
[0019]对各帧语音信号,进行特征提取,生成所述各帧语音信号的梅尔谱mel特征。
[0020]可选地,所述获取所述运动件的运动信号,包括:
[0021]对多个运动件的运动信号进行监测,以得到所述多个运动件的运动信号。
[0022]可选地,所述运动件为电机,所述运动信号为所述电机的控制信号,所述控制信号用于表征所述电机的转速或加速度。
[0023]根据本公开实施例的第二方面,提供一种语音识别模型的训练方法,包括:
[0024]获取训练样本,所述训练样本中包含采集的语音信号,以及运动件的运动信号;
[0025]对所述语音信号进行特征提取,生成语音特征;
[0026]对所述运动信号进行频域特征提取,生成频谱特征;
[0027]根据所述语音特征和所述频谱特征,输入所述语音识别模型得到语音识别结果;
[0028]根据所述语音识别结果与所述训练样本的标注结果之间的差异,对所述语音识别模型进行训练。
[0029]可选地,所述运动件为电机,所述运动信号为所述电机的控制信号,所述控制信号用于表征所述电机的转速或加速度。
[0030]根据本公开实施例的第三方面,提供一种语音识别装置,包括:
[0031]获取模块,用于获取所述运动件的运动信号,以及采集的语音信号;其中,所述运动件用于带动所述机器人运动;
[0032]第一提取模块,用于对所述语音信号进行特征提取,生成语音特征;
[0033]第二提取模块,用于对所述运动信号进行频域特征提取,生成频谱特征;
[0034]识别模块,用于将所述语音特征和所述频谱特征输入训练得到的语音识别模型,得到语音识别结果。
[0035]可选地,所述语音信号为多帧,各帧语音信号具有对应的语音特征;所述识别模块,具体用于:
[0036]将所述各帧语音信号的语音特征输入所述语音识别模型的第一特征提取层,得到所述第一特征提取层输出的各帧语音信号的第一中间向量;其中,所述第一特征提取层,包含多个层卷积层;
[0037]将所述频谱特征输入所述语音识别模型的第二特征提取层,得到所述第二特征提取层输出的第二中间向量;其中,所述第二特征提取层,包含多个层卷积层;
[0038]将所述第一中间向量和所述第二中间向量进行拼接,得到输入向量;
[0039]将所述输入向量输入所述语音识别模型的第三特征提取层,得到所述第三特征提取层输出的各帧语音信号对应的音素表征向量;
[0040]将所述各帧语音信号对应的音素表征向量,输入所述语音识别模型的输出层,以输出各帧语音信号对应音素的后验概率;
[0041]根据所述各帧语音信号对应音素的后验概率,生成所述语音识别结果。
[0042]可选地,所述第一提取模块,具体用于:
[0043]对所述语音信号进行分帧,以生成多帧语音信号;
[0044]对各帧语音信号,进行特征提取,生成所述各帧语音信号的梅尔谱mel特征。
[0045]可选地,所述获取模块,具体用于:
[0046]对多个运动件的运动信号进行监测,以得到所述多个运动件的运动信号。
[0047]可选地,所述运动件为电机,所述运动信号为所述电机的控制信号,所述控制信号用于表征所述电机的转速或加速度。
[0048]根据本公开实施例的第四方面,提供一种语音识别模型的训练装置,包括:
[0049]获取模块,用于获取训练样本,所述训练样本中包含采集的语音信号,以及运动件的
[0050]运动信号;
[0051]第一生成模块,用于对所述语音信号进行特征提取,生成语音特征;
[0052]第二生成模块,用于对所述运动信号进行频域特征提取,生成频谱特征;
[0053]识别模块,用于根据所述语音特征和所述频谱特征,输入所述语音识别模型得到语音识别结果;
[0054]训练模块,用于根据所述语音识别结果与所述训练样本的标注结果之间的差异,对所述语音识别模型进行训练。
[0055]可选地,所述运动件为电机,所述运动信号为所述电机的控制信号,所述控制信号用于表征所述电机的转速或加速度。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,应用在机器人上,所述机器人包括运动件,其特征在于,包括:获取所述运动件的运动信号,以及采集的语音信号;其中,所述运动件用于驱动所述机器人运动;对所述语音信号进行特征提取,生成语音特征;对所述运动信号进行频域特征提取,生成频谱特征;将所述语音特征和所述频谱特征,输入训练得到的语音识别模型,得到语音识别结果。2.如权利要求1所述的语音识别方法,其特征在于,所述语音信号为多帧,各帧语音信号具有对应的语音特征;所述将所述语音特征和所述频谱特征,输入训练得到的语音识别模型,得到语音识别结果,包括:将所述各帧语音信号的语音特征输入所述语音识别模型的第一特征提取层,得到所述第一特征提取层输出的各帧语音信号的第一中间向量;其中,所述第一特征提取层,包含多个卷积层;将所述频谱特征输入所述语音识别模型的第二特征提取层,得到所述第二特征提取层输出的第二中间向量;其中,所述第二特征提取层,包含多个卷积层;将所述第一中间向量和所述第二中间向量进行拼接,得到输入向量;将所述输入向量输入所述语音识别模型的第三特征提取层,得到所述第三特征提取层输出的各帧语音信号对应的音素表征向量;将所述各帧语音信号对应的音素表征向量,输入所述语音识别模型的输出层,以输出各帧语音信号对应音素的后验概率;根据所述各帧语音信号对应音素的后验概率,生成所述语音识别结果。3.如权利要求1所述的语音识别方法,其特征在于,所述对所述语音信号进行特征提取,生成语音特征,包括:对所述语音信号进行分帧,以生成多帧语音信号;对各帧语音信号,进行特征提取,生成所述各帧语音信号的梅尔谱mel特征。4.如权利要求1所述的语音识别方法,其特征在于,所述获取所述运动件的运动信号,包括:对多个运动件的运动信号进行监测,以得到所述多个运动件的运动信号。5.如权利要求1

4任一所述的语音识别方法,其特征在于,所述运动件为电机,所述运动信号为所述电机的控制信号,所述控制信号用于表征所述电机的转速或加速度。6.一种语音识别模型的训练方法,其特征在于,获取训练样本,所述训练样本中包含采集的语音信号,以及运动件的运动信号;对所述语音信号进行特征提取,生成语音特征;对所述运动信号进行频域特征提取,生成频谱特征;根据所述语音特征和所述频谱特征,输入所述语音识别模型得到语音识别结果;根据所述语音识别结果与所述训练样本的标注结果之间的差异,对所述语音识别模型进行训练。7.如权利要求6任一所述的语音识别模型的训练方法,其特征在于,所述运动件为电机,所述运动信号为所述电机的控制信号,所述控制信号用于表征所述电机的转速或加速度。
8.一种语音识别装置,其特征在于,包括:获取模块,用于获取所述运动件的运动信号,以及采集的语音信号;其中,所述运动件用于带动所述机器人运动;第一提取模块,用于对所述语音信号进行特征提取,生成语音特征;第二提取模块,用于对所述运动信号进行频域特征提取,生成频谱特征;识别模块,用于将所述语音特征和所述频谱特征输入训练得到的语音识别模型,得到语音识别结果。9.如权利要求8所述的语音识别装置,其特征在于,所述语音信号为多帧,各帧语音信号具有对应的语音特征;所述识别模块,具体用于:将所述各帧语音信号的语音特征输入所述语音识别模型的第一特征提取层,得到所述第一特征提取层输出的各帧语音信号的第一中间向量;其中,所述第一特征提取层,包含多个层卷积层;将所述频谱特征输入所述语音识别模型的第二特征提...

【专利技术属性】
技术研发人员:庄伟基胡升华高鹏王育军
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1