语音识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36183169 阅读:66 留言:0更新日期:2022-12-31 20:41
本发明专利技术提供一种语音识别方法、装置、电子设备和存储介质,方法包括:获取待识别语音;基于噪音编码模型,对待识别语音的声学特征进行噪音编码,得到待识别语音的噪音特征,噪音特征用于表征所述待识别语音所携带噪音的特征;基于语音识别模型,应用待识别语音的声学特征和噪音特征进行语音识别,得到待识别语音的语音识别结果;语音识别模型是基于第二样本语音的声学特征和噪音特征,以及第二样本语音的语音识别标签训练得到的。本发明专利技术提供的方法、装置、电子设备和存储介质,结合噪音特征和声学特征进行语音识别,提高了语音识别以及后续语音处理例如语音唤醒的抗噪能力。音处理例如语音唤醒的抗噪能力。音处理例如语音唤醒的抗噪能力。

【技术实现步骤摘要】
语音识别方法、装置、电子设备和存储介质


[0001]本专利技术涉及语音处理
,尤其涉及一种语音识别方法、装置、电子设备和存储介质。

技术介绍

[0002]语音唤醒是指用户通过说出唤醒词来唤醒电子设备,使电子设备进入到等待语音指令的状态或使电子设备直接执行预定语音指令。
[0003]为了提高语音唤醒技术的抗噪性能,目前的方案是在干净的唤醒语音中加入噪音,以模拟噪音环境下的说话声,并将加噪后的唤醒语音作为语音唤醒模型训练所用的正例样本。
[0004]但是,由于正例样本中的噪音是人为加入的,与环境真实采集的唤醒语音存在区别,且程序化的加噪方式为唤醒语音带来的共性特征也容易被语音唤醒模型学习到,导致语音唤醒的抗噪效果受到限制。

技术实现思路

[0005]本专利技术提供一种语音识别方法、装置、电子设备和存储介质,用以解决现有技术中语音唤醒抗噪效果受限的缺陷。
[0006]本专利技术提供一种语音识别方法,包括:
[0007]获取待识别语音;
[0008]基于噪音编码模型,对所述待识别语音的声学特征进行噪音编码,得到所述待识别语音的噪音特征,所述噪音特征用于表征所述待识别语音所携带噪音的特征;
[0009]基于语音识别模型,应用所述待识别语音的声学特征和噪音特征进行语音识别,得到所述待识别语音的语音识别结果;所述语音识别模型是基于第二样本语音的声学特征和噪音特征,以及所述第二样本语音的语音识别标签训练得到的。
[0010]根据本专利技术提供的一种语音识别方法,所述语音识别模型包括降噪特征提取层和分类层;
[0011]所述基于语音识别模型,应用所述待识别语音的声学特征和噪音特征进行语音识别,得到所述待识别语音的语音识别结果,包括:
[0012]基于所述降噪特征提取层,提取所述声学特征与所述噪音特征相区别的特征,得到降噪特征;
[0013]基于所述分类层,应用所述降噪特征进行特征分类,得到所述语音识别结果。
[0014]根据本专利技术提供的一种语音识别方法,所述降噪特征提取层包括特征转换层、特征合并层和高层提取层;
[0015]所述基于所述降噪特征提取层,提取所述声学特征与所述噪音特征相区别的特征,得到降噪特征,包括:
[0016]基于所述特征转换层,对所述声学特征和/或所述噪音特征进行特征转换,得到同
一特征空间下的声学转换特征和噪音转换特征;
[0017]基于所述特征合并层,对所述同一特征空间下的声学转换特征和噪音转换特征进行特征合并,得到合并特征;
[0018]基于所述高层提取层,对所述合并特征进行高层特征提取,得到所述降噪特征。
[0019]根据本专利技术提供的一种语音识别方法,所述特征转换层包括声学特征转换层和噪音特征转换层;
[0020]所述基于所述特征转换层,对所述声学特征和/或所述噪音特征进行特征转换,得到同一特征空间下的声学转换特征和噪音转换特征,包括:
[0021]基于所述声学特征转换层,对所述声学特征进行特征转换,得到所述声学转换特征;
[0022]基于所述噪音特征转换层,对所述噪音特征进行特征转换,得到所述噪音转换特征。
[0023]根据本专利技术提供的一种语音识别方法,所述噪音编码模型与特征分类模型构成语音分类模型,所述语音分类模型是基于第一样本语音的声学特征,以及表征所述第一样本语音是否为带噪语音的噪音标签训练得到的,所述特征分类模型用于基于所述噪音编码模型输出的所述第一样本语音的噪音特征,确定所述第一样本语音是否为带噪语音。
[0024]根据本专利技术提供的一种语音识别方法,所述噪音编码模型基于如下步骤确定:
[0025]基于初始分类模型中的初始噪音编码模型,对所述第一样本语音的声学特征进行噪音编码,得到初始噪音特征;
[0026]基于初始分类模型中的初始特征分类模型,应用所述初始噪音特征,确定所述第一样本语音的语音分类结果;
[0027]基于所述第一样本语音的噪音标签和所述语音分类结果,对所述初始分类模型进行参数迭代,得到语音分类模型;
[0028]基于所述语音分类模型中参数迭代后的初始噪音编码模型,确定所述噪音编码模型。
[0029]根据本专利技术提供的一种语音识别方法,所述语音识别模型的训练步骤包括:
[0030]确定初始识别模型;
[0031]基于所述噪音编码模型,对所述第二样本语音的声学特征进行噪音编码,得到所述第二样本语音的噪音特征;
[0032]基于所述初始识别模型,应用所述第二样本语音的声学特征和噪音特征进行语音识别,得到所述第二样本语音的语音识别结果;
[0033]基于所述第二样本语音的语音识别结果和语音识别标签,对所述初始识别模型进行参数迭代,得到所述语音识别模型。
[0034]根据本专利技术提供的一种语音识别方法,所述基于所述第二样本语音的语音识别结果和语音识别标签,对所述初始识别模型进行参数迭代,得到所述语音识别模型,包括:
[0035]基于所述第二样本语音的语音识别结果和语音识别标签,对所述噪音编码模型和所述初始识别模型进行参数迭代,得到参数迭代后的噪音编码模型,以及所述语音识别模型;
[0036]将所述参数迭代后的噪音编码模型作为所述噪音编码模型。
[0037]根据本专利技术提供的一种语音识别方法,所述语音识别结果为音素分类结果;
[0038]所述基于语音识别模型,应用所述待识别语音的声学特征和噪音特征进行语音识别,得到所述待识别语音的语音识别结果,之后还包括:
[0039]基于所述音素分类结果进行语音唤醒。
[0040]本专利技术还提供一种语音识别装置,包括:
[0041]语音获取单元,用于获取待识别语音;
[0042]噪音编码单元,用于基于噪音编码模型,对所述待识别语音的声学特征进行噪音编码,得到所述待识别语音的噪音特征,所述噪音特征用于表征所述待识别语音所携带噪音的特征;
[0043]语音识别单元,用于基于语音识别模型,应用所述待识别语音的声学特征和噪音特征进行语音识别,得到所述待识别语音的语音识别结果;所述语音识别模型是基于第二样本语音的声学特征和噪音特征,以及所述第二样本语音的语音识别标签训练得到的。
[0044]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音识别方法。
[0045]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
[0046]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
[0047]本专利技术提供的语音识别方法、装置、电子设备和存储介质,通过语音分类模型中的噪音编码模型编码得到用于判断待识别语音是否为带噪语音的噪音特征,并结合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别语音;基于噪音编码模型,对所述待识别语音的声学特征进行噪音编码,得到所述待识别语音的噪音特征,所述噪音特征用于表征所述待识别语音所携带噪音的特征;基于语音识别模型,应用所述待识别语音的声学特征和噪音特征进行语音识别,得到所述待识别语音的语音识别结果;所述语音识别模型是基于第二样本语音的声学特征和噪音特征,以及所述第二样本语音的语音识别标签训练得到的。2.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别模型包括降噪特征提取层和分类层;所述基于语音识别模型,应用所述待识别语音的声学特征和噪音特征进行语音识别,得到所述待识别语音的语音识别结果,包括:基于所述降噪特征提取层,提取所述声学特征与所述噪音特征相区别的特征,得到降噪特征;基于所述分类层,应用所述降噪特征进行特征分类,得到所述语音识别结果。3.根据权利要求2所述的语音识别方法,其特征在于,所述降噪特征提取层包括特征转换层、特征合并层和高层提取层;所述基于所述降噪特征提取层,提取所述声学特征与所述噪音特征相区别的特征,得到降噪特征,包括:基于所述特征转换层,对所述声学特征和/或所述噪音特征进行特征转换,得到同一特征空间下的声学转换特征和噪音转换特征;基于所述特征合并层,对所述同一特征空间下的声学转换特征和噪音转换特征进行特征合并,得到合并特征;基于所述高层提取层,对所述合并特征进行高层特征提取,得到所述降噪特征。4.根据权利要求3所述的语音识别方法,其特征在于,所述特征转换层包括声学特征转换层和噪音特征转换层;所述基于所述特征转换层,对所述声学特征和/或所述噪音特征进行特征转换,得到同一特征空间下的声学转换特征和噪音转换特征,包括:基于所述声学特征转换层,对所述声学特征进行特征转换,得到所述声学转换特征;基于所述噪音特征转换层,对所述噪音特征进行特征转换,得到所述噪音转换特征。5.根据权利要求1所述的语音识别方法,其特征在于,所述噪音编码模型与特征分类模型构成语音分类模型,所述语音分类模型是基于第一样本语音的声学特征,以及表征所述第一样本语音是否为带噪语音的噪音标签训练得到的,所述特征分类模型用于基于所述噪音编码模型输出的所述第一样本语音的噪音特征,确定所述第一样本语音是否为带噪语音。6.根据权利要求5所述的语音识别方法,其特征在于,所述噪音编码模型基于如下步骤确定:基于初始分类模型中的初始噪音编码模型,对所述第一样本语音的声学特征进行噪音编码,得到初始噪音特征;基于初始分类模型中的初始特征分类模型,应用所述初始噪音特征...

【专利技术属性】
技术研发人员:王宇剑李良斌陈孝良
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1