语音识别模型的训练方法及装置、语音识别方法及装置制造方法及图纸

技术编号:37537860 阅读:13 留言:0更新日期:2023-05-12 16:06
本公开实施例公开了一种语音识别模型的训练方法及装置、语音识别方法及装置、计算机可读存储介质及电子设备,其中,该语音识别模型的训练方法包括:基于生成的随机数,对样本视频数据和样本音频数据进行数据掩蔽处理,得到掩蔽后视频数据和掩蔽后音频数据;利用待训练的初始语音识别模型对掩蔽后视频数据和掩蔽后音频数据进行融合编码再解码,得到语音预测数据;基于损失函数和语音预测数据,训练初始语音识别模型,得到预训练的语音识别模型。本公开实施例可以使样本视频数据和样本音频数据的数据量不再平衡,从而可以提高模型处理非平衡多模态数据的能力,使训练后的语音识别模型能够适应多种噪声场景,提高语音识别模型的识别准确率。的识别准确率。的识别准确率。

【技术实现步骤摘要】
语音识别模型的训练方法及装置、语音识别方法及装置


[0001]本公开涉及计算机
,尤其是一种语音识别模型的训练方法及装置、语音识别方法及装置、计算机可读存储介质及电子设备。

技术介绍

[0002]多模语音识别技术是指借助唇部动作视频、脸部动作视频、眼部动作视频等视觉信息协助进行语音识别的技术,在一定程度上提高了高噪声场景下语音的识别准确率。
[0003]多模语音识别模型的训练阶段,通常需要同时输入视频数据和音频数据两种模态的数据,模型需要同时处理视频特征和音频特征,训练后的多模语音识别模型在能够同时获得输入的音频和视频的情况下,识别效果较好。当两种模态的数据量不平衡时,即缺少一种模态的数据时,导致模型的识别准确率降低。

技术实现思路

[0004]为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种语音识别模型的训练方法及装置、语音识别方法及装置、计算机可读存储介质及电子设备。
[0005]本公开的实施例提供了一种语音识别模型的训练方法,该方法包括:生成处于预设数值区间的随机数;基于随机数,对样本视频数据和样本音频数据进行数据掩蔽处理,得到掩蔽后视频数据和掩蔽后音频数据;利用待训练的初始语音识别模型的融合编码网络,对掩蔽后视频数据和掩蔽后音频数据进行融合编码,得到融合编码数据;利用初始语音识别模型的解码网络,对融合编码数据进行解码,得到语音预测数据;基于预设的损失函数和语音预测数据,确定表示语音预测数据与预设的语音标签序列之间的误差的损失值;基于损失值,调整初始语音识别模型的参数,获得调整后的语音识别模型;响应于确定调整后的语音识别模型满足预设的训练结束条件,将调整后的语音识别模型确定为预训练的语音识别模型。
[0006]根据本公开实施例的另一个方面,提供了一种语音识别方法,该方法包括:获取待识别视频数据和待识别音频数据;利用预训练的语音识别模型的融合编码网络,对待识别视频数据和待识别音频数据进行融合编码,得到融合编码数据;利用语音识别模型的解码网络,对融合编码数据进行解码,得到语音预测数据;基于语音预测数据,生成语音识别文本。
[0007]根据本公开实施例的另一个方面,提供了一种语音识别模型的训练装置,该装置包括:第一生成模块,用于生成处于预设数值区间的随机数;掩蔽模块,用于基于随机数,对样本视频数据和样本音频数据进行数据掩蔽处理,得到掩蔽后视频数据和掩蔽后音频数据;第一融合模块,用于利用待训练的初始语音识别模型的融合编码网络,对掩蔽后视频数据和掩蔽后音频数据进行融合编码,得到融合编码数据;第一解码模块,用于利用初始语音识别模型的解码网络,对融合编码数据进行解码,得到语音预测数据;第一确定模块,用于基于预设的损失函数和语音预测数据,确定表示语音预测数据与预设的语音标签序列之间
的误差的损失值;调整模块,用于基于损失值,调整初始语音识别模型的参数,获得调整后的语音识别模型;第二确定模块,用于响应于确定调整后的语音识别模型满足预设的训练结束条件,将调整后的语音识别模型确定为预训练的语音识别模型。
[0008]根据本公开实施例的另一个方面,提供了一种语音识别模型的训练装置,该装置包括:获取模块,用于获取待识别视频数据和待识别音频数据;第二融合模块,用于利用预训练的语音识别模型的融合编码网络,对待识别视频数据和待识别音频数据进行融合编码,得到融合编码数据;第二解码模块,用于利用语音识别模型的解码网络,对融合编码数据进行解码,得到语音预测数据;第二生成模块,用于基于语音预测数据,生成语音识别文本。
[0009]根据本公开实施例的另一个方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序用于被处理器执行以实现执行上述语音识别模型的训练方法或语音识别方法。
[0010]根据本公开实施例的另一个方面,提供了一种电子设备,电子设备包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现上述语音识别模型的训练方法或语音识别方法。
[0011]基于本公开上述实施例提供的语音识别模型的训练方法及装置、语音识别方法及装置、计算机可读存储介质及电子设备,通过生成随机数,并基于随机数对样本视频数据和样本音频数据进行数据掩蔽处理,得到掩蔽后视频数据和掩蔽后音频数据,然后利用初始语音识别模型,对掩蔽后视频数据和掩蔽后音频数据进行融合编码,得到融合编码数据,再对融合编码数据进行解码,得到语音预测数据,接着基于预设的损失函数,确定表示语音预测数据与预设的语音标签序列之间的误差的损失值,最后基于损失值,调整初始语音识别模型的参数,得到预训练的语音识别模型。本公开的实施例实现了在语音识别模型的训练阶段,对多模态的训练样本数据引入随机因素,使样本视频数据和样本音频数据的数据量不再平衡,从而可以提高模型处理非平衡多模态数据的能力,使训练后的语音识别模型能够适应多种噪声场景,提高语音识别模型的识别准确率。
[0012]下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
[0013]通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤;
[0014]图1是本公开所适用的系统图;
[0015]图2是本公开一示例性实施例提供的语音识别模型的训练方法的流程图;
[0016]图3是本公开另一示例性实施例提供的语音识别模型的训练方法的流程图;
[0017]图4是本公开另一示例性实施例提供的语音识别模型的训练方法的流程图;
[0018]图5是本公开另一示例性实施例提供的语音识别模型的训练方法的流程图;
[0019]图6是本公开另一示例性实施例提供的语音识别模型的训练方法的流程图;
[0020]图7是本公开另一示例性实施例提供的语音识别模型的训练方法的流程图;
[0021]图8是本公开一示例性实施例提供的语音识别方法的流程图;
[0022]图9是本公开另一示例性实施例提供的语音识别方法的流程图;
[0023]图10是本公开另一示例性实施例提供的语音识别方法的流程图;
[0024]图11是本公开一示例性实施例的语音识别模型的训练装置的结构示意图;
[0025]图12是本公开另一示例性实施例的语音识别模型的训练装置的结构示意图;
[0026]图13是本公开一示例性实施例提供的语音识别装置的结构示意图;
[0027]图14是本公开另一示例性实施例提供的语音识别装置的结构示意图;
[0028]图15是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
[0029]下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型的训练方法,包括:生成处于预设数值区间的随机数;基于所述随机数,对样本视频数据和样本音频数据进行数据掩蔽处理,得到掩蔽后视频数据和掩蔽后音频数据;利用待训练的初始语音识别模型的融合编码网络,对所述掩蔽后视频数据和所述掩蔽后音频数据进行融合编码,得到融合编码数据;利用所述初始语音识别模型的解码网络,对所述融合编码数据进行解码,得到语音预测数据;基于预设的损失函数和所述语音预测数据,确定表示所述语音预测数据与预设的语音标签序列之间的误差的损失值;基于所述损失值,调整所述初始语音识别模型的参数,获得调整后的语音识别模型;响应于确定所述调整后的语音识别模型满足预设的训练结束条件,将所述调整后的语音识别模型确定为预训练的语音识别模型。2.根据权利要求1所述的方法,其中,所述基于所述随机数,对样本视频数据和样本音频数据进行数据掩蔽处理,得到掩蔽后视频数据和掩蔽后音频数据,包括:响应于确定所述随机数处于第一预设区间,基于第一预设数值,对所述样本视频数据进行重置,得到所述掩蔽后视频数据,并将所述样本音频数据确定为所述掩蔽后音频数据;响应于确定所述随机数处于第二预设区间,基于第二预设数值,对所述样本音频数据进行重置,得到所述掩蔽后音频数据,并将所述样本视频数据确定为所述掩蔽后视频数据;响应于确定所述随机数处于第三预设区间,将所述样本视频数据确定为所述掩蔽后视频数据,并将所述样本音频数据确定为所述掩蔽后音频数据。3.根据权利要求1所述的方法,其中,所述利用待训练的初始语音识别模型的融合编码网络,对所述掩蔽后视频数据和所述掩蔽后音频数据进行融合编码,得到融合编码数据,包括:利用所述融合编码网络的视频编码子网络和音频编码子网络,分别对所述掩蔽后视频数据和所述掩蔽后音频数据进行编码,得到待融合视频特征数据和待融合音频特征数据;利用所述融合编码网络的特征融合子网络,对所述待融合视频特征数据和待融合音频特征数据进行融合,得到融合特征数据;利用所述融合编码网络的融合特征编码子网络,对所述融合特征数据进行编码,得到所述融合编码数据。4.根据权利要求3所述的方法,其中,所述利用所述融合编码网络的视频编码子网络和音频编码子网络,分别对所述掩蔽后视频数据和所述掩蔽后音频数据进行编码,得到待融合视频特征数据和待融合音频特征数据,包括:利用所述视频编码子网络的视频特征提取层,对所述掩蔽后视频数据进行特征提取,得到基础视频特征数据;利用所述视频编码子网络的视频特征编码层,对所述基础视频特征数据进行编码,得到所述待融合视频特征数据;利用所述音频编码子网络的音频特征提取层,对所述掩蔽后音频数据进行特征提取,得到基础音频特征数据;
利用所述音频编码子网络的音频特征编码层,对所述基础音频特征数据进行编码,得到所述待融合音频特征数据。5.根据权利要求1所述的方法,其中,所述利用所述初始语音识别模型的解码网络,对所述融合编码数据进行解码,得到语音预测数据,包括:利用所述解码网络的第一解码子网络,对所述融合编码数据按照所述预设的语音标签序列的第一排列顺序进行解码,得到第一语音预测数据;利用所述解码网络的第二解码子网络,对所述融合编码数据按照所述预设的语音标签序列的第二排列顺序进行解码,得到第二语音预测数据;利用所述解码网络的第三解码子网络,对所述融合编码数据进行解码,得到第三语音预测数据。6.根据权利要求5所述的方法,其中,所述基于预设的损失函数和所述语音预测数据,确定表示所述语音预测数据与预设的语音标签序列之间的误差的损失值,包括:基于预设的损失函数,确定表示所述第一语音预测数据与所述语音标签序列之间的误差的第一损失值、表示所述第二语音预测数据与所述语音标签序列之间的误差的第二损失值、表示所述第三语音预测数据与所述语音标签序列之间的误差的第三损失值;基于所述第一损失值、所述第二损失值和所述第三损失值,确定所述损失函...

【专利技术属性】
技术研发人员:李盛强
申请(专利权)人:上海安亭地平线智能交通技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1