语音识别模型的训练方法及装置、语音识别方法及装置制造方法及图纸

技术编号：37537860 阅读：13 留言：0更新日期：2023-05-12 16:06

本公开实施例公开了一种语音识别模型的训练方法及装置、语音识别方法及装置、计算机可读存储介质及电子设备，其中，该语音识别模型的训练方法包括：基于生成的随机数，对样本视频数据和样本音频数据进行数据掩蔽处理，得到掩蔽后视频数据和掩蔽后音频数据；利用待训练的初始语音识别模型对掩蔽后视频数据和掩蔽后音频数据进行融合编码再解码，得到语音预测数据；基于损失函数和语音预测数据，训练初始语音识别模型，得到预训练的语音识别模型。本公开实施例可以使样本视频数据和样本音频数据的数据量不再平衡，从而可以提高模型处理非平衡多模态数据的能力，使训练后的语音识别模型能够适应多种噪声场景，提高语音识别模型的识别准确率。的识别准确率。的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别模型的训练方法及装置、语音识别方法及装置

[0001]本公开涉及计算机
，尤其是一种语音识别模型的训练方法及装置、语音识别方法及装置、计算机可读存储介质及电子设备。

技术介绍

[0002]多模语音识别技术是指借助唇部动作视频、脸部动作视频、眼部动作视频等视觉信息协助进行语音识别的技术，在一定程度上提高了高噪声场景下语音的识别准确率。
[0003]多模语音识别模型的训练阶段，通常需要同时输入视频数据和音频数据两种模态的数据，模型需要同时处理视频特征和音频特征，训练后的多模语音识别模型在能够同时获得输入的音频和视频的情况下，识别效果较好。当两种模态的数据量不平衡时，即缺少一种模态的数据时，导致模型的识别准确率降低。

技术实现思路

[0004]为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种语音识别模型的训练方法及装置、语音识别方法及装置、计算机可读存储介质及电子设备。
[0005]本公开的实施例提供了一种语音识别模型的训练方法，该方法包括：生成处于预设数值区间的随机数；基于随机数，对样本视频数据和样本音频数据进行数据掩蔽处理，得到掩蔽后视频数据和掩蔽后音频数据；利用待训练的初始语音识别模型的融合编码网络，对掩蔽后视频数据和掩蔽后音频数据进行融合编码，得到融合编码数据；利用初始语音识别模型的解码网络，对融合编码数据进行解码，得到语音预测数据；基于预设的损失函数和语音预测数据，确定表示语音预测数据与预设的语音标签序列之间的误差的损失值；基于损失值，调整初始语音识别模型...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型的训练方法，包括：生成处于预设数值区间的随机数；基于所述随机数，对样本视频数据和样本音频数据进行数据掩蔽处理，得到掩蔽后视频数据和掩蔽后音频数据；利用待训练的初始语音识别模型的融合编码网络，对所述掩蔽后视频数据和所述掩蔽后音频数据进行融合编码，得到融合编码数据；利用所述初始语音识别模型的解码网络，对所述融合编码数据进行解码，得到语音预测数据；基于预设的损失函数和所述语音预测数据，确定表示所述语音预测数据与预设的语音标签序列之间的误差的损失值；基于所述损失值，调整所述初始语音识别模型的参数，获得调整后的语音识别模型；响应于确定所述调整后的语音识别模型满足预设的训练结束条件，将所述调整后的语音识别模型确定为预训练的语音识别模型。2.根据权利要求1所述的方法，其中，所述基于所述随机数，对样本视频数据和样本音频数据进行数据掩蔽处理，得到掩蔽后视频数据和掩蔽后音频数据，包括：响应于确定所述随机数处于第一预设区间，基于第一预设数值，对所述样本视频数据进行重置，得到所述掩蔽后视频数据，并将所述样本音频数据确定为所述掩蔽后音频数据；响应于确定所述随机数处于第二预设区间，基于第二预设数值，对所述样本音频数据进行重置，得到所述掩蔽后音频数据，并将所述样本视频数据确定为所述掩蔽后视频数据；响应于确定所述随机数处于第三预设区间，将所述样本视频数据确定为所述掩蔽后视频数据，并将所述样本音频数据确定为所述掩蔽后音频数据。3.根据权利要求1所述的方法，其中，所述利用待训练的初始语音识别模型的融合编码网络，对所述掩蔽后视频数据和所述掩蔽后音频数据进行融合编码，得到融合编码数据，包括：利用所述融合编码网络的视频编码子网络和音频编码子网络，分别对所述掩蔽后视频数据和所述掩蔽后音频数据进行编码，得到待融合视频特征数据和待融合音频特征数据；利用所述融合编码网络的特征融合子网络，对所述待融合视频特征数据和待融合音频特征数据进行融合，得到融合特征数据；利用所述融合编码网络的融合特征编码子网络，对所述融合特征数据进行编码，得到所述融合编码数据。4.根据权利要求3所述的方法，其中，所述利用所述融合编码网络的视频编码子网络和音频编码子网络，分别对所述掩蔽后视频数据和所述掩蔽后音频数据进行编码，得到待融合视频特征数据和待融合音频特征数据，包括：利用所述视频编码子网络的视频特征提取层，对所述掩蔽后视频数据进行特征提取，得到基础视频特征数据；利用所述视频编码子网络的视频特征编码层，对所述基础视频特征数据进行编码，得到所述待融合视频特征数据；利用所述音频编码子网络的音频特征提取层，对所述掩蔽后音频数据进行特征提取，得到基础音频特征数据；
利用所述音频编码子网络的音频特征编码层，对所述基础音频特征数据进行编码，得到所述待融合音频特征数据。5.根据权利要求1所述的方法，其中，所述利用所述初始语音识别模型的解码网络，对所述融合编码数据进行解码，得到语音预测数据，包括：利用所述解码网络的第一解码子网络，对所述融合编码数据按照所述预设的语音标签序列的第一排列顺序进行解码，得到第一语音预测数据；利用所述解码网络的第二解码子网络，对所述融合编码数据按照所述预设的语音标签序列的第二排列顺序进行解码，得到第二语音预测数据；利用所述解码网络的第三解码子网络，对所述融合编码数据进行解码，得到第三语音预测数据。6.根据权利要求5所述的方法，其中，所述基于预设的损失函数和所述语音预测数据，确定表示所述语音预测数据与预设的语音标签序列之间的误差的损失值，包括：基于预设的损失函数，确定表示所述第一语音预测数据与所述语音标签序列之间的误差的第一损失值、表示所述第二语音预测数据与所述语音标签序列之间的误差的第二损失值、表示所述第三语音预测数据与所述语音标签序列之间的误差的第三损失值；基于所述第一损失值、所述第二损失值和所述第三损失值，确定所述损失函...

【专利技术属性】
技术研发人员：李盛强，
申请(专利权)人：上海安亭地平线智能交通技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人