图文预训练模型训练、图文预测模型训练方法和装置制造方法及图纸

技术编号：33295257 阅读：20 留言：0更新日期：2022-05-01 00:22

本申请涉及一种图文预训练模型训练、图文预测模型训练方法、装置、计算机设备、存储介质和计算机程序产品。方法包括：将训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中进行图文匹配程度评估，得到初始图文匹配程度，并使用初始图文匹配程度、训练目标图像特征和训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，并进行迭代训练得到目标图文预训练模型。采用本方法能够提高训练的准确性。本发明专利技术实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。辅助驾驶等各种场景。辅助驾驶等各种场景。

全部详细技术资料下载

【技术实现步骤摘要】
图文预训练模型训练、图文预测模型训练方法和装置

[0001]本申请涉及计算机
，特别是涉及一种图文预训练模型训练、图文预测模型训练方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着人工智能技术的发展，出现了使用图像和文本进行任务预测技术，比如，视觉问答、图文检测、视觉常识推理等。目前，通常在预训练模型的基础上进一步进行训练来得到图文预测模型，从而可以提高图文预测模型的训练效果。在训练预训练模型时，通常使用图像编码器和语言编码器分别进行预训练，来得到预训练模型。然而，通过独立训练的方法在预训练期间无法学习到跨模态的信息，从而导致得到的预训练模型的准确性降低，进而导致训练得到的图文预测模型的准确性降低。

技术实现思路

[0003]基于此，有必要针对上述技术问题，提供一种能够提高预训练模型的准确性，进而提高图文预测模型的准确性的图文预训练模型训练、图文预测模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0004]一方面，本申请提供了一种图文预训练模型训练方法。所述方法包括：
[0005]获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征；
[0006]基于训练图像原始特征和训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将训练图像目标特征和训练文本目标特征输入到初始图文预训练模型中；
[0007]通过初始图文预训练模型使用训练目标图像特征和训练目标文本特征进行图文匹配程度评估，得...

【技术保护点】

【技术特征摘要】
1.一种图文预训练模型训练方法，其特征在于，所述方法包括：获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征；基于所述训练图像原始特征和所述训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，并将所述训练图像目标特征和所述训练文本目标特征输入到初始图文预训练模型中；通过所述初始图文预训练模型使用所述训练目标图像特征和所述训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度；通过所述初始图文预训练模型使用所述初始图文匹配程度、所述训练目标图像特征和所述训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征；基于所述训练图像原始特征、训练文本原始特征、初始图像交互特征、初始文本交互特征和所述初始图片匹配程度进行模型损失计算，得到训练模型损失信息；基于所述训练模型损失信息训练所述初始图文预训练模型，直到达到训练完成条件时，得到目标图文预训练模型，所述目标图文预训练模型用于训练基于图像和文本进行跨模态预测的模型。2.根据权利要求1所述的方法，其特征在于，所述获取训练图像对应的训练图像原始特征和训练文本对应的训练文本原始特征，包括：获取训练样本，所述训练样本包括训练图像和训练文本；将所述训练文本进行字符级别的文本翻译，得到训练文本全量表示向量和训练文本字符表示向量，基于训练文本全量表示向量和训练文本字符表示向量得到所述训练文本原始特征；基于所述训练图像进行目标对象分类识别，得到训练图像全量表示向量、训练对象类别表征向量和训练对象区域表征向量，基于所述训练对象类别表征向量和训练对象区域表征向量得到所述训练图像原始特征。3.根据权利要求1所述的方法，其特征在于，所述基于所述训练图像原始特征和所述训练文本原始特征进行特征掩盖，得到训练图像目标特征和训练文本目标特征，包括：从所述训练文本原始特征包含的训练文本字符表示向量中随机确定当前字符表示向量；将所述训练文本原始特征中的当前字符表示向量替换为预设文本掩盖向量，得到所述训练文本目标特征；从所述训练图像目标特征包含的训练对象类别表征向量和训练对象区域表征向量中随机确定当前对象类别表征向量和当前对象区域表征向量；将所述训练图像目标特征中的当前对象类别表征向量替换为预设图像对象掩盖向量，并将所述训练图像目标特征中的当前对象区域表征向量替换为预设图像区域掩盖向量，得到所述训练图像目标特征。4.根据权利要求1所述的方法，其特征在于，通过所述初始图文预训练模型使用所述训练目标图像特征和所述训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，包括：通过所述初始图文预训练模型对所述训练目标图像特征进行自注意力特征提取，得到
初始图像自注意力特征；通过所述初始图文预训练模型对所述训练目标文本特征进行自注意力特征提取，得到初始文本自注意力特征；通过所述初始图文预训练模型对所述初始图像自注意力特征和所述初始文本自注意力特征进行匹配程度评估，得到训练图文匹配程度；所述通过所述初始图文预训练模型使用所述初始图文匹配程度、所述训练目标图像特征和所述训练目标文本特征进行跨模态信息交互，得到初始图像交互特征和初始文本交互特征，包括：通过所述初始图文预训练模型使用所述训练图文匹配程度、所述初始图像自注意力特征和所述初始文本自注意力特征进行跨模态信息交互，得到训练图像交互特征和训练文本交互特征。5.根据权利要求1至4任意一项所述的方法，其特征在于，所述初始图文预训练模型包括初始图文预测网络，所述初始图文预测网络包括初始图像自注意力网络、初始文本自注意力网络和初始匹配网络；所述通过所述初始图文预训练模型使用所述训练目标图像特征和所述训练目标文本特征进行图文匹配程度评估，得到初始图文匹配程度，包括：将所述目标图像特征输入到所述初始图文预训练模型中的初始图像自注意力网络中进行自注意力特征提取，得到所述初始图像自注意力特征；将所述目标文本特征输入到所述初始图文预训练模型中的初始文本自注意力网络中进行自注意力特征提取，得到所述初始文本自注意力特征；将所述初始图像自注意力特征中的初始图像全量表示向量和所述初始文本自注意力特征中的初始文本全量表示向量输入到所述初始图文预训练模型中的初始匹配网络进行匹配程度评估，得到所述图文匹配程度。6.根据权利要求5所述的方法，其特征在于，将所述初始图像自注意力特征中的初始图像全量表示向量和所述初始文本自注意力特征中的初始文本全量表示向量输入到所述初始图文预训练模型中的初始匹配网络进行匹配程度评估，得到所述图文匹配程度，包括：将所述初始图像自注意力特征中的初始图像全量表示向量和所述初始文本自注意力特征中的初始文本全量表示向量输入到所述初始图文预训练模型中的初始匹配网络中；通过所述初始匹配网络分别对所述初始图像全量表示向量和所述初始文本全量表示向量进行加权，得到加权图像表示向量和加权文本表示向量；通过所述初始匹配网络计算所述加权图像表示向量和加权文本表示向量的向量和，得到匹配程度向量；通过所述初始匹配网络将所述匹配程度向量进行激活，得到所述图文匹配程度。7.根据权利要求4所述的方法，其特征在于，所述初始图文预训练模型包括初始图文预测网络，所述初始图文预测网络包括初始图像跨越注意力网络和初始文本跨越注意力网络；所述通过所述初始图文预训练模型使用所述训练图文匹配程度、所述初始图像自注意力特征和所述初始文本自注意力特征进行跨模态信息交互，得到训练图像交互特征和训练文本交互特征，包括：
将所述初始文本自注意力特征中的初始文本全量表示向量与所述初始图像自注意力特征中的初始类别自注意力向量和初始区域自注意力向量输入到所述初始文本跨越注意力网络中进行跨模态信息交互，得到初始文本全量交互向量；基于所述训练图文匹配程度和所述初始文本全量交互特征对所述初始文本自注意力特征中的初始字符自注意力向量进行更新，得到初始字符交互向量，基于所述初始文本全量交互向量和所述初始字符交互向量得到所述训练文本交互特征；将所述初始图像全量表示向量与所述初始字符自注意力向量输入到初始图像跨越注意力网络中进行跨模态信息交互，得到初始图像全量交互向量；基于所述训练图文匹配程度和所述初始图像全量交互向量分别对所述初始类别自注意力向量和所述初始区域自注意力向量进行更新，得到初始类别交互向量和初始区域交互向量，基于所述初始图像全量交互向量、所述初始类别交互向量和所述初始区域交互向量得到所述训练图像交互特征。8.根据权利要求7所述的方法，其特征在于，所述基于所述训练图文匹配程度和所述初始文本全量交互特征对所述初始文本自注意力特征中的初始字符自注意力向量进行更新，得到初始字符交互向量，包括：使用所述训练图文匹配程度对所述初始字符自注意力向量进行加权，得到加权字符自注意力特征；基于所述训练图文匹配程度进行全量交互特征权重计算，得到全量交互特征权重，并使用所述全量交互特征权重对所述初始文本全量交互特征进行加权，得到加权文本全量交互特征；计算所述加权字符自注意力特征和所述加权文本全量交互特征的特征和，得到所述初始字符交互向量。9.根据权利要求7所述的方法，其特征在于，所述基于所述训练图文匹配程度和所述初始图像全量交互向量分别对所述初始类别自注意力向量和所述初始区域自注意力向量进行更新，得到初始类别交互向量和初始区域交互向量，包括：使用所述训练图文匹配程度对所述初始类别自注意力向量进行加权，得到加权类别自注意力特征；使用所述训练图文匹配程度对所述初始区域自注意力向量进行加权，得到加权区域自注意力特征；基于所述训练图文匹配程度进行全量交互特征权重计算，得到全量交互特征权重，并使用所述全量交互特征权重对所述初始图像全量交互向量进行加权，得到加权图像全量交互特征；计算所述加权类别自注意力特征与所述加权图像全量交互特征的特征和，得到所述初始类别交互向量；计算所述加权区域自注意力特征与所述加权图像全量交互特征的特征和，得到所述初始区域交互向量。10.根据权利要求1所述的方法，其特征在于，所述初始图文预训练模型包括至少两个初始图文预测网络，所述至少两个初始图文预测网络首尾连接；所述方法，还包括：
获取到前向初始图文预测网络输出的前向训练图像交互特征和前向训练文本交互特征，将所述前向训练图像交互特...

【专利技术属性】
技术研发人员：王腾，姜文浩，郑锋，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人