图文预训练模型的训练方法、训练装置及电子设备制造方法及图纸

技术编号:39151258 阅读:10 留言:0更新日期:2023-10-23 14:58
本发明专利技术提供一种图文预训练模型的训练方法、训练装置及电子设备,涉及深度学习技术领域,该方法包括:构建初始图文预训练模型,初始图文预训练模型包含生成器模块和判别器模块,生成器模块和判别器模块均包含图像编码器、文本编码器和跨模态融合编码器,跨模态融合编码器用于融合图像编码器和文本编码器输出的特征;针对每种预训练任务,基于生成器模块的生成结果对判别器模块进行训练,并基于训练后的判别器模块,得到目标图文预训练模型。使得最终得到的目标图文预训练模型能够与下游任务完全匹配,从而能够在各种图文下游任务中取得更好的效果。更好的效果。更好的效果。

【技术实现步骤摘要】
图文预训练模型的训练方法、训练装置及电子设备


[0001]本专利技术涉及深度学习
,尤其涉及一种图文预训练模型的训练方法、训练装置及电子设备。

技术介绍

[0002]随着深度学习Transformer(变压器)结构的兴起,预训练模型正在计算机视觉领域和自然语言处理领域以惊人的速度发展,并主导了这些领域的各种先进技术。在这两个领域的结合处——图文跨模态领域,预训练模型也取得了惊人的效果,并在多个下游任务上获得了优势地位,如图文检索、视觉语言推理、视觉问答等。
[0003]与纯文本的自然语言处理领域不同,图文的各种任务需要模型不仅理解文本含义,而且需要对输入的图像有足够理解,才能在各种下游任务上取得优异效果,困难的下游任务更是需要模型具备足够的推理能力,通过图像和文本表达的含义作出一定的推理才能完成任务。因此,如何训练图文预训练模型使之在各种图文下游任务中取得良好的效果,是业界亟需解决的技术问题。

技术实现思路

[0004]针对现有技术存在的问题,本专利技术提供一种图文预训练模型的训练方法、训练装置及电子设备。
[0005]第一方面,本专利技术提供一种图文预训练模型的训练方法,包括:
[0006]构建初始图文预训练模型,所述初始图文预训练模型包含生成器模块和判别器模块,所述生成器模块和所述判别器模块均包含图像编码器、文本编码器和跨模态融合编码器,所述跨模态融合编码器用于融合所述图像编码器和所述文本编码器输出的特征;
[0007]针对每种预训练任务,基于所述生成器模块的生成结果对所述判别器模块进行训练,并基于训练后的所述判别器模块,得到目标图文预训练模型。
[0008]可选地,所述判别器模块的分类头对于所有预训练任务统一为二分类头。
[0009]可选地,所述基于所述生成器模块的生成结果对所述判别器模块进行训练,包括:
[0010]将预训练任务对应的训练样本输入所述生成器模块,根据所述生成器模块的生成结果确定困难样本;
[0011]基于所述困难样本对所述判别器模块进行训练。
[0012]可选地,所述根据所述生成器模块的生成结果确定困难样本,包括:
[0013]将所述生成器模块生成错误结果的负样本或负样本对确定为困难样本。
[0014]可选地,所述判别器模块的训练方式包括:
[0015]在基于随机选择的训练样本对所述判别器模块训练预设步数后,开始训练所述生成器模块,并基于每一次训练后的所述生成器模块,对所述判别器模块进行多次训练。
[0016]可选地,所述生成器模块的分类头为与预训练任务相匹配的多分类头。
[0017]可选地,所述预训练任务包括文本掩码预测任务和图文匹配任务。
[0018]第二方面,本专利技术还提供一种图文预训练模型的训练装置,包括:
[0019]构建模块,用于构建初始图文预训练模型,所述初始图文预训练模型包含生成器模块和判别器模块,所述生成器模块和所述判别器模块均包含图像编码器、文本编码器和跨模态融合编码器,所述跨模态融合编码器用于融合所述图像编码器和所述文本编码器输出的特征;
[0020]训练模块,用于针对每种预训练任务,基于所述生成器模块的生成结果对所述判别器模块进行训练,并基于训练后的所述判别器模块,得到目标图文预训练模型。
[0021]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述第一方面所述的图文预训练模型的训练方法。
[0022]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述第一方面所述的图文预训练模型的训练方法。
[0023]本专利技术提供的图文预训练模型的训练方法、训练装置及电子设备,通过在基于单流融合编码器结构的初始图文预训练模型中添加生成器模块,基于生成器模块的生成结果训练判别器模块,使得最终得到的目标图文预训练模型能够与下游任务完全匹配,从而能够在各种图文下游任务中取得更好的效果。
附图说明
[0024]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1为本专利技术提供的图文预训练模型的训练方法的流程示意图;
[0026]图2为现有技术提供的单流融合编码器的结构示意图;
[0027]图3为本专利技术提供的文本掩码预测任务示意图;
[0028]图4为本专利技术提供的图文匹配任务示意图;
[0029]图5为本专利技术提供的图文预训练模型的训练装置的结构示意图;
[0030]图6为本专利技术提供的电子设备的结构示意图。
具体实施方式
[0031]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]图文跨模态模型根据不同的框架结构可以分为以下几种:1.单流融合编码器结构;2.双流融合编码器结构;3.双塔编码器结构。
[0033]第一种单流融合编码器结构,能够将所有经过处理后的数据融合到一个统一的框架当中,VisualBERT和V

LBERT正是这种结构的代表,为了区分不同模态的数据,它们利用
特征向量作为标志,给不同模态数据分配了不同的特征向量,添加到处理后的输入数据中。Oscar模型在此基础上,将图片中提取到的物体标签作为另一种特征数据输入到网络中,取得了进一步提升。而随着图像编码器ViT的发展,越来越多的图文预训练模型不再使用目标检测器来提取图像特征,而是直接使用图像编码器对输入图片做处理,达到了端到端提取的效果。
[0034]第二种双流融合编码器结构,与单流融合编码器结构最大的区别在于融合的方式不同。单流融合时采用的是自注意力机制,将所有输入的数据看做一个单独的块,块与块之间做自注意力机制来融合特征。而双流融合编码器,采用交叉自注意力机制来融合文本和图像编码器提取后的特征。ViL

BERT、LXMERT和ALBEF均是以这种架构为基础来实现预训练模型的,这种类型的结构有效地帮助模型将输入数据编码成一种更容易理解的方式。
[0035]第三种双塔编码器结构最为简单,它只有两个编码器来提取特征,没有上层的融合模块,仅仅使用损失函数的计算来融合图文两模态的特征。正是由于这种结构的简单方便,更大的数据、更多的参数被应用到该结构上。CLIP模型和ALIGN模型分别使用了四亿和十二亿图文数据对来实现双塔编码器结构,并使用对比学习损本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图文预训练模型的训练方法,其特征在于,包括:构建初始图文预训练模型,所述初始图文预训练模型包含生成器模块和判别器模块,所述生成器模块和所述判别器模块均包含图像编码器、文本编码器和跨模态融合编码器,所述跨模态融合编码器用于融合所述图像编码器和所述文本编码器输出的特征;针对每种预训练任务,基于所述生成器模块的生成结果对所述判别器模块进行训练,并基于训练后的所述判别器模块,得到目标图文预训练模型。2.根据权利要求1所述的图文预训练模型的训练方法,其特征在于,所述判别器模块的分类头对于所有预训练任务统一为二分类头。3.根据权利要求1所述的图文预训练模型的训练方法,其特征在于,所述基于所述生成器模块的生成结果对所述判别器模块进行训练,包括:将预训练任务对应的训练样本输入所述生成器模块,根据所述生成器模块的生成结果确定困难样本;基于所述困难样本对所述判别器模块进行训练。4.根据权利要求3所述的图文预训练模型的训练方法,其特征在于,所述根据所述生成器模块的生成结果确定困难样本,包括:将所述生成器模块生成错误结果的负样本或负样本对确定为困难样本。5.根据权利要求1至4任一项所述的图文预训练模型的训练方法,其特征在于,所述判别器模块的训练方式包括:在基于随机选择的训练样本对所述判别器模块训练预设步数后,开始...

【专利技术属性】
技术研发人员:乔冠辉单斌吴凌翔尹维冲李芝孙宇王金桥
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1