System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多模态预训练模型的训练方法、装置及存储介质制造方法及图纸_技高网

多模态预训练模型的训练方法、装置及存储介质制造方法及图纸

技术编号:41004401 阅读:5 留言:0更新日期:2024-04-18 21:41
本申请涉及人工智能领域,提供了一种多模态预训练模型的训练方法、装置及存储介质,该方法包括:对输入图像文本进行预处理,得到图像特征和文本特征,并基于图像特征和文本特征,得到图文特征和图文注意力特征;对以上特征进行处理得到第一特征;将第一特征输入到多模态集成编码器进行编码,并基于编码后的特征与第一特征,得到第二特征;利用自适应权重算法对文本特征进行计算得到自适应特征,并将自适应特征与第二特征输入至解码器,得到输出的目标文本;最后根据图像特征和文本特征、第二融合特征以及所述目标文本计算对应的损失函数,利用得到的损失函数对模型进行训练。本申请解决了现有预训练模型在复杂下游识别任务中表现不佳的问题。

【技术实现步骤摘要】

本申请涉及人工智能领域,尤其涉及一种多模态预训练模型的训练方法、装置及存储介质


技术介绍

1、多模态预训练模型是一种具有多种输入模态的先进模型,通过联合学习多种数据表示方式,可以更全面地理解和表达语义信息。这种模型可以应用于各种下游任务中,例如自然语言处理、图像识别、语音识别等,从而提高模型在不同任务中的表现。

2、现有的图像文本预训练模型可以从大规模的图像-文本对中学习通用的跨模态特征表示,这种模型通常采用图像-文本匹配、图像-文本对比学习等方式来聚合和对齐图像和文本信息。此外,现在技术还有采用跨模态的融合编码来学习图像-文本对信息,但这种方式往往需要大量的推理资源用于计算所有可能的图像-文本对的相似性分数,这对于大规模的数据集来说,需要大量的计算资源和时间。预训练好的模型通常可以用于对下游的图像文本任务进行微调,以适应特定的需求。然而,通过上述训练方法得到的模型往往对于复杂的下游任务,如图文分类任务,效果并不理想。在面对这些任务时,模型可能会表现出一定的局限性,无法准确地理解和处理复杂的文本图像信息。


技术实现思路

1、有鉴于此,本申请实施例提供了一种多模态预训练模型的训练方法、装置及存储介质,以解决现有预训练模型在复杂下游识别任务中表现不佳的问题。

2、本申请实施例的第一方面,提供了一种多模态预训练模型的训练方法,包括:对输入图像和输入文本进行预处理,得到与输入图像和输入文本对应的图像特征和文本特征,并基于图像特征和文本特征,得到图文特征和图文注意力特征;对图像特征、文本特征、图文特征以及图文注意力特征进行融合处理,得到第一融合特征;利用多模态集成编码器对第一融合特征进行处理,得到多模态集成编码器输出的多模态集成编码特征,并将多模态集成编码特征与第一融合特征进行融合得到第二融合特征;利用自适应权重算法对文本特征进行自适应权重计算得到自适应特征,并将自适应特征与第二融合特征输入至第一解码器,得到第一解码器输出的目标文本;根据图像特征和文本特征、第二融合特征以及目标文本,分别计算对应的损失函数,利用对应的损失函数对模型参数进行反向更新,以对模型进行训练。

3、本申请实施例的第二方面,提供了一种多模态预训练模型的训练装置,包括:输入模块,被配置为对输入图像和输入文本进行预处理,得到与输入图像和输入文本对应的图像特征和文本特征,并基于图像特征和文本特征,得到图文特征和图文注意力特征;融合模块,被配置为对图像特征、文本特征、图文特征以及图文注意力特征进行融合处理,得到第一融合特征;编码模块,被配置为利用多模态集成编码器对第一融合特征进行处理,得到多模态集成编码器输出的多模态集成编码特征,并将多模态集成编码特征与第一融合特征进行融合得到第二融合特征;自适应模块,被配置为利用自适应权重算法对文本特征进行自适应权重计算得到自适应特征,并将自适应特征与第二融合特征输入至第一解码器,得到第一解码器输出的目标文本;训练模块,被配置为根据图像特征和文本特征、第二融合特征以及目标文本,分别计算对应的损失函数,利用对应的损失函数对模型参数进行反向更新,以对模型进行训练。

4、本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。

5、本申请实施例的第四方面,提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。

6、本申请实施例与现有技术相比存在的有益效果是:

7、通过对输入图像和输入文本进行预处理,得到对应特征,并在此基础上得到图文特征和图文注意力特征;对得到的所有进行融合处理,得到第一融合特征;利用多模态集成编码器对第一融合特征进行处理,得到多模态集成编码特征,并将多模态集成编码特征与第一融合特征进行融合得到第二融合特征;利用自适应权重算法对文本特征进行自适应权重计算得到自适应特征,并将自适应特征与第二融合特征输入至第一解码器,得到第一解码器输出的目标文本;最后根据图像特征和文本特征、第二融合特征以及目标文本,分别计算对应的损失函数,利用对应的损失函数对模型参数进行反向更新,以对模型进行训练,由于多模态集成编码特征包含多种模态的特征,且通过自适应计算的自适应特征可以更好地与多种模态的特征进行融合,使得通过第一解码器输出的目标文本可以更好的学习图文的对齐,同时通过多个损失函数的共同作用,可以帮助模型更好地理解图像和文本之间的关系,进而提高其语言生成和理解的能力,因此得到的模型进行微调后可以更好的处理复杂下游任务。

本文档来自技高网...

【技术保护点】

1.一种多模态预训练模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对输入图像和输入文本进行预处理,得到与所述输入图像和输入文本对应的图像特征和文本特征,并基于所述图像特征和文本特征,得到图文特征和图文注意力特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述图像特征、所述文本特征、所述图文特征以及所述图文注意力特征进行融合处理,得到第一融合特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述利用多模态集成编码器对所述第一融合特征进行处理,得到所述多模态集成编码器输出的多模态集成编码特征,包括:

5.根据权利要求4所述的方法,其特征在于,所述集成前馈网络包括图像前馈网络、文本前馈网络、图文前馈网络和图文注意力前馈网络。

6.根据权利要求1所述的方法,其特征在于,所述利用自适应权重算法对所述文本特征进行自适应权重计算得到自适应特征,包括:

7.根据权利要求1所述的方法,其特征在于,所述根据所述图像特征和文本特征、所述第二融合特征以及所述目标文本,分别计算对应的损失函数,利用所述对应的损失函数对模型参数进行反向更新,以对模型进行训练,包括:

8.一种多模态预训练模型的训练装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种多模态预训练模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对输入图像和输入文本进行预处理,得到与所述输入图像和输入文本对应的图像特征和文本特征,并基于所述图像特征和文本特征,得到图文特征和图文注意力特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述图像特征、所述文本特征、所述图文特征以及所述图文注意力特征进行融合处理,得到第一融合特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述利用多模态集成编码器对所述第一融合特征进行处理,得到所述多模态集成编码器输出的多模态集成编码特征,包括:

5.根据权利要求4所述的方法,其特征在于,所述集成前馈网络包括图像前馈网络、文本前馈网络、图文前馈网络和图文注意力前馈网络。

6.根...

【专利技术属性】
技术研发人员:石雅洁
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1