多模态预训练模型的训练方法、装置及存储介质制造方法及图纸

技术编号:41004401 阅读:17 留言:0更新日期:2024-04-18 21:41
本申请涉及人工智能领域,提供了一种多模态预训练模型的训练方法、装置及存储介质,该方法包括:对输入图像文本进行预处理,得到图像特征和文本特征,并基于图像特征和文本特征,得到图文特征和图文注意力特征;对以上特征进行处理得到第一特征;将第一特征输入到多模态集成编码器进行编码,并基于编码后的特征与第一特征,得到第二特征;利用自适应权重算法对文本特征进行计算得到自适应特征,并将自适应特征与第二特征输入至解码器,得到输出的目标文本;最后根据图像特征和文本特征、第二融合特征以及所述目标文本计算对应的损失函数,利用得到的损失函数对模型进行训练。本申请解决了现有预训练模型在复杂下游识别任务中表现不佳的问题。

【技术实现步骤摘要】

本申请涉及人工智能领域,尤其涉及一种多模态预训练模型的训练方法、装置及存储介质


技术介绍

1、多模态预训练模型是一种具有多种输入模态的先进模型,通过联合学习多种数据表示方式,可以更全面地理解和表达语义信息。这种模型可以应用于各种下游任务中,例如自然语言处理、图像识别、语音识别等,从而提高模型在不同任务中的表现。

2、现有的图像文本预训练模型可以从大规模的图像-文本对中学习通用的跨模态特征表示,这种模型通常采用图像-文本匹配、图像-文本对比学习等方式来聚合和对齐图像和文本信息。此外,现在技术还有采用跨模态的融合编码来学习图像-文本对信息,但这种方式往往需要大量的推理资源用于计算所有可能的图像-文本对的相似性分数,这对于大规模的数据集来说,需要大量的计算资源和时间。预训练好的模型通常可以用于对下游的图像文本任务进行微调,以适应特定的需求。然而,通过上述训练方法得到的模型往往对于复杂的下游任务,如图文分类任务,效果并不理想。在面对这些任务时,模型可能会表现出一定的局限性,无法准确地理解和处理复杂的文本图像信息。


技术实现本文档来自技高网...

【技术保护点】

1.一种多模态预训练模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对输入图像和输入文本进行预处理,得到与所述输入图像和输入文本对应的图像特征和文本特征,并基于所述图像特征和文本特征,得到图文特征和图文注意力特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述图像特征、所述文本特征、所述图文特征以及所述图文注意力特征进行融合处理,得到第一融合特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述利用多模态集成编码器对所述第一融合特征进行处理,得到所述多模态集成编码器输出的多模态集成编码特征,包括:<...

【技术特征摘要】

1.一种多模态预训练模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对输入图像和输入文本进行预处理,得到与所述输入图像和输入文本对应的图像特征和文本特征,并基于所述图像特征和文本特征,得到图文特征和图文注意力特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述图像特征、所述文本特征、所述图文特征以及所述图文注意力特征进行融合处理,得到第一融合特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述利用多模态集成编码器对所述第一融合特征进行处理,得到所述多模态集成编码器输出的多模态集成编码特征,包括:

5.根据权利要求4所述的方法,其特征在于,所述集成前馈网络包括图像前馈网络、文本前馈网络、图文前馈网络和图文注意力前馈网络。

6.根...

【专利技术属性】
技术研发人员:石雅洁
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1