【技术实现步骤摘要】
本申请涉及人工智能领域,尤其涉及一种多模态预训练模型的训练方法、装置及存储介质。
技术介绍
1、多模态预训练模型是一种具有多种输入模态的先进模型,通过联合学习多种数据表示方式,可以更全面地理解和表达语义信息。这种模型可以应用于各种下游任务中,例如自然语言处理、图像识别、语音识别等,从而提高模型在不同任务中的表现。
2、现有的图像文本预训练模型可以从大规模的图像-文本对中学习通用的跨模态特征表示,这种模型通常采用图像-文本匹配、图像-文本对比学习等方式来聚合和对齐图像和文本信息。此外,现在技术还有采用跨模态的融合编码来学习图像-文本对信息,但这种方式往往需要大量的推理资源用于计算所有可能的图像-文本对的相似性分数,这对于大规模的数据集来说,需要大量的计算资源和时间。预训练好的模型通常可以用于对下游的图像文本任务进行微调,以适应特定的需求。然而,通过上述训练方法得到的模型往往对于复杂的下游任务,如图文分类任务,效果并不理想。在面对这些任务时,模型可能会表现出一定的局限性,无法准确地理解和处理复杂的文本图像信息。
【技术保护点】
1.一种多模态预训练模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对输入图像和输入文本进行预处理,得到与所述输入图像和输入文本对应的图像特征和文本特征,并基于所述图像特征和文本特征,得到图文特征和图文注意力特征,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述图像特征、所述文本特征、所述图文特征以及所述图文注意力特征进行融合处理,得到第一融合特征,包括:
4.根据权利要求1所述的方法,其特征在于,所述利用多模态集成编码器对所述第一融合特征进行处理,得到所述多模态集成编码器输出的多模态集
...【技术特征摘要】
1.一种多模态预训练模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对输入图像和输入文本进行预处理,得到与所述输入图像和输入文本对应的图像特征和文本特征,并基于所述图像特征和文本特征,得到图文特征和图文注意力特征,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述图像特征、所述文本特征、所述图文特征以及所述图文注意力特征进行融合处理,得到第一融合特征,包括:
4.根据权利要求1所述的方法,其特征在于,所述利用多模态集成编码器对所述第一融合特征进行处理,得到所述多模态集成编码器输出的多模态集成编码特征,包括:
5.根据权利要求4所述的方法,其特征在于,所述集成前馈网络包括图像前馈网络、文本前馈网络、图文前馈网络和图文注意力前馈网络。
6.根...
【专利技术属性】
技术研发人员:石雅洁,
申请(专利权)人:深圳须弥云图空间科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。