一种集成多模态模型的文本图像匹配方法及系统技术方案

技术编号:41503604 阅读:49 留言:0更新日期:2024-05-30 14:45
本发明专利技术公开了一种集成多模态模型的文本图像匹配方法及系统,涉及新闻图文匹配技术领域。该方法包括步骤:利用多模态情感分析方法得到文本特征向量和图像特征向量;利用图文匹配模型进行编码,并计算文本和图像特征向量之间的相似度;对相似度矩阵进行更新,根据相似度排名得到第一预测结果;利用多层感知器模型根据更新后的相似度矩阵进行文本和图像分类,得到第二预测结果;比较第一预测结果和第二预测结果,选取最优的预测结果作为图文匹配的最终结果。本发明专利技术采用多模态情感分析方法对文本特征和图像特征进行深度信息挖掘,再通过预训练的CLIP模型进行特征提取,并结合多任务对比学习模型选出最优的匹配结果,实现高效的新闻图文匹配。

【技术实现步骤摘要】

本专利技术涉及新闻图文匹配,尤其涉及一种集成多模态模型的文本图像匹配方法及系统


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。

2、在今天的数字时代,信息的快速传播给新闻行业带来了前所未有的挑战,新闻文章文本与图像的有机融合变得至关重要,它不仅可以增强新闻报道的可读性,还可以通过视觉元素丰富信息传递。文本-图像重新匹配是一项有挑战性的任务,多媒体评估竞赛中的新闻图像任务(med i aeva l 2023news images)作为一项典型的文本-图像重新配对挑战,其总体目标是更好地理解新闻文章的文本和视觉(图像)内容之间的关系。

3、近年来,随着大模型的出现,它们已被广泛用来解决各种多模态任务,openai开发的预训练cl ip模型经常用于匹配文本和图像,它通过大量数据的对比学习来理解和解释文本和图像,能够在多种视觉任务上表现良好。

4、但是单一的cl ip模型在处理文本和图像之间信息过程中容易遗漏部分信息,无法深度挖掘文本与图像之间的复杂关系,导致匹配结果不够准确。因此,本文档来自技高网...

【技术保护点】

1.一种集成多模态模型的文本图像匹配方法,其特征在于,包括以下步骤:

2.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,所述新闻文本数据包括新闻文章的标题和正文内容。

3.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,所述图文匹配模型为预训练的CLIP模型。

4.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,采用DualSoftmax方法对相似度矩阵进行更新,具体步骤为:

5.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,利用多任务对比学习模型对多层感知器模型进行训练的...

【技术特征摘要】

1.一种集成多模态模型的文本图像匹配方法,其特征在于,包括以下步骤:

2.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,所述新闻文本数据包括新闻文章的标题和正文内容。

3.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,所述图文匹配模型为预训练的clip模型。

4.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,采用dualsoftmax方法对相似度矩阵进行更新,具体步骤为:

5.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,利用多任务对比学习模型对多层感知器模型进行训练的过程为:

6.如权利要求5所述的集成多模态模型的文本图像匹配方法,其特征在于,在训练过程中,多任务对比学习模型采用对比...

【专利技术属性】
技术研发人员:王宜敏汪太行徐小曼姜也
申请(专利权)人:青岛科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1