【技术实现步骤摘要】
本专利技术涉及新闻图文匹配,尤其涉及一种集成多模态模型的文本图像匹配方法及系统。
技术介绍
1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
2、在今天的数字时代,信息的快速传播给新闻行业带来了前所未有的挑战,新闻文章文本与图像的有机融合变得至关重要,它不仅可以增强新闻报道的可读性,还可以通过视觉元素丰富信息传递。文本-图像重新匹配是一项有挑战性的任务,多媒体评估竞赛中的新闻图像任务(med i aeva l 2023news images)作为一项典型的文本-图像重新配对挑战,其总体目标是更好地理解新闻文章的文本和视觉(图像)内容之间的关系。
3、近年来,随着大模型的出现,它们已被广泛用来解决各种多模态任务,openai开发的预训练cl ip模型经常用于匹配文本和图像,它通过大量数据的对比学习来理解和解释文本和图像,能够在多种视觉任务上表现良好。
4、但是单一的cl ip模型在处理文本和图像之间信息过程中容易遗漏部分信息,无法深度挖掘文本与图像之间的复杂关系,导致匹配
...【技术保护点】
1.一种集成多模态模型的文本图像匹配方法,其特征在于,包括以下步骤:
2.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,所述新闻文本数据包括新闻文章的标题和正文内容。
3.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,所述图文匹配模型为预训练的CLIP模型。
4.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,采用DualSoftmax方法对相似度矩阵进行更新,具体步骤为:
5.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,利用多任务对比学习模型对多层
...【技术特征摘要】
1.一种集成多模态模型的文本图像匹配方法,其特征在于,包括以下步骤:
2.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,所述新闻文本数据包括新闻文章的标题和正文内容。
3.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,所述图文匹配模型为预训练的clip模型。
4.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,采用dualsoftmax方法对相似度矩阵进行更新,具体步骤为:
5.如权利要求1所述的集成多模态模型的文本图像匹配方法,其特征在于,利用多任务对比学习模型对多层感知器模型进行训练的过程为:
6.如权利要求5所述的集成多模态模型的文本图像匹配方法,其特征在于,在训练过程中,多任务对比学习模型采用对比...
【专利技术属性】
技术研发人员:王宜敏,汪太行,徐小曼,姜也,
申请(专利权)人:青岛科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。