一种基于修改文本反馈的多模态图像检索方法技术

技术编号：41149737 阅读：32 留言：0更新日期：2024-04-30 18:16

本发明专利技术提供一种基于修改文本反馈的多模态图像检索方法，属于多模态图像检索技术领域，包括：选择目标图像集，获取参考图像，利用CLIP的图像编码器提取参考图像特征；输入修改文本，利用CLIP的文本编码器提取修改文本特征，将参考图像特征和修改文本特征输入至特征组合器进行特征融合，得到组合特征；提取候选图像集的特征，与组合特征进行相似度计算，将相似度前50的图像划分为高置信度目标图像，根据相似度大小对高置信度目标图像进行排名，将置信度最高的图像作为新的参考图像，根据设定的相似度阈值判断是否需要再次补充修改文本，直至找到目标图像。本发明专利技术还提出了基于两阶段训练和双重注意力的组合图像检索模型，来提升检索准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多模态图像检索，具体而言，尤其涉及一种基于修改文本反馈的多模态图像检索方法。

技术介绍

1、图像检索一直是计算机视觉领域的核心内容。构建图像检索系统最具挑战性的一个方面是准确理解用户意图的能力。然而，大多数图像搜索引擎要么基于图像到图像的匹配，要么基于图像与文本的匹配。这些方法的内在缺点在于无法根据用户的意图优化检索到的项目，尤其是当用户无法通过单个图像或所有关键字精确描述其意图时，单一模态检索越来越难以满足人们的需要。

2、模态是指人接受信息的特定方式。由于多媒体数据往往是多种信息的传递媒介（例如一段视频中往往会同时使得文字信息、视觉信息和听觉信息得到传播），多模态学习（multimodal deep learning）已逐渐发展为多媒体内容分析与理解的主要手段，国内外研究者也逐步在多模态学习领域取得了显著的研究成果。

3、早期的多模态组合图像检索经常是采用传统cnn进行特征提取，这种方式在单一特定领域具有一定优势，但扩展性和多场景适应性很差。随着基于transformer的预训练模型的提出，预训...

【技术保护点】

1.一种基于修改文本反馈的多模态图像检索方法，其特征在于，包括：

2.根据权利要求1所述的一种基于修改文本反馈的多模态图像检索方法，其特征在于，所述CLIP图像编码器和所述CLIP文本编码器根据CLIP特征提取网络构建检索模型，提取参考图像特征和修改文本特征。

3.根据权利要求2所述的一种基于修改文本反馈的多模态图像检索方法，其特征在于，所述根据CLIP特征提取网络构建检索模型包括对CLIP特征提取网络进行修改，CLIP特征提取网络包括图像特征提取网络和文本特征提取网络，修改是在图像特征提取网络和文本特征提取网络中加入双重注意力特征融合模块DAFM，并通过两阶段的...

【技术特征摘要】

1.一种基于修改文本反馈的多模态图像检索方法，其特征在于，包括：

2.根据权利要求1所述的一种基于修改文本反馈的多模态图像检索方法，其特征在于，所述clip图像编码器和所述clip文本编码器根据clip特征提取网络构建检索模型，提取参考图像特征和修改文本特征。

3.根据权利要求2所述的一种基于修改文本反馈的多模态图像检索方法，其特征在于，所述根据clip特征提取网络构建检索模型包括对clip特征提取网络进行修改，clip特征提取网络包括图像特征提取网络和文本特征提取网络，修改是在图像特征提取网络和文本特征提取网络中加入双重注意力特征融合模块dafm，并通过两阶段的微调训练方式，使clip特征提取网络...

【专利技术属性】
技术研发人员：宁博，李怀清，赵彬，董静阳，
申请(专利权)人：大连海事大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人