【技术实现步骤摘要】
本专利技术涉及多模态图像检索,具体而言,尤其涉及一种基于修改文本反馈的多模态图像检索方法。
技术介绍
1、图像检索一直是计算机视觉领域的核心内容。构建图像检索系统最具挑战性的一个方面是准确理解用户意图的能力。然而,大多数图像搜索引擎要么基于图像到图像的匹配,要么基于图像与文本的匹配。这些方法的内在缺点在于无法根据用户的意图优化检索到的项目,尤其是当用户无法通过单个图像或所有关键字精确描述其意图时,单一模态检索越来越难以满足人们的需要。
2、模态是指人接受信息的特定方式。由于多媒体数据往往是多种信息的传递媒介(例如一段视频中往往会同时使得文字信息、视觉信息和听觉信息得到传播),多模态学习(multimodal deep learning)已逐渐发展为多媒体内容分析与理解的主要手段,国内外研究者也逐步在多模态学习领域取得了显著的研究成果。
3、早期的多模态组合图像检索经常是采用传统cnn进行特征提取,这种方式在单一特定领域具有一定优势,但扩展性和多场景适应性很差。随着基于transformer的预训练模型的提出,预训
...【技术保护点】
1.一种基于修改文本反馈的多模态图像检索方法,其特征在于,包括:
2.根据权利要求1所述的一种基于修改文本反馈的多模态图像检索方法,其特征在于,所述CLIP图像编码器和所述CLIP文本编码器根据CLIP特征提取网络构建检索模型,提取参考图像特征和修改文本特征。
3.根据权利要求2所述的一种基于修改文本反馈的多模态图像检索方法,其特征在于,所述根据CLIP特征提取网络构建检索模型包括对CLIP特征提取网络进行修改,CLIP特征提取网络包括图像特征提取网络和文本特征提取网络,修改是在图像特征提取网络和文本特征提取网络中加入双重注意力特征融合模块DA
...【技术特征摘要】
1.一种基于修改文本反馈的多模态图像检索方法,其特征在于,包括:
2.根据权利要求1所述的一种基于修改文本反馈的多模态图像检索方法,其特征在于,所述clip图像编码器和所述clip文本编码器根据clip特征提取网络构建检索模型,提取参考图像特征和修改文本特征。
3.根据权利要求2所述的一种基于修改文本反馈的多模态图像检索方法,其特征在于,所述根据clip特征提取网络构建检索模型包括对clip特征提取网络进行修改,clip特征提取网络包括图像特征提取网络和文本特征提取网络,修改是在图像特征提取网络和文本特征提取网络中加入双重注意力特征融合模块dafm,并通过两阶段的微调训练方式,使clip特征提取网络...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。