【技术实现步骤摘要】
基于全局与局部语义对比学习的跨模态检索方法及系统
[0001]本专利技术属于信息
,具体涉及一种基于全局与局部语义对比学习的跨模态检索方法
。
技术介绍
[0002]图文检索任务
(Image
‑
Text Retrieval,ITR)
是跨模态研究领域一项基本任务,其主要目的是需要人工智能代理在给定文本查询的情况下检索语义相关的图像,反之亦然
。
图文检索的关键挑战是弥合低级视觉外观和高级抽象语言之间的异质性差距,并调整它们的表示
。
这也是一系列视觉和语言任务的基本问题
。
在真实世界的场景中,除了有效的跨模态对齐以实现准确的检索外,检索系统还致力于以低延迟实现实时检索
。
因此,如何在准确性和效率之间取得平衡成为大规模图像文本检索应用面临的关键挑战
。
以往的研究大多侧重于检索效率或检索准确性
。
早期的独立嵌入模型
[1,2]对每个图像和每个文本进行全局特征编码 >。
然后,本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于全局与局部语义对比学习的跨模态检索方法,其特征在于,包括以下步骤:通过独立嵌入模型,从给定图像
‑
文本对
(V,T)
提取视觉和文本的局部上下文特征并输入到上下文对齐模块中进行以下步骤处理;根据获得视觉和文本的全局上下文特征根据获得增强的视觉和文本的局部上下文特征根据获得增强的视觉和文本的全局上下文特征根据和和和计算上下文共享表征学习的损失根据获得视觉和文本的局部聚合上下文特征分别融合和和和得到视觉和文本的全局融合上下文特征根据和得到给定图像
‑
文本对
(V,T)
的上下文关系级别匹配分数
S
c
(V,T)
;基于
S
c
(V,T)
,计算使匹配的图像
‑
文本对的上下文相似性高于不匹配的图像
‑
文本对的损失由损失和的和作为上下文对齐模块中的总损失训练上下文对齐模块,直至总损失最小,以增强独立嵌入模型的表征能力;训练完成后,使用增强的独立嵌入模型进行图像和文本的跨模态检索
。2.
如权利要求1所述的方法,其特征在于,根据通过平均池获得
3.
如权利要求1所述的方法,其特征在于,根据利用全连接层进行批量归一化和
ReLu
激活操作,获得
4.
如权利要求1所述的方法,其特征在于,根据利用全连接层进行批量归一化和
ReLu
激活操作,获得
5.
如权利要求1所述的方法,其特征在于,根据和和和计算损失的步骤包括:将来自成对图像
‑
文本对的和作为正样本,将来自未成对图像
‑
文本对的特征作为负样本,计算文本全局与视觉局部对比损失将来自成对文本
‑
图像对的和作为正样本,将来自未成对文本
‑
图像对的特征作为负样本,计算视觉全局与文本局部对比损失由和得到损失
6.
如权利要求1所述的方法,其特征在于,根据通过平均池获得
7.
如权利要求1所述的方法,其特征在于,融合和得到的方法如下:的方法如下:其中,
g
是自适应...
【专利技术属性】
技术研发人员:于静,熊刚,庄佳敏,李镇,苟高鹏,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。