【技术实现步骤摘要】
一种基于局部对齐与全局语义一致性的图像文本匹配方法
[0001]本专利技术涉及一种图像文本匹配方法,特别是一种基于局部对齐与全局语义一致性的图像文本匹配方法。
技术介绍
[0002]在过去的几十年里,由于来自以社交媒体为代表的开源情报数据的爆炸式增长,研究人员已经从单模态信息处理转向多模态数据的理解和处理。在所有模态数据中,对图像和文本的理解受到了研究者的广泛关注。目前,已经有一些视觉和语言的任务引起了学者们的广泛关注,例如图像字幕、视觉问答和图文匹配。
[0003]一种常见的方法是学习一个子空间,其中可以直接计算编码图像和文本表示的相似性,并使大多数相关图像
‑
文本对的相似性最大化。这种方法称为全局嵌入,可以快速、直接地计算不同模态之间数据的相似度。全局嵌入方法已成为早期的主要研究方向。还有一些经典的方法,为后续的工作打下了基础。例如,法格里等人使用经典的特征提取网络(如ResNet和GRU)分别提取图像和文本的全局特征,并通过基于最负样本的三元组损失函数充分挖掘图像和文本之间的潜在信息。对于有标签的数据,DSCMR设计了一个新的损失函数来最小化标签空间和公共空间的判别损失,从而保持不同模态内的语义差异和不变性。
[0004]随着研究的发展,人们开始利用更精细的局部特征进行研究。实际上,图像对应的文字往往是对图像中显着对象的描述。图像区域与文本词的局部相关性研究成为热门话题。有领域提出了Stack Cross Attention模块用于区域和单词的对齐,然后使用对齐后的图像区域特征 ...
【技术保护点】
【技术特征摘要】
1.一种基于局部对齐与全局语义一致性的图像文本匹配方法,其特征在于,包括以下步骤:步骤1,构建局部对齐与全局语义一致性网络LAGSC,所述网络包括:特征提取模块、跨模态堆叠注意力模块以及全局语义一致性计算模块;步骤2,使用特征提取模块,对输入的图像和输入的文本,进行特征提取;步骤3,使用跨模态堆叠注意力模块进行对齐;步骤4,使用全局语义一致性计算模块,进行全局语义一致性计算;步骤5,优化与测试,最终完成基于局部对齐与全局语义一致性的图像文本匹配。2.根据权利要求1所述的一种基于局部对齐与全局语义一致性的图像文本匹配方法,其特征在于,步骤2中所述的进行特征提取,包括:步骤2
‑
1,对输入图像的特征进行提取;步骤2
‑
2,对输入文本的特征进行提取。3.根据权利要求2所述的一种基于局部对齐与全局语义一致性的图像文本匹配方法,其特征在于,步骤2
‑
1中所述的对输入图像的特征进行提取,具体方法如下:对于输入图像,使用在VG数据集上预训练的Faster
‑
RCNN模型,提取图像的K个局部特征其中f
i
表示第i个局部特征,表示预训练模型集合;在上述Faster
‑
RCNN模型中增加一个全连接层,将所述局部特征转化为d维的向量,方法如下:v
i
=W
v
f
i
+b
v
,i∈[1,K]其中,v
i
表示输入图像的第i个局部特征,W
v
表示图像影响权重,b
v
表示背景值;最终到图像的局部特征集合V={v1,v2,..,v
i
,..,v
K
},v
i
∈R
d
,其中,R
d
表示d维训练模型。4.根据权利要求3所述的一种基于局部对齐与全局语义一致性的图像文本匹配方法,其特征在于,步骤2
‑
2中所述的对输入文本的特征进行提取,具体方法如下:对于输入文本,将文本划分为L个单词;对于第j个单词,将其表示为one
‑
hot向量,表示该单词在词汇表的索引,然后使用预训练好的Glove模型将该单词嵌入到300维表示空间中,再使用双向GRU网络得到增强后的单词特征;最终得到文本的局部特征集T={t1,t2,..,t
j
,...,t
d
},t
j
∈R
d
;其中,t
j
表示文本的第j个局部特征。5.根据权利要求4所述的一种基于局部对齐与全局语义一致性的图像文本匹配方法,其特征在于,步骤3中所述的使用跨模态堆叠注意力模块进行对齐,即使用叠加交叉注意方法进行图像的局部区域与文本中的单词间的对齐。6.根据权利要求5所述的一种基...
【专利技术属性】
技术研发人员:李彭伟,李亚钊,吴诗婳,刘博,李子,
申请(专利权)人:中国电子科技集团公司第二十八研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。