一种基于局部对齐与全局语义一致性的图像文本匹配方法组成比例

技术编号:39052336 阅读:18 留言:0更新日期:2023-10-12 19:45
本发明专利技术公开了一种基于局部对齐与全局语义一致性的图像文本匹配方法,包括以下步骤:步骤1,构建局部对齐与全局语义一致性网络LAGSC,所述网络包括:特征提取模块、跨模态堆叠注意力模块以及全局语义一致性计算模块;步骤2,使用特征提取模块,对输入的图像和输入的文本,进行特征提取;步骤3,使用跨模态堆叠注意力模块进行对齐;步骤4,使用全局语义一致性计算模块,进行全局语义一致性计算;步骤5,优化与测试,最终完成基于局部对齐与全局语义一致性的图像文本匹配。致性的图像文本匹配。致性的图像文本匹配。

【技术实现步骤摘要】
一种基于局部对齐与全局语义一致性的图像文本匹配方法


[0001]本专利技术涉及一种图像文本匹配方法,特别是一种基于局部对齐与全局语义一致性的图像文本匹配方法。

技术介绍

[0002]在过去的几十年里,由于来自以社交媒体为代表的开源情报数据的爆炸式增长,研究人员已经从单模态信息处理转向多模态数据的理解和处理。在所有模态数据中,对图像和文本的理解受到了研究者的广泛关注。目前,已经有一些视觉和语言的任务引起了学者们的广泛关注,例如图像字幕、视觉问答和图文匹配。
[0003]一种常见的方法是学习一个子空间,其中可以直接计算编码图像和文本表示的相似性,并使大多数相关图像

文本对的相似性最大化。这种方法称为全局嵌入,可以快速、直接地计算不同模态之间数据的相似度。全局嵌入方法已成为早期的主要研究方向。还有一些经典的方法,为后续的工作打下了基础。例如,法格里等人使用经典的特征提取网络(如ResNet和GRU)分别提取图像和文本的全局特征,并通过基于最负样本的三元组损失函数充分挖掘图像和文本之间的潜在信息。对于有标签的数据,DSCMR设计了一个新的损失函数来最小化标签空间和公共空间的判别损失,从而保持不同模态内的语义差异和不变性。
[0004]随着研究的发展,人们开始利用更精细的局部特征进行研究。实际上,图像对应的文字往往是对图像中显着对象的描述。图像区域与文本词的局部相关性研究成为热门话题。有领域提出了Stack Cross Attention模块用于区域和单词的对齐,然后使用对齐后的图像区域特征和文本单词特征计算相似度。后来人们在此基础上进行了进一步的研究,局部对齐方法取得了显著的成功。然而,局部对齐方法也有一些局限性。该方法将整个图文对的相似度转化为局部对象之间的相似度。但是同一个地区或者同一个词在不同的场景下可以有不同的含义。
[0005]在一些作品中,人们会使用额外的标签来为网络提供语义信息。然而,图文对的标注需要大量的资源。

技术实现思路

[0006]专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于局部对齐与全局语义一致性的图像文本匹配方法。
[0007]为了解决上述技术问题,本专利技术公开了一种基于局部对齐与全局语义一致性的图像文本匹配方法,包括以下步骤:
[0008]步骤1,构建局部对齐与全局语义一致性网络LAGSC,所述网络包括:特征提取模块、跨模态堆叠注意力模块以及全局语义一致性计算模块;
[0009]步骤2,使用特征提取模块,对输入的图像和输入的文本,进行特征提取,包括:
[0010]步骤2

1,对输入图像的特征进行提取,具体方法如下:
[0011]对于输入图像,使用在VG数据集上预训练的Faster

RCNN模型,提取图像的K个局
部特征F={f1,f2,..,f
i
,..,f
K
},其中f
i
表示第i个局部特征,表示预训练模型集合;
[0012]在上述Faster

RCNN模型中增加一个全连接层,将所述局部特征转化为d维的向量,方法如下:
[0013]v
i
=W
v
f
i
+b
v
,i∈[1,K][0014]其中,v
i
表示输入图像的第i个局部特征,W
v
表示图像影响权重,b
v
表示背景值;最终到图像的局部特征集合V={v1,v2,..,v
i
,..,v
K
},v
i
∈R
d
,其中,R
d
表示d维训练模型。
[0015]步骤2

2,对输入文本的特征进行提取,具体方法如下:
[0016]对于输入文本,将文本划分为L个单词;对于第j个单词,将其表示为one

hot向量,表示该单词在词汇表的索引,然后使用预训练好的Glove模型将该单词嵌入到300维表示空间中,再使用双向GRU网络得到增强后的单词特征;最终得到文本的局部特征集T={t1,t2,..,t
j
,...,t
d
},t
j
∈R
d

[0017]其中,t
j
表示文本的第j个局部特征。
[0018]步骤3,使用跨模态堆叠注意力模块进行对齐,即使用叠加交叉注意方法进行图像的局部区域与文本中的单词间的对齐。
[0019]所述的叠加交叉注意方法,具体包括:
[0020]对于K个图像的局部区域和L个单词,首先计算图像区域和文本单词的余弦相似度s
ij
,即:
[0021][0022]这里s
ij
表示图像第i个局部区域和文本第j个单词的相似度;
[0023]接着对局部相似度进行标准化,具体方如下:
[0024][0025]其中,表示标准化后的图像第i个局部区域和文本第j个单词的相似度,[x]+
=max(x,0);
[0026]最后对每个图像区域特征进行查询并和L个单词进行对齐。
[0027]步骤4,使用全局语义一致性计算模块,进行全局语义一致性计算,即使用对齐后局部特征的均值作为全局特征,方法如下:
[0028][0029][0030]其中,V
g
表示全局图像,T
g
表示全局文本,表示第i个图像区域,表示第i个文本区域。
[0031]步骤5,优化与测试,最终完成基于局部对齐与全局语义一致性的图像文本匹配。
[0032]所述的优化和测试,具体包括:
[0033]步骤5

1,计算损失函数,对所述的局部对齐与全局语义一致性网络进行优化;
[0034]所述的计算损失函数,具体包括:
[0035]采用基于最负样本的三元组排序损失作为局部损失函数L
loc
(I,T),具体如下:
[0036][0037]其中,α为阈值参数,和为一个批次内关于给定图文对(I,T)的最负样本,即为一个批次内关于给定图文对(I,T)的最负样本,即网络的最终损失定义为:
[0038]其中,α为阈值参数,和为一个批次内关于给定图文对(I,T)的最负样本,S(I,T)表示图像I和文本T的相似度,表示最小图像集合中的负相关数,表示最小文本集合中的负相关数,最终损失L(I,T)定义为:
[0039]L(I,T)=L
loc
(I,T)+β*L
glo
(I,T)
[0040]其中,L
glo
(I,T)表示图像I和文本T之间的距离,β是平衡两个因素的常量。
[0041]步骤5

2,在测试阶段更新步骤3中所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于局部对齐与全局语义一致性的图像文本匹配方法,其特征在于,包括以下步骤:步骤1,构建局部对齐与全局语义一致性网络LAGSC,所述网络包括:特征提取模块、跨模态堆叠注意力模块以及全局语义一致性计算模块;步骤2,使用特征提取模块,对输入的图像和输入的文本,进行特征提取;步骤3,使用跨模态堆叠注意力模块进行对齐;步骤4,使用全局语义一致性计算模块,进行全局语义一致性计算;步骤5,优化与测试,最终完成基于局部对齐与全局语义一致性的图像文本匹配。2.根据权利要求1所述的一种基于局部对齐与全局语义一致性的图像文本匹配方法,其特征在于,步骤2中所述的进行特征提取,包括:步骤2

1,对输入图像的特征进行提取;步骤2

2,对输入文本的特征进行提取。3.根据权利要求2所述的一种基于局部对齐与全局语义一致性的图像文本匹配方法,其特征在于,步骤2

1中所述的对输入图像的特征进行提取,具体方法如下:对于输入图像,使用在VG数据集上预训练的Faster

RCNN模型,提取图像的K个局部特征其中f
i
表示第i个局部特征,表示预训练模型集合;在上述Faster

RCNN模型中增加一个全连接层,将所述局部特征转化为d维的向量,方法如下:v
i
=W
v
f
i
+b
v
,i∈[1,K]其中,v
i
表示输入图像的第i个局部特征,W
v
表示图像影响权重,b
v
表示背景值;最终到图像的局部特征集合V={v1,v2,..,v
i
,..,v
K
},v
i
∈R
d
,其中,R
d
表示d维训练模型。4.根据权利要求3所述的一种基于局部对齐与全局语义一致性的图像文本匹配方法,其特征在于,步骤2

2中所述的对输入文本的特征进行提取,具体方法如下:对于输入文本,将文本划分为L个单词;对于第j个单词,将其表示为one

hot向量,表示该单词在词汇表的索引,然后使用预训练好的Glove模型将该单词嵌入到300维表示空间中,再使用双向GRU网络得到增强后的单词特征;最终得到文本的局部特征集T={t1,t2,..,t
j
,...,t
d
},t
j
∈R
d
;其中,t
j
表示文本的第j个局部特征。5.根据权利要求4所述的一种基于局部对齐与全局语义一致性的图像文本匹配方法,其特征在于,步骤3中所述的使用跨模态堆叠注意力模块进行对齐,即使用叠加交叉注意方法进行图像的局部区域与文本中的单词间的对齐。6.根据权利要求5所述的一种基...

【专利技术属性】
技术研发人员:李彭伟李亚钊吴诗婳刘博李子
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1