基于跨模态全局与局部注意力机制的双向图文匹配方法组成比例

技术编号:38547677 阅读:12 留言:0更新日期:2023-08-22 20:56
本发明专利技术公开了基于跨模态全局与局部注意力机制的双向图文匹配方法,首先进行数据集获取,然后进行特征提取,构建基于全局门控自注意力机制(GSA)和局部跨模态注意力机制(CAU)的图文匹配模型;确定图文匹配模型的损失函数,最后进行网络训练与测试。本发明专利技术同时使用全局和局部对齐,局部对齐可以捕获细粒度的对应关系,全局对齐可以获得更高层次的语义信息,两者结合考虑图文的对应关系,提高了匹配的精度。的精度。的精度。

【技术实现步骤摘要】
基于跨模态全局与局部注意力机制的双向图文匹配方法


[0001]本专利技术涉及图文检索,尤其涉及一种基于跨模态全局与局部注意力机制的双向图文匹配方法。

技术介绍

[0002]图像和句子匹配是视觉和语言领域的基本任务之一。这种跨模态匹配任务的目标是准确测量图像和句子之间的视觉语义相似性。尽管近年来取得了重大进展,但它仍然是一个具有挑战性的问题,因为它需要理解语言语义、视觉内容以及跨模态关系和对齐。
[0003]在深度学习成功的推动下,主流已经转变为模态特定的深度特征学习,例如,学习图像的卷积神经网络和句子的循环神经网络。对于视觉文本内容理解,发展了许多成熟的深度主干模型,例如VGG、ResNet、Bert,这将各种任务的性能提高到了显著水平。现有大多数成功的图文匹配模型,根据模态表示的粒度可以分为两类:全局嵌入的方法和局部推理的方法。前者首先将整个图像和句子嵌入到联合嵌入空间中,然后计算视觉语义相似度。然而,仅使用全局对齐的方法始终表现出有限的性能,因为文本描述通常包含更多细粒度的图像细节,这很容易被全局对齐平滑,导致对细粒度的建模不够。后一种方法首先提取局部特征片段(例如,视觉区域和词语)的更加细粒度的表示,然后聚合局部相似性以推断图像文本对齐。大多数现有方法通过将共享语义表示为所有特征片段(图像区域或文本单词)的加权组合来实现这一目标,其中与共享语义相关的特征片段获得更多关注,否则获得更少关注。然而,尽管相关因素对共享语义的贡献更大,但不相关因素或多或少会干扰共享语义,从而导致相关阶段的语义错位。

技术实现思路

[0004]本专利技术针对现有技术的不足,提供了一种基于跨模态全局与局部注意力机制的双向图文匹配方法。之前的研究方法,往往仅使用全局或者局部对齐方法中的一种,本文同时使用全局和局部对齐,局部对齐可以捕获细粒度的对应关系,全局对齐可以获得更高层次的语义信息,两者结合考虑图文的对应关系。
[0005]基于跨模态全局与局部注意力机制的双向图文匹配方法,其步骤如下:
[0006]步骤1.数据集获取,从现有的图文匹配数据集中,选择2种数据集Flickr30K和MSCOCO。
[0007]步骤2.特征提取,使用预训练的特征提取网络检测图像区域并提取每个图像区域的特征向量。使用双向门控循环网络作为编码器提取文本的单词级特征。
[0008]步骤3.构建基于全局门控自注意力机制(GSA)和局部跨模态注意力机制(CAU)的图文匹配模型,由全局分支和局部分支组成。以步骤2处理后的图像特征以及文本特征作为输入。
[0009]步骤4.确定图文匹配模型的损失函数,损失函数的作用是能够最大化相关图像

文本对的相关性得分,并最小化无关文本

图像对的相关性分数。此处采用双向三元排序损
失。
[0010]步骤5.网络训练与测试,协同训练步骤3中的全局分支和局部分支,在训练的同时在每个数据集提供的测试集上进行评估。
[0011]步骤1所述的Flickr30K,它总共包含31000个图像,每个图像涉及五个文本。将Flickr30K分为29000个训练图像、1000个验证图像和1000个测试图像。MSCOCO是一个大型基准测试集,包含123287个图像,每个图像有五个文本。使用其中的113287张图像进行训练,5000张图像进行验证,5000张用于测试。
[0012]步骤2所述的特征提取,具体实现如下:
[0013]图像特征提取:检测对全局语义贡献最大的显著区域,并将每个区域编码为特征向量。所述的特征提取网络包括FasterR

CNN和ResNet

101;使用FasterR

CNN检测显著区域,预测对象边界框并对其进行评分。根据得分选择前P(P=36)个显著对象,使用预训练的ResNet

101提取显著对象边界框的平均池卷积特征,最后应用全连接层将提取的平均池卷积特征转换为目标1024维特征向量。
[0014]文本特征提取:使用双向门控循环网络将前馈和后向上下文信息集成到单词表示中。具体来说,首先将文本拆分为多个单词,并将每个单词嵌入到低维向量中,然后将其输入双向门控循环网络。经过网络选择性的保留有价值的语义信息,舍弃无意义的语义信息,最终将网络前向和后向隐藏状态的平均值作为文本表示,它包含文本中每个单词的1024维特征。
[0015]进一步的,步骤3具体实现如下:
[0016]全局分支部分:
[0017]将步骤2所得的图像和文本特征输入到门控自注意力机制模块中,经过该模块,图像中的每个区域都能注意到其他区域,文本中的每个单词能够注意到其他单词。接着将图像特征经过平均池化得到全局的图像特征Img
global
,文本特征通过1维CNN和最大池化得到全局的文本特征
[0018]门控自注意力机制模块具体实现如下:
[0019]门控自注意力机制模块包括多头自注意力、门控机制两部分,其中门控机制用于对多头自注意力机制的优化,能够消除关键词和对应值存在的噪声信息。
[0020]多头自注意力计算如下:
[0021][0022]其中表示查询,关键词以及对应的值,d
k
,n表示维度和序列的长度。其中Softmax对每一行执行操作。为了进一步加强代表性的区别,多头自我注意力机制包括H个并行自注意机制,为从不同的子空间捕获上下文信息,如下公式:
[0023]hi=Attention(Qi,Ki,Vi)
ꢀꢀ
(2)
[0024]其中hi代表第i个注意力头的输出,并且:
[0025][0026]其中X∈R
n
×
d
表示输入特征,d,n表示维度和序列的长度,表示输入特征,d,n表示维度和序列的长度,为可学习的映射矩阵。
[0027]门控机制:
[0028]因为公式(3)所进行的简单映射可能使得映射后的查询,关键词和对应值存在噪声和无意义的信息,为了适应性传递信息以及限制没有意义的信息,为映射增加了门控机制。具体地,对于第i个注意头,首先将映射到共同空间,接着执行融合操作,计算如公式(4):
[0029][0030]其中G
i
∈R
n
×
d
表示融合结果,

表示矩阵元素级别的乘积操作,d,n表示维度和序列的长度,为可学习的映射矩阵,为偏置矩阵。然后通过融合结果G
i
生成对应于查询和关键词的门控掩蔽,计算如公式(5):
[0031][0032]其中G
i
∈R
n
×
d
表示融合结果,σ表示sigmoid函数,表示融合结果,σ表示sigmoid函数,为可学习的参数。
[0033]最后得到的掩蔽结果和用于控制原始Q
i
和K
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于跨模态全局与局部注意力机制的双向图文匹配方法,其特征在于,其步骤如下:步骤1.数据集获取,从现有的图文匹配数据集中,选择2种数据集Flickr30K和MSCOCO;步骤2.特征提取,使用预训练的特征提取网络检测图像区域并提取每个图像区域的特征向量;使用双向门控循环网络作为编码器提取文本的单词级特征;步骤3.构建基于全局门控自注意力机制GSA和局部跨模态注意力机制CAU的图文匹配模型,模型由全局分支和局部分支组成,以步骤2处理后的图像特征以及文本特征作为输入;步骤4.确定图文匹配模型的损失函数,损失函数的作用是能够最大化相关图像

文本对的相关性得分,并最小化无关文本

图像对的相关性分数;此处采用双向三元排序损失;步骤5.网络训练与测试,协同训练步骤3中的全局分支和局部分支,在训练的同时在每个数据集提供的测试集上进行评估。2.根据权利要求1所述的基于跨模态全局与局部注意力机制的双向图文匹配方法,步骤1所述的Flickr30K,它总共包含31000个图像,每个图像涉及五个文本;将Flickr30K分为29000个训练图像、1000个验证图像和1000个测试图像;MSCOCO是一个大型基准测试集,包含123287个图像,每个图像有五个文本;使用其中的113287张图像进行训练,5000张图像进行验证,5000张用于测试。3.根据权利要求1所述的基于跨模态全局与局部注意力机制的双向图文匹配方法,步骤2所述的特征提取,具体实现如下:图像特征提取:检测对全局语义贡献最大的显著区域,并将每个区域编码为特征向量;所述的特征提取网络包括Faster R

CNN和ResNet

101;使用FasterR

CNN检测显著区域,预测对象边界框并对其进行评分;根据得分选择前P个显著对象,使用预训练的ResNet

101提取显著对象边界框的平均池卷积特征,最后应用全连接层将提取的平均池卷积特征转换为目标1024维特征向量;文本特征提取:使用双向门控循环网络将前馈和后向上下文信息集成到单词表示中;具体来说,首先将文本拆分为多个单词,并将每个单词嵌入到低维向量中,然后将其输入双向门控循环网络;经过网络选择性的保留有价值的语义信息,舍弃无意义的语义信息,最终将网络前向和后向隐藏状态的平均值作为文本表示,它包含文本中每个单词的1024维特征。4.根据权利要求3所述的基于跨模态全局与局部注意力机制的双向图文匹配方法,步骤3具体实现如下:全局分支部分:将步骤2所得的图像和文本特征输入到门控自注意力机制模块中,经过该模块,图像中的每个区域都能注意到其他区域,文本中的每个单词能够注意到其他单词;接着将门控自注意力机制模块处理后的图像特征经过平均池化得到全局的图像特征Img
global
,文本特征通过1维CNN和最大池化得到全局的文本特征局部分支部分:所述的局部分支包括跨模态交互模块、注意力过滤模块和优化模块;跨模态交互模块的作用是,以一个模态为基础,总结来着另外一个模态的上下文信息,在图像特征和文本特
征之间建立相似度的关系;注意力过滤模块和优化模块用于对于跨模态交互后的结果进行重新过滤与优化,过滤掉不相匹配的图像和语义特征,使得图像模态和文本模态的表示更加准确匹配。5.根据权利要求4所述的基于跨模态全局与局部注意力机制的双向图文匹配方法,门控自注意力机制模块具体实现如下:门控自注意力机制模块包括多头自注意力、门控机制两部分,其中门控机制用于对多头自注意力机制的优化,能够消除关键词和对应值存在的噪声信息;多头自注意力计算如下:其中表示查询,关键词以及对应的值,d
k
,n表示维度和序列的长度;其中S0ftmax对每一行执行操作;为了进一步加强代表性的区别,多头自我注意力机制包括H个并行自注意机制,为从不同的子空间捕获上下文信息,如下公式:hi=Attention(Qi,Ki,Vi)
ꢀꢀꢀꢀ
(2)其中hi代表第i个注意力头的输出,并且:其中X∈R
n
×
d
表示输入特征,d,n表示维度和序列的长度,表示输入特征,d,n表示维度和序列的长度,为可学习的映射矩阵;门控机制:因为公式(3)所进行的简单映射可能使得映射后的查询,关键词和对应值存在噪声和无意义的信息,为了适应性传递信息以及限制没有意义的信息,为映射增加了门控机制;具体地,对于第i个注意头,首先将映射到共同空间,接着执行融合操作,计算如公式(4):其中G
i
∈R
n
×
d
表示融合结果,

表示矩阵元素级别的乘积操作,d,n表示维度和序列的长度,为可学习的映射矩阵,为偏置矩阵;然后通过融合结果G
i
生成对应于查询和关键词的门控掩蔽,计算如公式(5):其中G
i
∈R
n
×
d
表示融合结果,σ表示sigmoid函数,表示融合结果,σ表示sigmoid函数,为可学习的参数;最后得到的掩蔽结果和用于控制原始Q
i
和K
i
的信息流,随后将公式(2)的多头注意力改进为以下公式:
其中为第i个自注意力头的输出;最终整个模块用如下公式(7)表示:6.根据权利要求5所述的基于跨模态全局与局部注意力机制的双向图文匹配方法,所述的跨模态交互模块具体如下:将步骤2所得的图像和文本特征记为X={x
a
|a∈[1,m],x
a
∈R
d
}和Y={y
b
|b∈[1,n],y
b
∈R

【专利技术属性】
技术研发人员:陈超炜俞俊陈宇朱素果
申请(专利权)人:杭州臾宇智能科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1