基于动态路由的跨模态注意力筛选网络的跨模态匹配方法组成比例

技术编号:33962158 阅读:35 留言:0更新日期:2022-06-30 00:44
本发明专利技术公开了基于动态路由的跨模态注意力筛选网络的跨模态匹配方法。该任务在局部对齐方面已取得显著的进展。它们通常对每幅图像检测置信度排名前36位的显著区域进行建模。但这些区域通常包含不相关的冗余区域,可能会给建模过程引入噪声干扰模型推理。根据我们对该任务中最广泛使用数据集的统计,区域数量远大于单词数量。因此,我们提出一种具有动态路由的跨模态注意力筛选网络,为每个输入图像自动配置适当数量的区域。该网络具有区域数量决策的能力,能够根据不同的数据动态学习不同的激活区域,从而减少冗余计算。此外,设计了跨模态筛选模块,通过过滤无关信息保留有意义的交互特征,抑制无意义对齐的干扰,同时自适应调整全局和局部依赖。全局和局部依赖。

【技术实现步骤摘要】
基于动态路由的跨模态注意力筛选网络的跨模态匹配方法


[0001]本专利技术属于跨模态匹配的方法,涉及计算机视觉和自然语言处理的


技术介绍

[0002]随着创新技术和社交媒体的进步,各种多媒体数据和信息被聚集在一起。为了使计算机能够理解、匹配和转换这种跨模态数据,跨模态检索已成为一种基本技术,它将语义相关的实例从一个模态索引到另一个模态。它在视觉语义导航、视觉问答和图像字幕等领域有很多应用。
[0003]跨模态匹配任务主要是通过将图像和句子映射到合适的公共空间来挖掘图像和文本之间的语义关联。大多数早期的方法为图像和文本等不同的模态构造了两个子网络,它们在公共空间进行交互来建模交叉模态的关系。例如Kiros等人采用CNN和LSTM学习图像和句子的表示,并通过三元组排序损失对模型进行优化。Faghriet等人提出了结合硬负样本的三元组排序损失,并在跨模态检索任务上显示出了显著的改进。虽然一些开创性的研究取得了很大的进展,但他们直接学习了全局表示,而忽略了细粒度分析。
[0004]因此,越来越多的研究者们致力于探索图像中区域与句子中单词之间的细粒度对应关系,用于图像

文本匹配。Karpathy等人的用于双向图像句子映射的深度碎片嵌入网络,通过提取每个图像和文本的碎片特征来对每个碎片对进行对齐。此外,在自底向上和自顶向下的注意力网络中,提出用一组图像显著区域来描述一幅图像,每个区域用卷积特征向量表示。随后,Lee等人采用自底向上的注意力网络将图像编码为区域级特征,并设计了一种堆叠交叉注意力网络,通过关注与区域相关的单词或与单词相关的区域来推断图像

文本匹配。
[0005]同时,外部模块的引用也给跨模态匹配带来了检索结果的提升。例如,刘等人提出了一个图结构匹配网络,该网络将对象、关系和属性显式建模为一个短语,并联合推断出细粒度的对应关系。王等人利用一个外部语料库学习共识感知的概念表示,以进一步加强图像和文本之间的语义关系。而随着Transformers在视觉和语言领域的成功,段等人提出了一种通用编码器,旨在通过预训练的方式学习视觉和语言的更好的联合表示来进行跨模态检索。
[0006]此外,目前流行的深度学习模型大多是静态推理,训练后网络参数是固定的,这限制了其表示能力、效率和可解释性。与传统的静态网络结构相比,动态网络通过使其结构或参数适应不同的输入,在效率、兼容性和适应性方面具有优势。特别是,早期的动态方法旨在通过修剪神经元或跳过层来实现网络压缩。例如,陈等人的动态区域感知卷积,使用可学习的指导员将通道级滤波器增加到空间维度,这不仅提高了卷积的表示能力还保持了标准卷积剂量下的计算代价。近年来,一些研究人员针对多分支或树状结构的网络设计了不同的动态路由,并在网络内部进行动态路由,使计算图适应每个样本。Li等人提出了一种软条件门来动态选择尺度变换路径进行语义分割,该门适应了每幅图像的尺度分布。
[0007]虽然传统的方法已经取得了很大的进步,但这些工作很大程度上依赖于手工制作
的特征,而这些特征并不总是针对特定的目标进行优化,比如每幅图像的区域数量。因此,我们构建了一种具有动态路由的跨模态注意力筛选网络,为每个输入图像自动配置适当数量的区域。使该网络具有区域数量决策的能力,同时减少冗余计算。此外,本专利技术设计了一种新的跨模态筛选模块,通过过滤无关信息保留有意义的交互特征,抑制无意义对齐的干扰,同时进一步自适应调整全局和局部依赖。

技术实现思路

[0008]本专利技术的目的是为了解决在跨模态匹配方法中,他们大多严重依赖于专家经验,对所有图像检测固定数量的区域进行建模,而在图像区域数量的选择上缺乏灵活性的问题。
[0009]本专利技术为解决上述技术问题采取的技术方案是:
[0010]S1.构建动态路由器,根据图像的复杂程度选择相应的注意力区域块,从而具有区域数量决策的能力。
[0011]S2.结合S1中的动态路由器,设计一个动态路由注意力模块,通过对定义的注意区域数量构造不同的邻接掩码来解决参数冗余和计算问题。
[0012]S3.构建跨模态筛选模块,保留有意义的交互特征,过滤不相关的信息,抑制无意义的图像

文本对的干扰,学习图像和文本之间的语义关系。
[0013]S4.结合S2中的模块和S3中的模块构建基于动态路由的跨模态注意力筛选网络的跨模态匹配方法的整体架构。
[0014]S5.基于动态路由的跨模态注意力筛选网络的跨模态匹配方法的训练。
[0015]为了实现对每个图像的动态选择,我们考虑了一个由多块结构组成的网络,其中每个块都配有不同设置的模块。具体地说,给定图像特征V∈R
d
×
m
,路由空间可以定义为A=[A0,...,A
b
],b表示注意力区域块的数量,d是图像特征的维度,经过路由后的特征可以定义为:
[0016][0017]其中α为路由器预测的选择概率,A为单元操作的集合。在每个节点内设计一个基本单元和相应的路由来选择特定的区域特征。对于每幅图像,我们设计了3种不同数量的候选区域块,分别选择置信度分数排名最高的前g个区域。图像特征将用于单元内部和路线内部的特征转换。
[0018]我们提出的软路由器可以看作是一个块决策过程。根据图像的全局含义生成每条路径的路由概率。给定图像特征V∈R
d
×
m
,对每个注意力块的选择预测概率α∈R
b
可以由下式得到:
[0019]V
*
=softmax(FC2(V))V
ꢀꢀꢀ
(2)
[0020]α=relu(tanh(FC1(V
*
)))
ꢀꢀꢀ
(3)
[0021]FC为全连接函数。同时,在动态路由注意力模块中,我们采用自注意力和身份映射作为每个单元的实现。然而,自我关注的点积操作会产生昂贵的计算和巨大的内存占用。在这种情况下,减少大量的计算量是至关重要的。因此,我们调整了每个输入图像的注意区域数量,这是与现有的基于自我注意的方法的关键区别。通过重新审视标准自我注意的定义,
可以得到区域注意力权重:
[0022][0023]其中,η
ij
测量第j个位置对第i个位置的影响。m表示图像中区域的个数,测量第j个位置对第i个位置的影响。m表示图像中区域的个数,η
ij
可以看作是一个图像种不同区域间的完全连接图。
[0024]为了获得不同的关注区域的特点,我们需要限制每个输入图像的区域连接,因此通过引入一个邻接mask M∈R
m
×
m
,可以得到新的区域注意力权重:
[0025][0026]M是二进制的值。当它在目标元素的注意区域内时,将其设置为1。因此,将注意力操作限制在一定数量的图像区域内,以探讨模内语义关系。最后给出了路由器注意模块的输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于动态路由的跨模态注意力筛选网络的跨模态匹配方法,其特征在于,所述方法包括以下步骤:S1.构建动态路由器,根据图像的复杂程度选择相应的注意力区域块,从而具有区域数量决策的能力。S2.结合S1中的动态路由器,设计一个动态路由注意力模块,通过对定义的注意力区域数量构造不同的邻接掩码来解决参数冗余和计算问题。S3.构建跨模态筛选模块,保留有意义的交互特征,过滤不相关的信息,抑制无意义的图像

文本对的干扰,学习图像和文本之间的语义关系。S4.结合S2中的模块和S3中的模块构建基于动态路由的跨模态注意力筛选网络的跨模态匹配方法的整体架构。S5.基于动态路由的跨模态注意力筛选网络的跨模态匹配方法的训练。2.根据权利要求1所述的基于动态路由的跨模态注意力筛选网络的跨模态匹配方法,其特征在于,所述S1的具体过程为:为了实现对每个图像的动态选择,我们考虑了一个由多块结构组成的网络,其中每个块都配有不同设置的模块。具体地说,给定图像特征V∈R
d
×
m
,路由空间可以定义为A=[A0,...,A
b
],b表示注意力区域块的数量,d是图像特征的维度,经过路由后的特征可以定义为:其中α为路由器预测的选择概率,A为单元操作的集合。在每个节点内设计一个基本单元和相应的路由来选择特定的区域特征。对于每幅图像,我们设计了3种不同数量的候选区域块,分别选择置信度分数排名最高的前g个区域。图像特征将用于单元内部和路线内部的特征转换。我们提出的软路由器可以看作是一个块决策过程。根据图像的全局含义生成每条路径的路由概率。给定图像特征V∈R
d
×
m
,对每个注意力块的选择预测概率α∈R
b
可以由下式得到:V
*
=softmax(FC2(V))V
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)α=relu(tanh(FC1(V
*
)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,FC为全连接函数。3.根据权利要求1所述的基于动态路由的跨模态注意力筛选网络的跨模态匹配方法,其特征在于,所述S2的具体过程为:在动态路由注意力模块中,我们采用自注意力和身份映射作为每个单元的实现。然而,自我关注的点积操作会产生昂贵的计算和巨大的内存占用。在这种情况下,减少大量的计算量是至关重要的。因此,我们调整了每个输入图像的注意区域数量,这是与现有的基于自我注意的方法的关键区别。通过重新审视标准自我注意的定义,可以得到区域注意力权重:
其中,η
ij
测量第j个位置对第i个位置的影响。m表示图像中区域的个数,测量第j个位置对第i个位置的影响。m表示图像中区域的个数,η
ij
可以看作是一个图像种不同区域间的完全连接图。为了获得不同的关注区域的特点,我们需要限制每个输入图像的区域连接,因此通过引入一个邻接mask M∈R
m
×
m
,可以得到新的区域注意力权重:M是二进制的值。当它在目标元素的注意区域内时,将其设置为1。因此,将注意力操作限制在一定数量的图像区域内,以探讨模内语义关系。最后给出了路由器注意模块的输出,如下式所示:其中,这样,图像中区域的数量就受到了限制。这将大大降低计算复杂度和数据冗余带来的误差。4.根据权利要求1所述的基于动态路由的跨模态注意力筛选网络的跨模态匹配方法,其特征在于,所述S3的具体过程为:为了更好地聚集共享语义,弥合视觉和文本之间的语义鸿沟,提出了一种跨模态筛选模块来抑制无意义对齐的干扰,从而进一步减少了整个模型的时间消耗。特别地,给定局部和全局特征表示,我...

【专利技术属性】
技术研发人员:吴杰吴春雷宫法明张立强路静
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1