基于动态路由的跨模态注意力筛选网络的跨模态匹配方法组成比例

技术编号：33962158 阅读：35 留言：0更新日期：2022-06-30 00:44

本发明专利技术公开了基于动态路由的跨模态注意力筛选网络的跨模态匹配方法。该任务在局部对齐方面已取得显著的进展。它们通常对每幅图像检测置信度排名前36位的显著区域进行建模。但这些区域通常包含不相关的冗余区域，可能会给建模过程引入噪声干扰模型推理。根据我们对该任务中最广泛使用数据集的统计，区域数量远大于单词数量。因此，我们提出一种具有动态路由的跨模态注意力筛选网络，为每个输入图像自动配置适当数量的区域。该网络具有区域数量决策的能力，能够根据不同的数据动态学习不同的激活区域，从而减少冗余计算。此外，设计了跨模态筛选模块，通过过滤无关信息保留有意义的交互特征，抑制无意义对齐的干扰，同时自适应调整全局和局部依赖。全局和局部依赖。

全部详细技术资料下载

【技术实现步骤摘要】
基于动态路由的跨模态注意力筛选网络的跨模态匹配方法

[0001]本专利技术属于跨模态匹配的方法，涉及计算机视觉和自然语言处理的

技术介绍

[0002]随着创新技术和社交媒体的进步，各种多媒体数据和信息被聚集在一起。为了使计算机能够理解、匹配和转换这种跨模态数据，跨模态检索已成为一种基本技术，它将语义相关的实例从一个模态索引到另一个模态。它在视觉语义导航、视觉问答和图像字幕等领域有很多应用。
[0003]跨模态匹配任务主要是通过将图像和句子映射到合适的公共空间来挖掘图像和文本之间的语义关联。大多数早期的方法为图像和文本等不同的模态构造了两个子网络，它们在公共空间进行交互来建模交叉模态的关系。例如Kiros等人采用CNN和LSTM学习图像和句子的表示，并通过三元组排序损失对模型进行优化。Faghriet等人提出了结合硬负样本的三元组排序损失，并在跨模态检索任务上显示出了显著的改进。虽然一些开创性的研究取得了很大的进展，但他们直接学习了全局表示，而忽略了细粒度分析。
[0004]因此，越来越多的研究者们致力于探索图像中区域与句子中单词之间的细粒度对应关系，用于图像
‑
文本匹配。Karpathy等人的用于双向图像句子映射的深度碎片嵌入网络，通过提取每个图像和文本的碎片特征来对每个碎片对进行对齐。此外，在自底向上和自顶向下的注意力网络中，提出用一组图像显著区域来描述一幅图像，每个区域用卷积特征向量表示。随后，Lee等人采用自底向上的注意力网络将图像编码为区域级特征，并设计了一种堆叠交...

【技术保护点】

【技术特征摘要】
1.基于动态路由的跨模态注意力筛选网络的跨模态匹配方法，其特征在于，所述方法包括以下步骤：S1.构建动态路由器，根据图像的复杂程度选择相应的注意力区域块，从而具有区域数量决策的能力。S2.结合S1中的动态路由器，设计一个动态路由注意力模块，通过对定义的注意力区域数量构造不同的邻接掩码来解决参数冗余和计算问题。S3.构建跨模态筛选模块，保留有意义的交互特征，过滤不相关的信息，抑制无意义的图像
‑
文本对的干扰，学习图像和文本之间的语义关系。S4.结合S2中的模块和S3中的模块构建基于动态路由的跨模态注意力筛选网络的跨模态匹配方法的整体架构。S5.基于动态路由的跨模态注意力筛选网络的跨模态匹配方法的训练。2.根据权利要求1所述的基于动态路由的跨模态注意力筛选网络的跨模态匹配方法，其特征在于，所述S1的具体过程为：为了实现对每个图像的动态选择，我们考虑了一个由多块结构组成的网络，其中每个块都配有不同设置的模块。具体地说,给定图像特征V∈R
d
×
m
，路由空间可以定义为A＝[A0,...,A
b
],b表示注意力区域块的数量，d是图像特征的维度,经过路由后的特征可以定义为：其中α为路由器预测的选择概率，A为单元操作的集合。在每个节点内设计一个基本单元和相应的路由来选择特定的区域特征。对于每幅图像，我们设计了3种不同数量的候选区域块，分别选择置信度分数排名最高的前g个区域。图像特征将用于单元内部和路线内部的特征转换。我们提出的软路由器可以看作是一个块决策过程。根据图像的全局含义生成每条路径的路由概率。给定图像特征V∈R
d
×
m
，对每个注意力块的选择预测概率α∈R
b
可以由下式得到：V
*
＝softmax(FC2(V))V
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)α＝relu(tanh(FC1(V
*
)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中，FC为全连接函数。3.根据权利要求1所述的基于动态路由的跨模态注意力筛选网络的跨模态匹配方法，其特征在于，所述S2的具体过程为：在动态路由注意力模块中，我们采用自注意力和身份映射作为每个单元的实现。然而，自我关注的点积操作会产生昂贵的计算和巨大的内存占用。在这种情况下，减少大量的计算量是至关重要的。因此，我们调整了每个输入图像的注意区域数量，这是与现有的基于自我注意的方法的关键区别。通过重新审视标准自我注意的定义，可以得到区域注意力权重：
其中，η
ij
测量第j个位置对第i个位置的影响。m表示图像中区域的个数，测量第j个位置对第i个位置的影响。m表示图像中区域的个数，η
ij
可以看作是一个图像种不同区域间的完全连接图。为了获得不同的关注区域的特点,我们需要限制每个输入图像的区域连接，因此通过引入一个邻接mask M∈R
m
×
m
,可以得到新的区域注意力权重：M是二进制的值。当它在目标元素的注意区域内时，将其设置为1。因此，将注意力操作限制在一定数量的图像区域内，以探讨模内语义关系。最后给出了路由器注意模块的输出，如下式所示：其中，这样，图像中区域的数量就受到了限制。这将大大降低计算复杂度和数据冗余带来的误差。4.根据权利要求1所述的基于动态路由的跨模态注意力筛选网络的跨模态匹配方法，其特征在于，所述S3的具体过程为：为了更好地聚集共享语义，弥合视觉和文本之间的语义鸿沟，提出了一种跨模态筛选模块来抑制无意义对齐的干扰，从而进一步减少了整个模型的时间消耗。特别地，给定局部和全局特征表示，我...

【专利技术属性】
技术研发人员：吴杰，吴春雷，宫法明，张立强，路静，
申请(专利权)人：中国石油大学华东，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人