当前位置: 首页 > 专利查询>同济大学专利>正文

基于注意力金字塔图网络的图像视觉关系指代定位方法技术

技术编号:24410131 阅读:47 留言:0更新日期:2020-06-06 08:49
本发明专利技术涉及一种基于注意力金字塔图网络的图像视觉关系指代定位方法,该方法通过一注意力金字塔图网络模型对将输入图片进行处理,获得相应图像视觉关系指代实体定位图,实现指代定位;所述注意力金字塔图网络模型包括注意力特征金字塔网络和关系传导图网络,其中,所述注意力特征金字塔网络用于从输入图像中获取多尺度注意力特征图,所述关系传导图网络基于所述多尺度注意力特征图获得最终的视觉关系指代实体定位图。与现有技术相比,本发明专利技术具有定位精度高、鲁棒性高等优点。

Image visual relation reference location method based on attention pyramid network

【技术实现步骤摘要】
基于注意力金字塔图网络的图像视觉关系指代定位方法
本专利技术涉及一种图像视觉关系指代定位方法,尤其是涉及一种基于注意力金字塔图网络的图像视觉关系指代定位方法。
技术介绍
近年来,表达指代理解得到了计算机视觉和自然语言处理领域越来越多的关注。该任务旨在定位特定的指代实体,这项技术可以帮助消除相同类别实体之间的歧义,从而在安防领域图像检索和机器人人机交互等应用场景发挥重要作用。但是,传统的表达指代理解任务需要对模型的自然语言和计算机视觉模块分别进行评估,因此很难判断错误是由语言模块还是由视觉模块引起的。为了减轻对复杂自然语言建模的需求,研究者提出了视觉关系指代定位任务,它根据更结构化的视觉关系三元组<subject,relationship,traget>,在图像中定位指代的实体。先前的工作探索了使用实体共现统计方法、空间转移模型、基于语言先验的卷积神经网络模型,效果都不是非常理想。目前最先进的技术是一种称为对称堆叠注意力转移的方法。该方法基于视觉关系中的一个实体,通过对视觉关系进行建模来迭代地学习将模型注意力从该实体转移到另一个实体,并且能取得优于上述方法的结果。尽管如此,由于视觉关系三元组中往往包含大量具有小尺寸和难以区分特征的实体。对称堆叠注意力转移方法利用单一小尺度的注意力特征图可能无法有效定位这些小尺寸实体。另外,对称堆叠注意力转移方法基于图像中的视觉特征对关系进行建模,而视觉关系三元组中某一特定的关系类别的视觉特征类内方差较大,使用视觉特征使模型的学习难度较大,且难以对视觉关系进行区分。<br>
技术实现思路
本专利技术的目的在于克服上述现有技术存在的缺陷而提供一种定位精度高的基于注意力金字塔图网络的图像视觉关系指代定位方法。本专利技术的目的可以通过以下技术方案来实现:一种基于注意力金字塔图网络的图像视觉关系指代定位方法,该方法通过一注意力金字塔图网络模型对将输入图片进行处理,获得相应图像视觉关系指代实体定位图,实现指代定位;所述注意力金字塔图网络模型包括注意力特征金字塔网络和关系传导图网络,其中,所述注意力特征金字塔网络用于从输入图像中获取多尺度注意力特征图,所述关系传导图网络基于所述多尺度注意力特征图获得最终的视觉关系指代实体定位图。进一步地,所述多尺度注意力特征图的获取过程具体为:以基于ResNet-50网络的特征金字塔对输入图像进行特征提取,基于特征金字塔的输出形成各实体的多尺度特征图,使用实体类别嵌入特征对每一张特征图进行软注意力机制,得到多尺度注意力特征图。进一步地,选取所述特征金字塔的最后三个卷积模块的输出形成各实体的所述多尺度特征图。进一步地,所述关系传导图网络获得最终的视觉关系指代实体定位图的具体步骤包括:101)基于多尺度注意力特征图生成注意力特征图网络,该网络中每一个节点代表一张注意力特征图;102)构建注意力特征图网络的权重矩阵;103)使用权重矩阵在注意力特征图网络中进行关系信息传递,对网络中的各节点进行聚合与提纯;104)对提纯后的实体多尺度注意力特征进行拼接,映射成与图像尺寸一致的特征权重,与图像特性相乘,生成新图像特征;105)对新图像特征使用基于实体嵌入特征的注意力机制得到最后的视觉关系指代实体定位图。进一步地,基于视觉关系三元组嵌入特征获得所述权重矩阵。进一步地,对所述注意力金字塔图网络模型进行训练的过程具体为:生成基准定位图,以构建的注意力金字塔图网络模型对训练样本获得的视觉关系指代实体定位图与基准定位图进行对比,并计算损失函数进行回传以更新模型。进一步地,所述基准定位图中,每一张定位图对应一组视觉关系三元组中的一个实体,具体生成过程包括:1a)选取一张图像和图像中的一对视觉关系三元组,在图中寻找视觉关系指代实体的检测框的标注。1b)定义一张与上述图像尺寸相同的定位图,在检测框中的位置的像素置1,检测框外的置0;1c)若一张图像中有完全一致的若干组视觉关系三元组,则将它们叠加在首次出现该三元组的定位图中;1d)重复步骤1a)、1b)和1c)多次,将数据集中所有视觉关系都生成视觉关系指代实体定位图。进一步地,所述损失函数的表达式为:式中,N为训练批次数,Θ为网络参数,D(xi;Θ)为输入图片xi经注意力金字塔图网络模型处理后生成的定位图,D(xi)GT为输入图片xi的基准定位图。与现有技术相比,本专利技术具有如下有益效果:1、本专利技术通过特征金字塔提取特征,可以利用注意力金字塔网络能较为有效地为视觉关系中尺度迥异的实体进行建模,更好地区分视觉关系,以提高定位精度。2、本专利技术采用的关系传导图网络基于视觉关系三元组嵌入特征进行建模,能有效地避免模型被视觉关系中视觉特征较大的类内方差影响。此外,该结构还能为视觉关系三元组的主客体进行尺寸匹配,进一步提升模型精度。附图说明图1为本专利技术的流程示意图;图2为本专利技术在CLVER、VisualGenome和VRD数据集中的部分结果可视化图示。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。本实施例提供一种基于注意力金字塔图网络的图像视觉关系指代定位方法,该方法通过一注意力金字塔图网络模型对将输入图片进行处理,获得相应图像视觉关系指代实体定位图,实现指代定位。该方法中,注意力金字塔图网络模型的结构如图1所示,包括注意力特征金字塔网络(AttentipnPyramidNetworks)和关系传导图网络(RelationshipConductionGraphNetworks),注意力特征金字塔网络用于从输入图像中获取多尺度注意力特征图,关系传导图网络基于所述多尺度注意力特征图获得最终的视觉关系指代实体定位图。1、注意力特征金字塔网络本实施例中,注意力特征金字塔网络采用基于ResNet-50网络的特征金字塔,对输入图像进行特征提取,并选取特征金字塔的最后三个卷积模块的输出形成各实体的多尺度特征图;将视觉关系三元组的实体类别进行向量嵌入,其后使用一层全连接网络得到实体类别嵌入特征(s_emb_f、o_emb_f),再使用实体类别嵌入特征对每一张特征图进行软注意力机制(softattention),得到多尺度注意力特征图。2、关系传导图网络关系传导图网络获得最终的视觉关系指代实体定位图的具体步骤包括:101)基于维度规范化(dimensionnormalization)后的多尺度注意力特征图生成注意力特征图网络,该网络中每一个节点代表一张注意力特征图;102)将视觉关系三元组的实体类别、关系类别进行向量嵌入,经过全连接层处理后将特征连接,得到视觉关系三元组嵌入特征(rt_emb_f)。将D维嵌入特征复制N*N次,形成一张N*本文档来自技高网
...

【技术保护点】
1.一种基于注意力金字塔图网络的图像视觉关系指代定位方法,其特征在于,该方法通过一注意力金字塔图网络模型对将输入图片进行处理,获得相应图像视觉关系指代实体定位图,实现指代定位;/n所述注意力金字塔图网络模型包括注意力特征金字塔网络和关系传导图网络,其中,所述注意力特征金字塔网络用于从输入图像中获取多尺度注意力特征图,所述关系传导图网络基于所述多尺度注意力特征图获得最终的视觉关系指代实体定位图。/n

【技术特征摘要】
1.一种基于注意力金字塔图网络的图像视觉关系指代定位方法,其特征在于,该方法通过一注意力金字塔图网络模型对将输入图片进行处理,获得相应图像视觉关系指代实体定位图,实现指代定位;
所述注意力金字塔图网络模型包括注意力特征金字塔网络和关系传导图网络,其中,所述注意力特征金字塔网络用于从输入图像中获取多尺度注意力特征图,所述关系传导图网络基于所述多尺度注意力特征图获得最终的视觉关系指代实体定位图。


2.根据权利要求1所述的基于注意力金字塔图网络的图像视觉关系指代定位方法,其特征在于,所述多尺度注意力特征图的获取过程具体为:
以基于ResNet-50网络的特征金字塔对输入图像进行特征提取,基于特征金字塔的输出形成各实体的多尺度特征图,使用实体类别嵌入特征对每一张特征图进行软注意力机制,得到多尺度注意力特征图。


3.根据权利要求2所述的基于注意力金字塔图网络的图像视觉关系指代定位方法,其特征在于,选取所述特征金字塔的最后三个卷积模块的输出形成各实体的所述多尺度特征图。


4.根据权利要求1所述的基于注意力金字塔图网络的图像视觉关系指代定位方法,其特征在于,所述关系传导图网络获得最终的视觉关系指代实体定位图的具体步骤包括:
101)基于多尺度注意力特征图生成注意力特征图网络,该网络中每一个节点代表一张注意力特征图;
102)构建注意力特征图网络的权重矩阵;
103)使用权重矩阵在注意力特征图网络中进行关系信息传递,对网络中的各节点进行聚合与提纯;
104)对提纯后的实体多尺度注意力特征进行拼接,映射成与图像尺寸一致的特征权重,与图像特性相乘,生成新图像特...

【专利技术属性】
技术研发人员:王瀚漓朱健
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1