当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于区域注意力学习机制的视觉关系检测方法技术

技术编号:24614000 阅读:23 留言:0更新日期:2020-06-24 01:24
本发明专利技术公开了一种基于区域注意力学习机制的视觉关系检测方法,所述方法包括:获取三元组图结构,并将其聚合邻节点后的特征进行组合,作为第二图结构的节点,依据等概率边进行连接,构成第二图结构;将第二图结构节点特征与对应三元组实体对象节点的特征进行组合,组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征,将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征;在一定消息传播次数之后,输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合,以此综合推理对象组之间的谓词。本发明专利技术能够识别在不同视觉关系下实体对象所关注的内部区域,从而来提高视觉关系检测的精度。

A visual relationship detection method based on regional attention learning mechanism

【技术实现步骤摘要】
一种基于区域注意力学习机制的视觉关系检测方法
本专利技术涉及视觉关系检测领域,尤其涉及一种基于区域注意力学习机制的视觉关系检测方法。
技术介绍
随着深度学习技术的飞速发展,图像理解领域逐渐引起了许多关注,其中作为该领域的基础,视觉关系检测是一项十分具有挑战性的任务,因为其不仅仅需要预测图片中实体对象的语义和空间信息,而且还需要对实体对象之间的谓词关系进行分类。以图1中“人骑摩托”的图片为例,视觉关系检测不但要识别出主语“人”和宾语“摩托”以及他们的位置,而且还需要识别出两者存在动词“骑”这种关系。由于一般的视觉关系都可以用<主语–谓词–宾语>的这种结构化三元组关系描述的特点[1],视觉关系检测才能作为图像理解领域基础从而应用在更高层次的视觉任务之中,比如图像描述[2][3],视觉问答[4][5],图文检索[6][7],视觉对话[8][9]和视觉推理[10][11]等任务。近些年来,在视觉关系检测任务上涌现出了许多优秀的工作。粗略的来说,这些工作的学习策略大致可以分为两个基本的方向:第一,分别训练实体对象的检测器和实体对象之间的关系检测器,并将它们的模型输出聚合起来得到视觉关系的三元组;第二,对于每个包含视觉关系的视觉短语学习一个单独的检测器。在面对多样性的视觉关系时,一些学者已经证明视觉短语的学习方法更加具有鲁棒性[12],但是针对目前已有的数据集,一些特定关系的训练样本十分少,所以该方法也具有一定的局限性。对于聚合模型输出的方法,虽然可以在结构化三元组之间将各自包含的知识进行很好的共享[13],但是针对不可见的关系时并不能很好的处理。目前,为了能够提升通用检测器的特征表征能力,研究者们逐渐偏向于设计对具有统计关系依赖的模型,这种依赖关系可以是图模型[14],语料的知识蒸馏[15]或者上下文的语义[16]。但是现有的方法仅仅是从粗粒度的角度上对检测到的实体对象整体直接进行特征提取,然后将其映射到同一特征空间进行关系识别,这些方法其实忽略了实体对象的内部一些细粒度的线索,来更深度挖掘对于不同视觉关系检测到的实体图像内部所关注的区域信息。
技术实现思路
本专利技术提供了一种基于区域注意力学习机制的视觉关系检测方法,本专利技术避免了在同一特征空间进行实体对象关系分析时,建立的模型缺少对实体对象内部区域的细粒度信息交互的问题,并且通过视觉注意力机制学习过程后,能够识别在不同视觉关系下实体对象所关注的内部区域,从而来提高视觉关系检测的精度,详见下文描述:一种基于区域注意力学习机制的视觉关系检测方法,所述方法包括:获取三元组图结构,并将其聚合邻节点后的特征进行组合,作为第二图结构的节点,依据等概率边进行连接,构成第二图结构;将第二图结构节点特征与对应三元组实体对象节点的特征进行组合,组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征,将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征;在一定消息传播次数之后,输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合,以此综合推理对象组之间的谓词。其中,所述获取三元组图结构具体为:将实体对象的区域视觉特征作为第一图结构中节点集特征,实体对象之间依据共现概率连接,通过消息传播机制汇聚邻节点的特征信息来强化当前节点的视觉表征;每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征;将提取到的每个对象组特征以及对应的两个实体对象的区域视觉特征作为一组节点,依据视觉关系的统计概率连接,构成三元组图结构。进一步地,所述第一图结构具体为:将共现矩阵作为第一图结构的边,将区域视觉特征作为第一图结构的顶点。其中,所述每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征具体为:将强化后的节点表征与每个区域视觉特征相结合,计算一个非正则化的相关性分数;将非正则化的相关性分数进行正则化,获取视觉注意力机制的权重分布值;利用得到的注意力机制的权重对每个实体对象M个区域特征进行加权求和,得到融合后的视觉表征;获取融合后的视觉表征,将其作为第一图结构中相应节点进行下一次消息传播时的视觉特征,再次进行消息传播。进一步地,所述三元组图结构具体为:将视觉关系分布作为三元组图结构的边;每个对象组特征以及对应的两个实体对象的区域视觉特征作为三元组图结构的顶点。其中,所述第二图结构具体为:获取输出的每个三元组图结构聚合邻节点后的特征,将其映射到相同维度的特征空间,然后在特征维度上进行连接,作为第二图结构中的节点;将第二图结构的节点进行全连接,连接每个节点与其邻节点的边为等概率边。进一步地,所述组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征具体为:组合后的特征与输出的每个区域视觉特征计算一个非正则化的相关性分数;将非正则化的相关性分数进行正则化,分别得到视觉注意力机制的权重分布值,对相应的实体对象区域特征进行加权求和,得到融合后的视觉表征。其中,所述输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合具体为:将经过Tk次消息传播后三元组图结构每个实体对象的节点输出,进行平均池化后与实体对象本身的视觉特征在特征维度上进行组合;将经过Tk次消息传播后三元组图结构中对象组的节点输出,与初始化节点的对象组特征以及第二图结构每个节点的输出在特征维度上进行连接。本专利技术提供的技术方案的有益效果是:1、本专利技术在检测到的实体对象后,提取其内部区域的特征组,将其映射到同一特征空间,完成在不同视觉关系下实体对象内部区域特征间的信息交互;2、本专利技术通过利用注意力机制学习过程,来完成在针对识别不同视觉关系时,实体对象所关注的内部区域,来提高视觉关系检测的精度。附图说明图1为一种基于区域注意力学习机制的视觉关系检测方法的流程图;图2为视觉关系检测示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步地详细描述。为了解决目前方法在识别视觉关系时忽略实体对象内部区域的细粒度信息交互的问题,从而提高视觉关系识别的精度,常用的指标为召回率,参见图1,本专利技术实施例提供了一种基于区域注意力学习机制的视觉关系检测方法,该方法包括以下步骤:101:针对所使用的数据库,统计其训练集样本中各个物体之间的共现概率以及在训练集中共现时,属于某种视觉关系的概率;对于所使用的数据集,其中需要包含标注有视觉关系的图片数据,这里使用的是较为常用的VisualGenome视觉关系数据库,但本专利技术方法不只局限于该数据库,可以是包含所需标签的任意数据库。首先,针对所使用的数据库,需要统计其划分出的训练集中不同类别对象之间的共现概率分布,该视觉关系数据集的训练样本中标注了实体对象的本文档来自技高网
...

【技术保护点】
1.一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述方法包括:/n获取三元组图结构,并将其聚合邻节点后的特征进行组合,作为第二图结构的节点,依据等概率边进行连接,构成第二图结构;/n将第二图结构节点特征与对应三元组实体对象节点的特征进行组合,组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征,将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征;/n在一定消息传播次数之后,输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合,以此综合推理对象组之间的谓词。/n

【技术特征摘要】
1.一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述方法包括:
获取三元组图结构,并将其聚合邻节点后的特征进行组合,作为第二图结构的节点,依据等概率边进行连接,构成第二图结构;
将第二图结构节点特征与对应三元组实体对象节点的特征进行组合,组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征,将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征;
在一定消息传播次数之后,输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合,以此综合推理对象组之间的谓词。


2.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述获取三元组图结构具体为:
将实体对象的区域视觉特征作为第一图结构中节点集特征,实体对象之间依据共现概率连接,通过消息传播机制汇聚邻节点的特征信息来强化当前节点的视觉表征;
每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征;
将提取到的每个对象组特征以及对应的两个实体对象的区域视觉特征作为一组节点,依据视觉关系的统计概率连接,构成三元组图结构。


3.根据权利要求2所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述第一图结构具体为:将共现矩阵作为第一图结构的边,将区域视觉特征作为第一图结构的顶点。


4.根据权利要求2所述的一种基于区域注意力学习机制的视觉关系检测方法,其特征在于,所述每次消息传播后将输出的节点特征作为视觉注意力机制,并作为第一图结构中节点进行下一次消息传播时的视觉特征具体为:
将强化后的节点表征与每个区域视觉特征相结合,计算一个非正则化的相关性分数;
将非正则化的相关性分数进行正则化,获取视觉注意力机制的权重分布值;

【专利技术属性】
技术研发人员:刘安安田宏硕徐宁聂为之宋丹
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1