一种基于区域注意力学习机制的视觉关系检测方法技术

技术编号：24614000 阅读：23 留言：0更新日期：2020-06-24 01:24

本发明专利技术公开了一种基于区域注意力学习机制的视觉关系检测方法，所述方法包括：获取三元组图结构，并将其聚合邻节点后的特征进行组合，作为第二图结构的节点，依据等概率边进行连接，构成第二图结构；将第二图结构节点特征与对应三元组实体对象节点的特征进行组合，组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征，将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征；在一定消息传播次数之后，输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合，以此综合推理对象组之间的谓词。本发明专利技术能够识别在不同视觉关系下实体对象所关注的内部区域，从而来提高视觉关系检测的精度。

A visual relationship detection method based on regional attention learning mechanism

全部详细技术资料下载

【技术实现步骤摘要】
一种基于区域注意力学习机制的视觉关系检测方法
本专利技术涉及视觉关系检测领域，尤其涉及一种基于区域注意力学习机制的视觉关系检测方法。
技术介绍
随着深度学习技术的飞速发展，图像理解领域逐渐引起了许多关注，其中作为该领域的基础，视觉关系检测是一项十分具有挑战性的任务，因为其不仅仅需要预测图片中实体对象的语义和空间信息，而且还需要对实体对象之间的谓词关系进行分类。以图1中“人骑摩托”的图片为例，视觉关系检测不但要识别出主语“人”和宾语“摩托”以及他们的位置，而且还需要识别出两者存在动词“骑”这种关系。由于一般的视觉关系都可以用<主语–谓词–宾语>的这种结构化三元组关系描述的特点[1]，视觉关系检测才能作为图像理解领域基础从而应用在更高层次的视觉任务之中，比如图像描述[2][3]，视觉问答[4][5]，图文检索[6][7]，视觉对话[8][9]和视觉推理[10][11]等任务。近些年来，在视觉关系检测任务上涌现出了许多优秀的工作。粗略的来说，这些工作的学习策略大致可以分为两个基本的方向：第一，分别训练实体对象的检测器和实体对象之间的关系检测器，并将它们的模型输出聚合起来得到视觉关系的三元组；第二，对于每个包含视觉关系的视觉短语学习一个单独的检测器。在面对多样性的视觉关系时，一些学者已经证明视觉短语的学习方法更加具有鲁棒性[12]，但是针对目前已有的数据集，一些特定关系的训练样本十分少，所以该方法也具有一定的局限性。对于聚合模型输出的方法，虽然可以在结构化三元组之间将各自包含的知识进行很好的共享[13]，...

【技术保护点】
1.一种基于区域注意力学习机制的视觉关系检测方法，其特征在于，所述方法包括：/n获取三元组图结构，并将其聚合邻节点后的特征进行组合，作为第二图结构的节点，依据等概率边进行连接，构成第二图结构；/n将第二图结构节点特征与对应三元组实体对象节点的特征进行组合，组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征，将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征；/n在一定消息传播次数之后，输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合，以此综合推理对象组之间的谓词。/n

【技术特征摘要】
1.一种基于区域注意力学习机制的视觉关系检测方法，其特征在于，所述方法包括：
获取三元组图结构，并将其聚合邻节点后的特征进行组合，作为第二图结构的节点，依据等概率边进行连接，构成第二图结构；
将第二图结构节点特征与对应三元组实体对象节点的特征进行组合，组合后作为视觉注意力机制同时融合两个实体对象所提取的内部区域视觉特征，将其作为三元组中相应实体对象节点进行下一次消息传播时的视觉特征；
在一定消息传播次数之后，输出的三元组节点特征和第二图结构的节点特征进行视觉特征组合，以此综合推理对象组之间的谓词。

2.根据权利要求1所述的一种基于区域注意力学习机制的视觉关系检测方法，其特征在于，所述获取三元组图结构具体为：
将实体对象的区域视觉特征作为第一图结构中节点集特征，实体对象之间依据共现概率连接，通过消息传播机制汇聚邻节点的特征信息来强化当前节点的视觉表征；
每次消息传播后将输出的节点特征作为视觉注意力机制，并作为第一图结构中节点进行下一次消息传播时的视觉特征；
将提取到的每个对象组特征以及对应的两个实体对象的区域视觉特征作为一组节点，依据视觉关系的统计概率连接，构成三元组图结构。

3.根据权利要求2所述的一种基于区域注意力学习机制的视觉关系检测方法，其特征在于，所述第一图结构具体为：将共现矩阵作为第一图结构的边，将区域视觉特征作为第一图结构的顶点。

4.根据权利要求2所述的一种基于区域注意力学习机制的视觉关系检测方法，其特征在于，所述每次消息传播后将输出的节点特征作为视觉注意力机制，并作为第一图结构中节点进行下一次消息传播时的视觉特征具体为：
将强化后的节点表征与每个区域视觉特征相结合，计算一个非正则化的相关性分数；
将非正则化的相关性分数进行正则化，获取视觉注意力机制的权重分布值；

【专利技术属性】
技术研发人员：刘安安，田宏硕，徐宁，聂为之，宋丹，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人