一种用于场景图检测的关系图学习方法技术

技术编号:29331510 阅读:53 留言:0更新日期:2021-07-20 17:49
本发明专利技术公开了一种用于场景图检测的关系图学习方法。本发明专利技术步骤:1、对于大型数据集中的图像,按照标准数据集处理方法,提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系;2、分别对数据集Ⅰ中的每张图像用目标检测网络Faster R‑CNN来提取目标,并获得每对目标之间的关系建议,提取的目标和关系建议构成关系数据;3、利用关系提取网络对得到的关系数据进行筛选,过滤冗余信息关系和无效性关系;4、构建一个关系图注意力网络,该网络由两部分组成:视觉‑空间图注意力子网络和语义‑空间图注意力子网络;通过融合两个子网络的结果获得最终关系图。本发明专利技术实验结果表明比现有的最优方法效果提升数个百分点。

【技术实现步骤摘要】
一种用于场景图检测的关系图学习方法
本专利技术提到了一种用于场景图检测的关系图学习方法(RelationshipGraphLearningNetworkForSceneGraphDetection),主要涉及一种利用图注意力网络,对得到图片中的视觉信息、语义信息、空间信息进行融合从而学习预测目标之间关系的方法,以构建一个与人工评价结果更加一致的准确率较高的场景图关系检测方法。
技术介绍
视觉关系检测的目的是检测图像中的物体并预测物体之间的关系。近年来,视觉关系检测一直是一个热门话题,在视觉关系检测中,关系一般表示为主语、谓词和宾语的三元组,例如,女人-戴-帽子。大多数视觉关系检测方法仅利用两个物体之间的特征来计算两个物体之间的关系。然而,这些方式忽略了整个图像的全局信息。最近,视觉关系检测方法通常专注于探索图像组件之间的相关性。图像组件包含图像里对象和对象之间的关系。然而,大多数当前的方法只利用了对象之间的相关性,和他们仍然忽视关系之间的相关性。因此这些方法可以建模对象之间的相关性,比如利用图像中女人的共现,但是不能建模关系之间的相关性本文档来自技高网...

【技术保护点】
1.一种用于场景图检测的关系图学习方法,其特征在于包括如下步骤:/n步骤(1)数据预处理/n对于大型数据集中的图像,按照标准数据集处理方法,提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系,忽略其余目标和关系;/n步骤(2)目标提取和关系检测/n分别对数据集Ⅰ中的每张图像用目标检测网络Faster R-CNN来提取目标,并获得每对目标之间的关系建议,提取的目标和关系建议构成关系数据;/n步骤(3)关系提取/n利用关系提取网络对步骤(2)得到的关系数据进行筛选,过滤冗余信息关系和无效性关系,从而提高时间有效性;/n步骤(4)关系图学习/n构建一个关系图注意力网络,该网络由两部分...

【技术特征摘要】
1.一种用于场景图检测的关系图学习方法,其特征在于包括如下步骤:
步骤(1)数据预处理
对于大型数据集中的图像,按照标准数据集处理方法,提取出现频次最高的150个目标和50个关系作为数据集Ⅰ的目标和关系,忽略其余目标和关系;
步骤(2)目标提取和关系检测
分别对数据集Ⅰ中的每张图像用目标检测网络FasterR-CNN来提取目标,并获得每对目标之间的关系建议,提取的目标和关系建议构成关系数据;
步骤(3)关系提取
利用关系提取网络对步骤(2)得到的关系数据进行筛选,过滤冗余信息关系和无效性关系,从而提高时间有效性;
步骤(4)关系图学习
构建一个关系图注意力网络,该网络由两部分组成:视觉-空间图注意力子网络和语义-空间图注意力子网络;通过融合两个子网络的结果获得最终关系图。


2.根据权利要求1所述的一种用于场景图检测的关系图学习方法,其特征在于步骤(1)所述的数据预处理:
1-1、VRD数据集是一个包含5000多张图片、100种目标、70种关系的目标检测数据集;
1-2、VG数据集是一个包含108000多张图片,且每张图片平均包含38种目标、22种关系的大型目标检测数据集;由于VG数据集包含大量稀疏的目标和关系,为了降低数据的稀疏性,根据目标和关系出现的频次进行筛选;筛选后的VG数据集包含150个目标和50个关系;
1-3、按照标准数据集划分方法,将VRD数据集和筛选后的VG数据集,随机取80%的图片作为训练集,其余20%的数据集作为测试集。


3.根据权利要求2所述的一种用于场景图检测的关系图学习方法,其特征在于步骤(2)所述的目标提取和关系检测:
2-1、通过FasterR-CNN网络对每张图像进行目标提取和关系检测;FasterR-CNN网络主要包含4部分内容:
2-2、ConvLayers:将ConvLayers作为CNN网络目标检测的方法,提取图像的特征;ConvLayers主要包含了13个卷积层和13个激活层和4个池化层,并且所有的卷积都做了扩边处理,确保卷积层输入和输出矩阵的大小不变;
2-3、RegionProposalNetworks即区域判断网络:RPN网络用于生成区域提议;该RPN网络通过softmax判断锚点属于真或者假,再利用边界框回归修正锚点获得精确的区域提议;
2-4、RoiPooling:该层通过收集输入的图像特征和区域提议,综合生成区域提议特征;
2-5、Classification:利用区域提议特征在全连接层中计算提议目标类别,同时再次通过边界框...

【专利技术属性】
技术研发人员:俞俊张昊文李亚楠
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1