一种基于交替迭代优化的场景图生成装置和方法制造方法及图纸

技术编号：35855499 阅读：18 留言：0更新日期：2022-12-07 10:42

本发明专利技术属于计算机视觉技术领域，公开了一种基于交替迭代优化的场景图生成装置和方法，包括图像物体检测模块、场景图物体识别模块和场景图关系识别模块。该方法通过设计关系敏感的消息传递网络，充分利用图像中的上下文信息优化物体特征，并交替迭代优化模型的物体识别与关系识别能力，实现高精度场景图生成。相比传统方法，该方法解决了上下文信息缺失的问题并缓解了模型架构的错误传递问题。同时，由于避免了对物体与物体、物体与关系的共同出现频率的统计信息的利用，降低了模型训练后对特定数据集的依赖性。综上所述，对于自然场景图像，本发明专利技术通过对上下文的充分利用与对模型中不同部分的交替迭代优化，生成高精度的场景图预测结果。测结果。测结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于交替迭代优化的场景图生成装置和方法

[0001]本专利技术属于计算机视觉
，尤其涉及一种基于交替迭代优化的场景图生成装置和方法。

技术介绍

[0002]场景图生成是一种推断图像中物体及物体间关系的空间、语义信息的任务。在场景图中，节点和边分别代表图像中的物体及物体间的关系。该任务是物体检测、图像分割等任务向深度图像理解的进一步拓展，近年来吸引了研究领域的大量关注。通过对场景图的生成，可帮助许多下游视觉应用的进行。同时，已有研究证明通过场景图生成，模型同样可以提取更好的图像特征以帮助图像分类、物体检测等更基础的视觉任务。
[0003]一般来讲，现有场景图生成方法都遵从以下流程：首先，通过任意物体检测器(通常采用Faster
‑
RCNN以便于比较)获取图像中物体的包围盒坐标，并提取物体包围盒对应的视觉特征。随后，构建物体识别模块，利用图像中的上下文信息优化物体特征并得出物体分类结果。最后，通过融合物体的视觉特征及其他信息，对每一对物体间的关系进行识别，并结合所有结果输出场景图。常见的拓展形式包括但不限于修改识别网络的网络结构以及引入物体的文本特征。近期也有许多工作聚焦于解决场景图数据集中对关系类别标注的长尾效应问题。
[0004]然而上述框架存在两大问题。第一，上下文信息缺失。图像中物体间的关系是上下文信息中的重要部分，现有方法通常以场景图中的边来代表这样的关系。但由于物体间关系未知，现有方法往往固定采用全连接或按一定顺序依次连接的方法构建初始场景图，以进行消息传递。这样的...

【技术保护点】

【技术特征摘要】
1.一种基于交替迭代优化的场景图生成装置，其特征在于，包括图像物体检测模块、场景图物体识别模块和场景图关系识别模块；所述图像物体检测模块，负责定位输入图像中物体的包围盒，并提取包围盒对应的物体视觉特征；所述场景图物体识别模块，负责基于场景图关系识别模块的输出，对图像物体检测模块输出的包围盒进行识别，得出对应的物体类别；所述场景图关系识别模块，负责根据场景图物体识别模块的输出提取文本特征，并结合物体视觉特征及空间特征，对物体间的关系进行识别。2.一种利用如权利要求1所述的装置的场景图生成方法，包括训练阶段和测试阶段，所述训练阶段的步骤如下：步骤1：整理数据集：使用带有场景图标注的自然场景图像为训练数据；步骤2：构造训练网络：步骤2.1：物体识别模块采用关系敏感的消息传递网络，针对不同类别的关系训练不同的转换矩阵，并对转换后的邻结点消息进行聚合，用以更新当前节点的特征；步骤2.2：关系识别模块通过结合物体特征、空间特征及物体分类的文本特征，对两者间的关系进行识别；步骤3：使用网络进行训练：在正式进行模型训练前，首先使用预训练好的文本特征提取模型提取图像标注集中的物体、关系类别的文本特征，以备后续训练使用；同时，对于在外部数据集上预训练的物体检测器模型，在场景图数据集上进行微调训练，以获取最优的物体检测效果；步骤4：交替进行步骤2数次，并结合物体识别、关系识别的结果，得出图像对应的场景图。3.根据权利要求2所述的场景图生成方法，其特征在于，所述步骤1包括如下具体步骤：筛选出数据集中出现频率最高的150种物体类别和50种关系类别作为图像标注集；训练中所用的所有图像统一缩放为592x592像素，训练图像和测试图像分别需要有至少70000及30000张图像。4.根据权利要求2所述的场景图生成方法，其特征在于，所述步骤2.1的具体公式如下：其中x
i
、z
i
分别为更新前后的节点特征，Wt1、Wt2为所有节点共享的两个转换矩阵，Wr(i,j)为一组与关系类别对应的转换矩阵，б表示非线性函数，LN代表横向规范化，N
i
为节点i的邻域；同时，对于输入场景图中的每条边，学习一个反向的转换矩阵，因此，对于数据集中共50类关系，该模块共训练100种不同的转换矩阵，以充分利用关系约束监督消息传递。5.根据权利要求2所述的场景图生成方法，其特征在于，所述步骤2.2的具体公式如下：p
r(i,j)
＝FC([f1(x
s
,x
u
,x
o
),f2(g
s
,g
o
)])...

【专利技术属性】
技术研发人员：王蕊，童学智，李太豪，裴冠雄，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人