一种基于隐函数三维表示和图神经网络的场景理解方法技术

技术编号：34143610 阅读：52 留言：0更新日期：2022-07-14 18:25

本发明专利技术涉及计算机视觉领域技术领域，公开了一种基于隐函数三维表示和图神经网络的场景理解方法。本发明专利技术用于实现包括布局估计、相机姿态估计、三维目标检测、单目三维场景重建在内的三维场景理解任务。在内的三维场景理解任务。在内的三维场景理解任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于隐函数三维表示和图神经网络的场景理解方法

[0001]本专利技术涉及计算机视觉领域
，具体地说，是一种基于隐函数三维表示和图神经网络的场景理解方法，用于实现包括布局估计、相机姿态估计、三维目标检测、单目三维场景重建在内的三维场景理解任务。

技术介绍

[0002]单目三维场景理解目的是从单张透视相机图像中获取室内场景的三维信息，包括但不限于场景的墙体、天花板、地板的位置(布局估计)，相机的姿态(相机姿态估计)，物体的三维包围盒/姿态(三维目标检测)，和三维模型(单目三维场景重建)。场景理解可用于机器人、VR、AR等领域，进一步实现室内导航或与场景中物体直接交互。图神经网络被广泛应用于图结构数据的学习，实现对节点之间上下文的理解。图神经网络的提出解决了图结构数据与深度学习的不兼容问题，并进一步从深度卷积神经网络中引入了卷积操作，实现了相邻节点之间信息的传播。隐函数三维表示是最近在深度学习领域提出的一种利用神经网络实现的三维表示方法。隐函数三维表示将三维信息编码到相对较短的隐式向量(latent vector)中，并利用深度学习网络解码隐式向量中隐含的三维信息。不同于深度图、体素、点云、网格等传统的三维表示方法，其具有精度高、信息密度高、适合用于深度学习任务等优点。
[0003]图神经网络和隐函数三维表示在各自领域已得到了充分的发展，最新的隐函数三维表示方法和局部深度隐式函数(Local Deep Implicit Functions for 3D Shape,LDIF)在单个物体的三维表示中展现了较...

【技术保护点】

【技术特征摘要】
1.一种基于隐函数三维表示和图神经网络的场景理解方法，其特征在于，包括以下步骤：步骤S1：在图估计阶段，使用二维目标检测网络从输入的图像中提取图像中的物体的二维包围盒和类别，然后使用场景图卷积网络更新并表示图像的上下文信息，在二维包围盒和类别的基础上，使用三维包围盒表示物体姿态和房间布局参数，并对物体类别编码和物体保留标签进行估计，输出图估计结果，所述图估计结果包括物体姿态、房间布局参数、物体隐式表示向量、物体类别编码和物体保留标签，进行初始估计所述上下文信息为图像的物体和房间布局之间的关系信息；步骤S2：在图优化阶段，使用场景图卷积网络对步骤S1中的图估计结果进行迭代优化，并根据估计的物体保留标签对图进行裁剪，删除保留标签低于阈值的检测结果和对应的物体节点；步骤S3：场景图卷积网络输出物体隐式表示向量后，由局部深度隐式函数解码物体的三维模型输出网格表示模型，并结合步骤S2中优化迭代后的图估计结果实现场景重建。2.根据权利要求1所述的一种基于隐函数三维表示和图神经网络的场景理解方法，其特征在于，所述步骤S1包括：使用二维目标检测网络从输入的图像中检测到候选物体后，将图像中的物体和布局建模为一个由物体节点和布局节点组成的图；然后将提取到的物体节点和布局节点特征嵌入到图的对应节点中作为节点表示向量，通过场景图神经网络对节点表示向量进行更新并表示图像的上下文信息；更新后的节点表示向量通过多层感知器进行解码，其中物体节点的表示向量解码为物体姿态和隐式表示向量，布局节点的表示向量解码为布局的参数。3.根据权利要求1所述的一种基于隐函数三维表示和图神经网络的场景理解方法，其特征在于，对物体类别编码和物体保留标签进行估计的方法包括：对物体类别编码输入onehot编码，对物体保留标签设计为线性回归任务。4.根据权利要求1所述的一种基于隐函数三维表示和图神经网络的场景理解方法，其特征在于，所述场景图卷积网络的学习过程包括：使用深度残差网络为房间布局和图像中的物体提取图像特征，并将图像特征与布局节点特征和物体节点特征分别进行扁平化处理，再串联成一个向量，然后用多层感知器MLP将向量编码为长度相同的节点表示向量；所述布局节点特征包括按图像高度归一化的相机内参，所述物体节点特征包括二维目标检测网络估计的物体类别的原始编码输出；建立物体节点o或...

【专利技术属性】
技术研发人员：刘帅成，章程，郑梓澜，陈才，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人