室内单视图场景语义重建方法及系统技术方案

技术编号:38138088 阅读:7 留言:0更新日期:2023-07-08 09:50
本发明专利技术公开了一种室内单视图场景语义重建方法及系统,该方法包括:对室内图像进行二维目标检测,得到二维边界框;对室内图像进行布局估计,得到室内布局初步估计参数;基于二维边界框,进行三维模型检索和三维目标检测,得到各个物体的三维模型检索结果和三维边界框初步估计参数;根据室内布局初步估计参数及三维边界框初步估计参数,进行场景图构建和图推理,得到室内布局估计参数和三维边界框估计参数;根据三维模型检索结果、室内布局估计参数和三维边界框估计参数,进行三维语义场景重建,从而得到物体的准确、完整的语义重建场景,实现整体场景语义重建。实现整体场景语义重建。实现整体场景语义重建。

【技术实现步骤摘要】
室内单视图场景语义重建方法及系统


[0001]本专利技术涉及图像处理
,尤其涉及一种室内单视图场景语义重建方法及系统。

技术介绍

[0002]单视图室内三维场景语义重建即根据单张室内图像提供一个语义丰富、几何准确和拓扑合理的室内三维场景表示,已成为一项重要且具有挑战性的任务。基于室内场景图像的语义重建在室内设计、房地产、数字孪生、室内装饰、机器人导航和AR/VR内容生成等许多领域中具有广泛的应用前景。然而,深度感知中固有的模糊性、真实环境的混乱和复杂性使得仅从单一图像中完全恢复场景上下文(包括语义和几何学)仍然具有挑战性,由于深度信息的缺失,从二维图像恢复三维空间是一个困难的问题,因为不同的三维场景可能投影产生相同的RGB图像。
[0003]Huang等在NeurIPS2018上提出了一个端到端的模型框架,能够从单张RGB图像中实时重建三维室内场景,包括三个子任务:3D房间布局、摄像机姿态和物体边界框。为了使三个子任务协同优化,他们引入了一种新颖的三维边界盒参数化方法和二维投影损失函数,以增强二维和三维之间的对齐。他们还设计了可微分的协同损失函数,有助于有效地联合训练两个主要模块:3D房间布局与物体边界框。但是,室内场景的语义重建既包括场景理解,也包括对象重建,之前的工作不能良好地耦合这两个任务在同一个模型框架下。
[0004]Nie等在CVPR2020中提出了一个从单张RGB图像端到端进行室内场景语义重建的方法Total3D,它将场景理解与对象网格重建嵌入融合在一起进行协同联合训练推理,主要包括三个子网络:三维室内布局估计(带有相机位姿);三维目标检测;目标三角形网格(Mesh)生成网络,推理时全自动生成室内房间布局,摄像机姿态,物体三维边界框和网格三维模型,从而整体完备地恢复房间和物体对象的几何形状。Total3D中网格生成重建算法是基于球面模板的网格变形方法,变形过程中会删除边,有时候导致形成镂空,肉眼为观察到出现不少毛刺,对于遮挡和未见过的物体类别,效果更差,重建三维网格模型残缺不完整;而且上述方法没有对物体与物体之间的关系,物体与布局的关系等场景上下文信息综合考虑进去。目前三维目标位姿估计以及室内布局估计误差导致场景重建结果中出现:目标三维模型间彼此碰撞或重叠;目标超出墙体地板布局这两种场景关系混乱的情形。
[0005]基于上述问题,Kuo等在ECCV2020中首次提出基于单目图像跨域三维模型检索和二维目标分割实现对单张RGB室内图像包含的多个物体进行三维形状表示和位姿估计对齐的方法架构,被称为Mask2CAD。Kuo等在ICCV2021中进一步改进提出Patch2CAD方案,利用输入图像中目标的感兴趣区域(Region Of Interest,ROI)的补丁切片进行模型检索,相似性度量使用各自补丁块对应法线向量的自相似性直方图之间交并比(Intersection Over Union,IOU)。Patch2CAD在复杂室内场景的效果更佳,但在计算三维目标中心点时二者都需要深度信息作为输入。Gumeli等在CVPR2022中提出一种新的端到端的框架,它可以稳健地检索三维CAD模型并对齐到单个输入图像,与以前执行直接姿态回归的方法相比,增加了深
度图估计分支,为了利用可微的Procrustes优化来求解位姿,通过以深度和归一化对象坐标的一一对应形式去学习预测密集的2D

3D对应;另外,因为检索任务把三维模型用点云表示提取特征,所以预测的三维对应有助于学习几何相似的CAD模型的检索,同时改进对象姿态对齐。这三种方案的不足的是缺少布局估计任务,无法进行整体场景语义重建。

技术实现思路

[0006]本专利技术实施例提供一种室内单视图场景语义重建方法及系统,其能得到物体的准确、完整的语义,实现整体场景语义重建。
[0007]第一方面,本专利技术实施例提供了一种室内单视图场景语义重建方法,包括:
[0008]对待处理的室内图像进行二维目标检测,得到所述室内图像中每个物体的二维边界框;
[0009]对所述室内图像进行布局估计,得到室内布局初步估计参数;
[0010]根据每个物体的二维边界框,对所述室内图像进行第一尺度裁剪,得到每个物体的第一物体图像,并对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果;
[0011]根据每个物体的二维边界框,对所述室内图像进行第二尺度裁剪,得到每个物体的第二物体图像,并对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数;
[0012]根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,并对所述场景图进行图推理,得到最终的室内布局估计参数和三维边界框估计参数;
[0013]根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数,进行三维语义场景重建。
[0014]作为上述方案的改进,所述对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果,包括:
[0015]对预先构建的三维CAD模型库中各个三维模型进行多视角渲染,得到每个三维模型的多张灰度渲染图;
[0016]对所述第一物体图像进行颜色转换和增强;
[0017]对颜色转换和增强后的第一物体图像和每个三维模型的多张灰度渲染图分别进行特征提取,得到所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征;
[0018]利用通道空间注意力机制分别对所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征进行处理,得到所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征;
[0019]分别对所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征进行非线性自适应映射,得到所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的特征向量;
[0020]利用自注意力机制将所述三维模型的多张灰度渲染图的特征向量间进行处理,得到相应三维模型的多张灰度渲染图的自注意力特征向量;
[0021]将所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的自注意力
特征向量之间使用交叉注意力机制计算每张灰度渲染图的自注意力特征向量的加权融合权重,从而对相应三维模型的多张灰度渲染图的自注意力特征向量进行融合,得到相应三维模型的嵌入向量;
[0022]计算所述第一物体图像的嵌入向量与各个三维模型的嵌入向量的相似度,并选取相似度最大对应三维模型,作为相应物体的三维模型检索结果。
[0023]作为上述方案的改进,所述室内布局初步估计参数包括:相机姿态初步估计参数和室内布局边界框初步估计参数;
[0024]则,对所述室内图像进行布局估计,得到室内布局初步估计参数,包括:
[0025]对所述室内图像进行视觉特征提取;
[0026]采用第一多层感知网络对所述室内图像的视觉特征进行布局估计,得到相机姿态初步估计参数;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种室内单视图场景语义重建方法,其特征在于,包括:对待处理的室内图像进行二维目标检测,得到所述室内图像中每个物体的二维边界框;对所述室内图像进行布局估计,得到室内布局初步估计参数;根据每个物体的二维边界框,对所述室内图像进行第一尺度裁剪,得到每个物体的第一物体图像,并对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果;根据每个物体的二维边界框,对所述室内图像进行第二尺度裁剪,得到每个物体的第二物体图像,并对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数;根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,并对所述场景图进行图推理,得到最终的室内布局估计参数和三维边界框估计参数;根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数,进行三维语义场景重建。2.如权利要求1所述的室内单视图场景语义重建方法,其特征在于,所述对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果,包括:对预先构建的三维CAD模型库中各个三维模型进行多视角渲染,得到每个三维模型的多张灰度渲染图;对所述第一物体图像进行颜色转换和增强;对颜色转换和增强后的第一物体图像和每个三维模型的多张灰度渲染图分别进行特征提取,得到所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征;利用通道空间注意力机制分别对所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征进行处理,得到所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征;分别对所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征进行非线性自适应映射,得到所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的特征向量;利用自注意力机制将所述三维模型的多张灰度渲染图的特征向量间进行处理,得到相应三维模型的多张灰度渲染图的自注意力特征向量;将所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的自注意力特征向量之间使用交叉注意力机制计算每张灰度渲染图的自注意力特征向量的加权融合权重,从而对相应三维模型的多张灰度渲染图的自注意力特征向量进行融合,得到相应三维模型的嵌入向量;计算所述第一物体图像的嵌入向量与各个三维模型的嵌入向量的相似度,并选取相似度最大对应三维模型,作为相应物体的三维模型检索结果。3.如权利要求1所述的室内单视图场景语义重建方法,其特征在于,所述室内布局初步估计参数包括:相机姿态初步估计参数和室内布局边界框初步估计参数;则,对所述室内图像进行布局估计,得到室内布局初步估计参数,包括:
对所述室内图像进行视觉特征提取;采用第一多层感知网络对所述室内图像的视觉特征进行布局估计,得到相机姿态初步估计参数;采用第二多层感知网络对所述室内图像的视觉特征进行布局估计,得到室内布局边界框初步估计参数。4.如权利要求3所述的室内单视图场景语义重建方法,其特征在于,所述对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数,包括:计算任意两个物体的二维边界框之间的几何关系特征,并对所述几何关系特征进行位置编码,得到相应两个物体的编码特征;对每个物体的第一物体图像进行视觉特征提取;根据每个物体的视觉特征和相应的编码特征,计算每个物体的关系特征;对每个物体的关系特征进行级联聚合,得到相应物体的关系视觉特征;采用第三多层感知网络对相应物体的关系视觉特征进行处理,得到相应物体的三维边界框初步估计参数。5.如权利要求4所述的室内单视图场景语义重建方法,其特征在于,所述根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,包括:根据所述室内图像的视觉特征、预先已知的归一化相机...

【专利技术属性】
技术研发人员:谢雪梅张少龙
申请(专利权)人:琶洲实验室黄埔
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1