【技术实现步骤摘要】
室内单视图场景语义重建方法及系统
[0001]本专利技术涉及图像处理
,尤其涉及一种室内单视图场景语义重建方法及系统。
技术介绍
[0002]单视图室内三维场景语义重建即根据单张室内图像提供一个语义丰富、几何准确和拓扑合理的室内三维场景表示,已成为一项重要且具有挑战性的任务。基于室内场景图像的语义重建在室内设计、房地产、数字孪生、室内装饰、机器人导航和AR/VR内容生成等许多领域中具有广泛的应用前景。然而,深度感知中固有的模糊性、真实环境的混乱和复杂性使得仅从单一图像中完全恢复场景上下文(包括语义和几何学)仍然具有挑战性,由于深度信息的缺失,从二维图像恢复三维空间是一个困难的问题,因为不同的三维场景可能投影产生相同的RGB图像。
[0003]Huang等在NeurIPS2018上提出了一个端到端的模型框架,能够从单张RGB图像中实时重建三维室内场景,包括三个子任务:3D房间布局、摄像机姿态和物体边界框。为了使三个子任务协同优化,他们引入了一种新颖的三维边界盒参数化方法和二维投影损失函数,以增强二维和三维之间的对齐。他们还设计了可微分的协同损失函数,有助于有效地联合训练两个主要模块:3D房间布局与物体边界框。但是,室内场景的语义重建既包括场景理解,也包括对象重建,之前的工作不能良好地耦合这两个任务在同一个模型框架下。
[0004]Nie等在CVPR2020中提出了一个从单张RGB图像端到端进行室内场景语义重建的方法Total3D,它将场景理解与对象网格重建嵌入融合在一起进行协同联合训练推理,主要包 ...
【技术保护点】
【技术特征摘要】
1.一种室内单视图场景语义重建方法,其特征在于,包括:对待处理的室内图像进行二维目标检测,得到所述室内图像中每个物体的二维边界框;对所述室内图像进行布局估计,得到室内布局初步估计参数;根据每个物体的二维边界框,对所述室内图像进行第一尺度裁剪,得到每个物体的第一物体图像,并对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果;根据每个物体的二维边界框,对所述室内图像进行第二尺度裁剪,得到每个物体的第二物体图像,并对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数;根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,并对所述场景图进行图推理,得到最终的室内布局估计参数和三维边界框估计参数;根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数,进行三维语义场景重建。2.如权利要求1所述的室内单视图场景语义重建方法,其特征在于,所述对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果,包括:对预先构建的三维CAD模型库中各个三维模型进行多视角渲染,得到每个三维模型的多张灰度渲染图;对所述第一物体图像进行颜色转换和增强;对颜色转换和增强后的第一物体图像和每个三维模型的多张灰度渲染图分别进行特征提取,得到所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征;利用通道空间注意力机制分别对所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征进行处理,得到所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征;分别对所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征进行非线性自适应映射,得到所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的特征向量;利用自注意力机制将所述三维模型的多张灰度渲染图的特征向量间进行处理,得到相应三维模型的多张灰度渲染图的自注意力特征向量;将所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的自注意力特征向量之间使用交叉注意力机制计算每张灰度渲染图的自注意力特征向量的加权融合权重,从而对相应三维模型的多张灰度渲染图的自注意力特征向量进行融合,得到相应三维模型的嵌入向量;计算所述第一物体图像的嵌入向量与各个三维模型的嵌入向量的相似度,并选取相似度最大对应三维模型,作为相应物体的三维模型检索结果。3.如权利要求1所述的室内单视图场景语义重建方法,其特征在于,所述室内布局初步估计参数包括:相机姿态初步估计参数和室内布局边界框初步估计参数;则,对所述室内图像进行布局估计,得到室内布局初步估计参数,包括:
对所述室内图像进行视觉特征提取;采用第一多层感知网络对所述室内图像的视觉特征进行布局估计,得到相机姿态初步估计参数;采用第二多层感知网络对所述室内图像的视觉特征进行布局估计,得到室内布局边界框初步估计参数。4.如权利要求3所述的室内单视图场景语义重建方法,其特征在于,所述对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数,包括:计算任意两个物体的二维边界框之间的几何关系特征,并对所述几何关系特征进行位置编码,得到相应两个物体的编码特征;对每个物体的第一物体图像进行视觉特征提取;根据每个物体的视觉特征和相应的编码特征,计算每个物体的关系特征;对每个物体的关系特征进行级联聚合,得到相应物体的关系视觉特征;采用第三多层感知网络对相应物体的关系视觉特征进行处理,得到相应物体的三维边界框初步估计参数。5.如权利要求4所述的室内单视图场景语义重建方法,其特征在于,所述根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,包括:根据所述室内图像的视觉特征、预先已知的归一化相机...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。