单视图室内场景三维重建方法、系统及设备技术方案

技术编号：40071668 阅读：6 留言：0更新日期：2024-01-17 00:16

本发明专利技术属于三维模型重建领域，具体涉及了一种单视图室内场景三维重建方法、系统及设备，旨在解决现有的3D模型重建技术需要大量的数据支持且在进行具有复杂的空间关系的模型复原时容易出错的问题。本发明专利技术包括：获取待重建图像；基于所述待重建图像，通过2D检测网络，获取带有目标包围框的待重建图像；基于所述待重建图像和带有目标包围框的待重建图像，通过双分支的3D重建网络，生成正确摆放的室内场景及对象3D模型。本发明专利技术通过在3D重建网络中的不同子网络分别设置了对象关系注意力模块和挤压激励网络，明确了在3D重建中3D对象之间关系的重要性和通道的重要性，提高了三维重建效果的精度。

全部详细技术资料下载

【技术实现步骤摘要】

所属的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器（ram）、内存、只读存储器（rom）、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本专利技术的范围。术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。至此，已经结合附图所示的优选实施方式描述了本专利技术的技术方案，但是，本领域技术人员容易理解的是，本专利技术的保护范围显然不局限于这些具体实施方式。在不偏离本专利技术的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本专利技术的保护范围之内。

技术介绍

1、室内场景由于其特有的环境特点和多样性，为物体检测和识别带来了许多挑战。首先，室内空间中的实例物体种类繁多，从家具、装饰品到日常用品，每一类物体都有其独特的形态和特点。这些物体不仅形状各异，而且大小、颜色和纹理都有很大的差异。此外，由于空间限制和物体的排列方式，遮挡现象在室内场景中尤为常见。例如，一个椅子可能被桌子遮挡，或者书架上的书可能相互遮挡。再者，三维物体之间的相互关系在室内环境中更为复杂。物体之间可能存在堆叠、悬挂、倚靠等多种关系，这些关系不仅增加了识别的难度，还对后续的三维重建和渲染带来了挑战。例如，如何确定一个放在桌子上的杯子与桌面的精确接触点，或者如何判断一个挂在墙上的画框与墙面的相对位置，依靠现有技术的3d重建方法难以进行3d模型重建。现有技术通常需要针对每个物体获取多视角的图像或点云数据才能够进行模型重建。

2、基于上述因素，如何精准识别室内三维物体的姿态和关系变得尤为关键。这不仅需要高效的算法和模型，还需要大量的数据支持和深度学习技术的辅助。在此基础上进行三维重建和渲染更是一项技术密集型的任务。本专利技术所要达到的技术效果就是仅依据单视图进行姿态估计，并通过物体之间关系精确估计姿态，并通过隐函数的方式构建三维模型，并通过marching cubes算法进行渲染。

技术实现思路

1、为了解决现有技术中的上述问题，即现有的3d模型重建技术需要大量的数据支持且在进行具有复杂的空间关系的模型复原时容易出错的问题，本专利技术提供了一种单视图室内场景三维重建方法，所述方法包括：

2、步骤s1，获取待重建图像；

3、步骤s2，基于所述待重建图像，通过2d检测网络，获取带有目标包围框的待重建图像；

4、步骤s3，基于所述待重建图像和带有目标包围框的待重建图像，通过双分支的3d重建网络，生成正确摆放的室内场景及对象3d模型；

5、所述双分支的3d重建网络，包括并行的3d建模网络和3d检测网络，3d建模网络和3d检测网络在第一加和单元汇集后，连接等值面提取算法模块；

6、步骤s301a，基于所述待重建图像和所述带有目标包围框的待重建图像，通过3d建模网络进行图像特征对应，并生成房间整体3d模型和房间内物品的对象3d模型；

7、步骤s301c，基于所述待重建图像，通过所述3d检测网络获取房间布局；基于所述带有目标包围框的待重建图像，通过所述3d检测网络获取房间内物品的对象布局；

8、步骤s302，通过第一加和单元，将房间整体3d模型和对象3d模型以对应的房间布局和对象布局进行摆放，获得场景隐函数表示的正确摆放的场景及对象模型；

9、步骤s303，基于所述场景隐函数表示的正确摆放的场景及对象模型通过等值面提取算法模块进行渲染，获得正确摆放的室内场景及对象3d模型。

10、在一些优选的实施方式中，所述3d建模网络，包括房间建模子网络和3d建模子网络，具体为：

11、所述房间建模子网络，为依次连接的堆叠沙漏网络、减法单元第一部分、第一残差网络、第二加和单元和第一多层感知机；减法单元第一部分的输出端通过残差连接与第二加和单元相连；堆叠沙漏网络的输入端作房间建模子网络输入端；第一多层感知机输出端作为房间建模子网络输出端；

12、所述3d建模子网络，为依次连接的减法单元第二部分、第二残差网络、第三加和单元、挤压激励网络和第二多层感知机；减法单元第二部分的输出端通过残差连接与第三加和单元和挤压激励网络分别相连；第二残差网络的输出端通过残差连接与第二多层感知机的输入端相连；减法单元第二部分的输入端作为3d建模子网络输入端，第二多层感知机的输出端作为3d建模子网络的输出端。

13、本专利技术提出的3d建模网络，通过在多层感知机前设置挤压激励网络，学习通道之间的关联性和重要性，从而确定各个通道的权重，在本专利技术的应用场景中能够提高构建的对象3d模型的精确度。

14、在一些优选的实施方式中，所述步骤s301a，具体包括：

15、步骤s301a01，将所述待重建图像输入所述房间建模子网络输入端，通过堆叠沙漏网络获取图像全局特征；

16、步骤s301a01b，将所述带有目标包围框的待重建图像输入所述3d建模子网络输入端；

17、步骤s301a02，通过减法单元第一部分与减法单元第二部分，将图像全局特征与带有目标包围框的待重建图像进行特征对应，获得每个房间图像特征中的特征向量和每个对象图像特征；

18、步骤s301a03a，基于所述每个房间图像特征中的特征向量，通过第一残差网络获取一个房间全局图像特征向量；

19、通过第二加和单元，将一个房间全局图像特征向量与每个房间图像特征中的特征向量进行特征向量融合，获得第一融合向量；

20、基于所述第一融合向量通过第一多层感知机判断每个3d空间点在房间模型的内部或外部，获得房间整体3d模型；

21、步骤s301a03b，基于所述每个对象图像特征，通过第二残差网络为每一个对象获取一个对象全局的图像特征向量，所有的一个对象全局的图像特征向量为单个对象全局的图像特征向量集；表示对象，表示所有对象；

22、通过第三加和单元，基于所述单个对象全局的图像特征向量集和每个对象图像特征进行特征向量融合，获得第二融合向本文档来自技高网...

【技术保护点】

1.一种单视图室内场景三维重建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的单视图室内场景三维重建方法，其特征在于，所述3D建模网络，包括房间建模子网络和3D建模子网络，具体为：

3.根据权利要求2所述的单视图室内场景三维重建方法，其特征在于，所述步骤S301A，具体包括：

4.根据权利要求1所述的单视图室内场景三维重建方法，其特征在于，所述房间3D检测网络，包括房间布局估计子网络和3D对象布局估计子网络：

5.根据权利要求4所述单视图室内场景三维重建方法，其特征在于，所述第三残差网络和第四残差网络，具体包括：

6.根据权利要求4所述的单视图室内场景三维重建方法，其特征在于，所述步骤S301C，具体包括：

7.根据权利要求1所述的单视图室内场景三维重建方法，其特征在于，所述双分支的3D重建网络，其训练方法包括：

8.根据权利要求7所述的单视图室内场景三维重建方法，其特征在于，所述3D建模网络的损失函数为：

9.根据权利要求7所述的单视图室内场景三维重建方法，其特征在于，所述3D检测网络的损失函数为：

10.根据权利要求1所述的单视图室内场景三维重建方法，其特征在于，所述2D检测网络，包括R-CNN、Fast R-CNN、Faster R-CNN、CenterNet、Mask R-CNN或Cascade R-CNN。

11.一种单视图室内场景三维重建系统，其特征在于，所述系统包括：

12.一种电子设备，其特征在于，包括：

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求1-10任一项所述的单视图室内场景三维重建方法。

...

【技术特征摘要】

1.一种单视图室内场景三维重建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的单视图室内场景三维重建方法，其特征在于，所述3d建模网络，包括房间建模子网络和3d建模子网络，具体为：

3.根据权利要求2所述的单视图室内场景三维重建方法，其特征在于，所述步骤s301a，具体包括：

4.根据权利要求1所述的单视图室内场景三维重建方法，其特征在于，所述房间3d检测网络，包括房间布局估计子网络和3d对象布局估计子网络：

5.根据权利要求4所述单视图室内场景三维重建方法，其特征在于，所述第三残差网络和第四残差网络，具体包括：

6.根据权利要求4所述的单视图室内场景三维重建方法，其特征在于，所述步骤s301c，具体包括：

7.根据权利要求1所述的单视图室内场景三维重建方法，其特征在于，所述双分支的3d重建网络，...

【专利技术属性】
技术研发人员：方顺，冯星，崔铭，张志恒，吕艳娜，张亚男，王玉娇，韦昀，叶育廷，张佳骥，
申请(专利权)人：北京渲光科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人