一种基于语义分割的NeRF的三维目标对象模型重建方法技术

技术编号：41288351 阅读：6 留言：0更新日期：2024-05-11 09:37

本发明专利技术公布了一种基于语义分割的NeRF的三维目标对象模型重建方法，利用神经辐射场（NeRF）来重建3D汽车模型，相比于传统的手工建模、物理建模、以及基于激光点云或图像的建模算法，极大地提升三维汽车重建效率，基于语义分割的NeRF的汽车三维重建方法，相比于传统的NeRF，结合了MaskR‑CNN语义分割和多层级特征网格构造以及相匹配的多层级MLP感应偏差，提高三维汽车建模的精度。同时只关注建模目标的多层级特征网格相较于原始的图像特征网格，处理数据量极大地减少，提高了NeRF在3D汽车模型中的训练和重建效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于3d汽车模型重建静态目标对象的图像信息，包括带有深度信息的rgb-d图像数据。

技术介绍

1、三维汽车建模是汽车设计与制造、自动驾驶等多领域的一个重要应用方向，其高精度三维重建一直是工业界和学术界研究的重点。在过去，汽车建模主要基于手绘草图和物理模型，需要耗费大量的时间和资源。随着计算机图像处理技术和激光雷达的发展，越来越多的新兴技术被不断开发并应用于3d建模的工作上。然而传统的基于激光点云和图像的三维重建只能处理静态或简单的场景，无法对未观测到的区域实现合理的几何建模并且建模精度难以满足当前应用需求。

2、神经辐射场（neural radiance fields) 是一种用于生成3d场景中高质量的渲染图像的神经渲染算法，它可以从单一视角的图像数据中生成高精度、高逼真三维场景。nerf借助多层感知机（mlp）能够很好的学习图像数据中的信息，实现复杂几何形状、纹理的场景重建，且重建效果细节高度还原。nerf随着近几年研究人数增加，发展十分迅速，在三维重建领域引起了学者的关注。然而，传统的nerf在三维重建时由于其数据的庞大量，在模型训练与渲染时速度很慢，且需要高性能计算设备，这使得nerf在三维重建受到了限制。

技术实现思路

1、鉴于上述问题，本专利技术提供了一种克服上述问题或者至少部分地解决上述问题的一种基于语义分割的nerf的三维汽车模型重建方法，将重建目标与背景分割，使得nerf在重建时数据量大大减少，实现高效率高精度的三维汽车重建。

2、

3、步骤1、步骤1、利用rgb-d深度相机在不同视角获取静态目标对象的图像信息，包括带有深度信息的rgb-d图像数据；

4、步骤2、基于mask r-cnn对带有深度信息的rgb-d图像进行语义分割，同时获得图像中静态目标对象的空间信息；

5、步骤3、利用不同视角的静态目标对象的空间信息构建分层特征网格表示静态目标对象的几何形状和外观；

6、步骤4、将分层特征网格的图像特征信息导入神经辐射场生成模型；

7、步骤5、利用体积渲染技术将生成的模型进行渲染得到深度信息和rgb，与带有深度信息的rgb-d图像数据进行对比求重建损失，最小化优化渲染损失函数，完成特征网格三维静态目标对象重建。

8、优选的，步骤3中分层特征网格包括三种分辨率，三种分辨率从大到小递减。

9、可选地，所述步骤1包括：

10、步骤1.1、通过搭载rgb-d深度相机的数据采集设备采集静态目标对象的图像数据；

11、步骤1.2、将采集到的静态目标对象的图像数据集整理得到带有深度信息的rgb-d图像数据集。

12、可选地，所述步骤2包括：

13、步骤2.1、通过卷积神经网络对步骤1中获取的带有深度信息的rgb-d图像进行特征提取，得到特征图；

14、步骤2.2、基于rpn算法在特征图上提取候选的目标区域，输出每个目标区域的边界框坐标和置信度分数；

15、步骤2.3、使用分类器和回归器对每个目标区域中的特征进行分类和边界框回归，得到目标区域的类别和位置信息。

16、步骤2.4、使用分割掩码预测网络输出每个目标区域的分割掩码；

17、步骤2.5、根据mask r-cnn为每个目标区域生成的分割掩码将静态目标对象从特征图中分离出来，得到静态目标对象的空间信息：图像平面位置、深度信息和形状信息。

18、目标区域是特征图上的像素点集。

19、可选地，所述步骤3包括：

20、步骤3.1、将获取到的静态目标对象的空间信息构建成kd-tree结构；

21、步骤3.2、基于kd-tree结构通过八叉树地图方式将获取的空间信息构建成三个分辨率不同的特征网格，其中coarse网格分辨率为2m×2m、middle网格分辨率为32cm×32cm、fine网格分辨率为16cm×16cm；

22、步骤3.3、利用三线性插值算法从三个不同分辨率的网格里采取特征信息。

23、可选地，所述步骤4包括：

24、步骤4.1.将分层特征网格：coarse网格、middle网格、middle网格和fine网格、fine网格的图像特征信息分别导入神经辐射场的4个分辨器coarse mlp（）、middlemlp（）、fine mlp（）、；

25、是一个5×32的预训练全连接神经网络，获取来自coarse网格的特征信息，并输出coarse网格的占有值，公式如下：

26、；

27、其中表示coarse网格中任意点，，表示coarse网格在点处进行三线性插值，表示的神经网络函数；r3是三维空间集合。

28、是一个5×32的预训练全连接神经网络，获取来自middle网格的特征信息，并输出middle网格的占有值，公式如下：

29、；

30、其中表示 middle网格中任意点，，表示 middle网格在点处进行三线性插值，表示的神经网络函数；

31、是一个5×32的预训练全连接神经网络，获取来自middle和fine网格的特征信息，通过残差的方式输出特征网格占有值，公式如下：

32、；

33、其中表示middle和fine网格中任意点，，表示fine网格在点处进行三线性插值，表示的神经网络函数；

34、是一个5×32的全连接神经网络，获取来自fine网格的特征信息，并输出fine网格的颜色rgb值，公式如下：

35、；

36、其中表示fine网格，表示对应的解码器。

37、步骤4.2、将的输出和的输出相加作为精细级别特征解码器结果，公式如下：；

38、所述步骤4.1、4.2中预训练的mlp模型参数均由convonet训练得到，convonet包含了一个cnn的编码器和一个mlp的解码器，使用3d静态目标对象模型数据集对编码器-解码器进行预训练，训练完之后取mlp解码器使用。

39、可选地，所述步骤5包括：

40、步骤5.1、体积渲染获取来自的占有值、和的以及的rgb值；

41、步骤5.2、通过体积渲染技术得到生成模型在不同视角下的预测深度值，并求对应视角的rgb-d图像数据的深度信息和预测深度信息之间的几何损失；

42、；

43、其中m表示像素点个数，c表示coarse层，表示fine层， l表示预测深度

44、步骤5.3、通过体积渲染技术得到生成模型在不同视角下的预测rgb值，并求对应视角的rgb-d图像数据的rgb值和预测rgb值之间的颜色损失；；

45、步骤5.4、将几何误差和颜色误差求和，更新特征本文档来自技高网...

【技术保护点】

1.一种基于语义分割的NeRF的三维目标对象模型重建方法，包括如下步骤：

2.根据权利要求1所述的基于语义分割的NeRF的三维目标对象模型重建方法，其特征在于，步骤3中分层特征网格包括三种分辨率，三种分辨率从大到小递减。

3.根据权利要求1所述的基于语义分割的NeRF的三维目标对象模型重建方法，其特征在于，所述步骤1包括：

4.根据权利要求1所述的基于语义分割的NeRF的三维目标对象模型重建方法，其特征在于，所述步骤2包括：

5.根据权利要求1所述的基于语义分割的NeRF的三维目标对象模型重建方法，其特征在于，所述步骤3包括：

6.根据权利要求1所述的基于语义分割的NeRF的三维目标对象模型重建方法，其特征在于，所述步骤4包括：步骤4.1.将分层特征网格：coarse网格、middle网格、middle网格和fine网格、fine网格的图像特征信息分别导入神经辐射场的4个分辨器coarse MLP（）、middle MLP（）、fine MLP（）、；

7.根据权利要求1所述的基于语义分割的NeRF的三维目标

8.根据权利要求1~7任一项所述的基于语义分割的NeRF的三维目标对象模型重建方法，其特征在于，所述静态目标对象为汽车。

...

【技术特征摘要】

1.一种基于语义分割的nerf的三维目标对象模型重建方法，包括如下步骤：

2.根据权利要求1所述的基于语义分割的nerf的三维目标对象模型重建方法，其特征在于，步骤3中分层特征网格包括三种分辨率，三种分辨率从大到小递减。

3.根据权利要求1所述的基于语义分割的nerf的三维目标对象模型重建方法，其特征在于，所述步骤1包括：

4.根据权利要求1所述的基于语义分割的nerf的三维目标对象模型重建方法，其特征在于，所述步骤2包括：

5.根据权利要求1所述的基于语义分割的nerf的三维目标对象模型重建方法，其特征在于，所述步骤3包括：

...

【专利技术属性】
技术研发人员：钱闯，李一航，
申请(专利权)人：武汉理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人