基于神经有符号距离场的实时高效三维重建方法及装置制造方法及图纸

技术编号：38761029 阅读：10 留言：0更新日期：2023-09-10 10:34

本发明专利技术公开了一种基于神经有符号距离场的实时高效三维重建方法及装置，本发明专利技术采用离散四维体素网格和连续多层感知机网络相结合的方法对场景的SDF进行建模，为了进一步提高计算效率，采用张量分解技术，将四维场景张量分解成多个紧凑的低秩张量分量，使得模型更加轻量化。利用体渲染技术渲染得到指定位姿下的渲染深度图、渲染法向量图，利用真实深度图、真实法向量图、近似SDF真值作为监督信号，对模型进行优化。本发明专利技术兼顾重建速度与重建质量，能够实时进行稠密三维重建，还原空间三维几何结构，同时对未观测到的区域进行合理的预测。同时对未观测到的区域进行合理的预测。同时对未观测到的区域进行合理的预测。

全部详细技术资料下载

【技术实现步骤摘要】
基于神经有符号距离场的实时高效三维重建方法及装置

[0001]本专利技术属于三维重建
，尤其涉及一种基于神经有符号距离场(Signed Distance Fields,SDF)的实时高效三维重建方法及装置。

技术介绍

[0002]稠密三维重建是计算机视觉和计算机图形学中的一个重要的研究课题，同时也是机器人定位与导航的关键技术，其目的是使用视觉传感器或深度传感器对室内场景进行扫描，获取数据，最终从含有噪声的数据中恢复出一个精确完整的场景三维模型。
[0003]常见的三维场景重建方法按照输入信息的类型可以划分为以下2种：基于纹理信息的3D重建、基于深度信息的3D重建。
[0004]基于RGB纹理信息的3D重建通常采用多视图立体视觉的方法，从多个已知相机姿态的图像中建立密集的对应关系，从而产生对应场景的三维点云重建结果。但多视图立体视觉算法的性能在很大程度上取决于光照条件和纹理的丰富性，此外，多视图立体视觉算法仍然可能在具有相似的相机视角区域失败。特别是在几何结构高度相似，且存在大片无纹理区域(墙、地面)的一些室内场景，仅通过RGB信息进行重建的算法往往会得到较差的重建效果。同时，基于RGB纹理信息的稠密3D重建往往需要较长的时间(以小时为单位)，无法实现实时稠密三维重建。
[0005]近年来，随着深度传感器的快速发展，如Lidar传感器、RGB
‑
D相机等，场景3D重建取得了深刻的进展，许多基于深度信息的3D重建算法被开发出来。深度传感器可以对场景进行三维感知，提供独立于视...

【技术保护点】

【技术特征摘要】
1.一种基于神经有符号距离场的实时高效三维重建方法，其特征在于，包括以下步骤：S1，利用深度相机获取待重建三维场景的已知位姿的深度图像流，对所述深度图像流进行关键帧筛选，构建关键帧集合；S2，采用显式离散体素网格和浅层隐式MLP网络的混合场景建模方式来建模场景的有符号距离场，包括：按照设定的分辨率将场景划分为离散体素网格结构，体素网格中封装了场景几何分布的特征；将离散体素网格视作一个四维特征张量，利用张量分解技术，将场景对应的四维特征张量分解为多个紧凑的低秩张量分量；对场景中的三维空间点，通过三线性插值获取空间点在设定分辨率下的几何特征张量，经过编码后送入MLP网络进行解码，输出场景三维空间的性质，即每个空间点的有符号距离值SDF；利用体渲染技术渲染得到指定位姿下的渲染深度图、渲染法向量图，利用真实深度图、真实法向量图、近似SDF真值作为监督信号，对模型进行优化；S3，通过提取SDF的零水平集合提取出场景表面，从而实现三维重建结果的可视化。2.根据权利要求1所述的基于神经有符号距离场的实时高效三维重建方法，其特征在于，利用深度相机对待重建三维场景进行数据录制，获取深度图像流，同时采用SLAM技术获取各个深度图像的位姿。3.根据权利要求1所述的基于神经有符号距离场的实时高效三维重建方法，其特征在于，对获取的深度图像流进行关键帧筛选，包括：维护一个关键帧集合，当新输入一帧深度图像，若该帧的相对位姿变化大于预设阈值，则将其作为当前关键帧，加入所维护的关键帧集合，用于在线训练。4.根据权利要求1所述的基于神经有符号距离场的实时高效三维重建方法，其特征在于，将场景对应的离散体素网格视作一个四维特征张量，其中三个维度分别对应于X、Y、Z轴，第四个维度为网格中存储的特征通道数，对四维特征张量进行张量分解，包括：选用向量
‑
矩阵分解技术，将...

【专利技术属性】
技术研发人员：张宇，陈梓怡，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人