当前位置: 首页 > 专利查询>浙江大学专利>正文

一种面向真实场景的隐式自主三维重建方法技术

技术编号:38317751 阅读:10 留言:0更新日期:2023-07-29 08:59
本发明专利技术公开了一种面向真实场景的隐式自主三维重建方法,该方法包括:将传统标定方法与动作捕捉系统相结合,通过动作捕捉系统获得的机器人位姿得到相机位姿;将三维场景的隐式神经表示与体素表示相结合,使用粗糙的体素表示加速采样以及障碍检测,使用精细的隐式神经表示进行三维场景重建;引入一种全新的代价函数计算方法,兼顾路径长度与三维重建质量;基于代价函数分布获得目标位姿以及可达路径。解决了三维重建领域,隐式神经表示大多应用于仿真环境,难以部署到移动机器人,进行真实环境的自主三维重建的问题。的自主三维重建的问题。的自主三维重建的问题。

【技术实现步骤摘要】
一种面向真实场景的隐式自主三维重建方法


[0001]本专利技术涉及机器人领域,具体涉及一种面向真实场景的隐式自主三维重建方法。

技术介绍

[0002]随着计算机视觉及其相关领域的飞速发展,机器人领域的研究人员希望利用相关的视觉知识,赋予机器人更多自主性。在这种情况下,机器人能够自主调整其搭载的视觉传感器,以获取更多的信息。其中视图规划作为机器人调整其运动状态的基本依据,越来越受到研究人员的关注。基于视图规划算法,机器人视觉系统能够处理和分析当前获得的信息,使机器人能够尽可能地探索未知空间。
[0003]实现三维场景重建首先需要一种数据结构来对观测的模型进行存储和表示。三维模型的表示方法整体上可以分为两种:显式表示和隐式表示。显式表示的以体素表示最为常见,隐式表示则以神经隐式表示最为常见。
[0004]体素表示将三维模型离散化为栅格或八叉树,计算复杂度较小,然而不能展现模型表面的细节。因此,体素表示在质量和效率之间提供了良好的平衡。其主要缺点是存储浪费,正常情况下待测模型可能只占整个环境的小部分。
[0005]近些年,随着深度学习的蓬勃发展,通过神经网络模型存储一个环境的方法越来越受到欢迎,即神经隐式表示。神经隐式表示使用深度神经网络来表示场景,其输入是连续5D坐标(空间位置和观测视角),输出是对应空间位置的透明度和颜色,同时使用经典的体积渲染技术将输出的颜色和透明度投影到图像中,从而实现任意视角的场景表示。神经隐式表示相对于传统方法需要内存小,具有一定平滑性,同时可以对未知空间进行填充,缺点是神经隐式表示的很多方法都是离线训练的,模型优化所需要时间长。因此目前自主三维重建方法大多基于传统体素表示,隐式神经表示大多用于新视角合成等离线场景。

技术实现思路

[0006]针对上述现有技术的不足,本专利技术提供一种面向现实场景的隐式自主三维重建方法,目标是实现基于移动机器人平台的隐式场景表示,完成高精度三维场景重建,解决传统自主三维重建算法重建精度较差,缺乏对未观测区域的预测能力的问题。
[0007]本专利技术的目的是通过以下技术方案实现的:一种面向真实场景的隐式自主三维重建方法,包括以下步骤:
[0008]S1:建立世界坐标系,获取相机坐标系相对于世界坐标系的位姿和机器人坐标系相对于世界坐标系的位姿,由此获得相机坐标系相对于机器人坐标系的偏移,每一张图片对应的相机位姿通过机器人位姿间接获得;
[0009]S2:对当前观测位置获得的RGBD图片与相机位姿进行同步,并转换到世界坐标系;
[0010]S3:对隐式神经表示,使用第一多层感知机模型,输入步骤S2获得的已同步的世界坐标系下图片和位姿,输出场景相应点的颜色值、体素密度、不确定度;
[0011]S4:对体素表示,将步骤S2获得的已同步的世界坐标系下图片和位姿转换为三维
空间点,融合至已有TSDF地图,更新地图状态;
[0012]S5:利用步骤S3隐式神经表示输出的不确定度与步骤S4体素表示记录的地图状态,在当前观测位置附近进行离散采样,记录采样点的位姿与不确定度;
[0013]S6:建立第二多层感知机模型,拟合步骤S5得到的采样点位姿与相应的不确定度,得到连续的信息增益场,结合梯度下降算法获得信息增益最大值,将其作为目标位姿;
[0014]S7:基于步骤S6获得的目标位姿与步骤S4得到的TSDF地图,利用A*算法进行路径规划,将栅格点对应的信息增益作为启发函数,从而得到一条兼顾路径长度与重建质量的路径;
[0015]S8:基于步骤S7获得的路径进行机器人的自主运动,在运动过程中采集多张图片加速重建,重复S2

S8步骤,直至第一多层感知机模型收敛,完成当前场景的隐式三维重建。
[0016]进一步地,所述步骤S1中对应的相机位姿通过机器人位姿间接获得的计算方法具体为:
[0017]首先,在棋盘格标定板的角点上粘贴动作捕捉系统的荧光标记球,此时获得它们在世界坐标系以及棋盘格坐标系的坐标,利用ICP算法,得到棋盘格坐标系相对于世界坐标系的变换;其次,利用机器人上携带的相机对标定板进行拍照,由此获得相机相对于棋盘格坐标系的位姿,进而得到相机相对于世界坐标系的位姿;最后,在机器人上粘贴动作捕捉系统的荧光标记球,获得机器人相对于世界坐标系的位姿,得到当前时刻相机位姿相对于机器人位姿的偏移,每个时刻的相机位姿都可以通过机器人位姿间接得到。
[0018]进一步地,所述步骤S3中第一多层感知机模型的构建具体为:
[0019]隐式神经表示的第一多层感知机模型由10个全连接层组成,输入是当前相机位置,前九个全连接层的神经元数目均为256,在第五层引入了前馈操作,第九层增加了相机观测姿态作为输入,同时第九层的输出为预测的体素密度,第十层的神经元数目为128,输出为预测的颜色值;在训练时,执行dropout操作,以减轻过拟合;将相机相对于世界坐标系的位姿作为可优化的变量,用于减少真实场景的位姿噪声的影响。
[0020]进一步地,所述步骤S3中不确定度的获取方式具体为:
[0021]将步骤S3中模型预测的每个采样点的颜色值看作服从同一高斯分布的随机变量,则有c(μ,σ),其中c代表颜色值,μ代表颜色均值,σ代表颜色方差,方差越大代表该点的不确定度越大,需要更多的观测数据;由此可得输入图片的不确定度为:
[0022][0023]其中R代表输入图片中的像素数目,N代表预测每个像素需要的采样点数目,σ
I
,σ
r
,σ
ri
分别代表输入图片,像素点,采样点的不确定度;W
ri
代表每个采样点对应的权重。
[0024]进一步地,步骤S3中第一多层感知机模型的损失函数具体为:
[0025][0026]其中R代表输入图片的像素数目,C
r
,C
I
分别代表像素与图片的颜色真值,μ
r
,μ
I
分别代表像素与图片的预测均值。
[0027]进一步地,所述步骤S4具体为:
[0028]对地图中的栅格x,计算其到相机坐标系原点的距离distance(x),然后将该点投影至像素坐标系,根据深度图片获得的该点对应的深度值depth(x),则有该点到表面的距离可表示为:sdf(x)=depth(x)

distance(x),然后根据截断距离u进行截断。
[0029][0030]将当前计算结果融入现有地图:
[0031][0032]其中TSDF
i
‑1(x)为现有地图上x到最近表面的截断距离,TSDF
i
(x)为融合后地图上x到最近表面的截断距离,tsdf(x)为当前帧x到最近表面的截断距离,W(x)为融合权重值,w(x)为当前帧的权重值,W(x)随观测数据的增加而增长。
[0033]进一步地,所述步骤S5中采样算法具体为:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向真实场景的隐式自主三维重建方法,其特征在于,包括以下步骤:S1:建立世界坐标系,获取相机坐标系相对于世界坐标系的位姿和机器人坐标系相对于世界坐标系的位姿,由此获得相机坐标系相对于机器人坐标系的偏移,每一张图片对应的相机位姿通过机器人位姿间接获得;S2:对当前观测位置获得的RGBD图片与相机位姿进行同步,并转换到世界坐标系;S3:对隐式神经表示,使用第一多层感知机模型,输入步骤S2获得的已同步的世界坐标系下图片和位姿,输出场景相应点的颜色值、体素密度和不确定度;S4:对体素表示,将步骤S2获得的已同步的世界坐标系下图片和位姿转换为三维空间点,融合至已有TSDF地图,更新地图状态;S5:利用步骤S3隐式神经表示输出的不确定度与步骤S4体素表示记录的地图状态,在当前观测位置附近进行离散采样,记录采样点的位姿与不确定度;S6:建立第二多层感知机模型,拟合步骤S5得到的采样点位姿与相应的不确定度,得到连续的信息增益场,结合梯度下降算法获得信息增益最大值,将其作为目标位姿;S7:基于步骤S6获得的目标位姿与步骤S4更新后的TSDF地图,利用A*算法进行路径规划,将栅格点对应的信息增益作为启发函数,从而得到一条兼顾路径长度与重建质量的路径;S8:基于步骤S7获得的路径进行机器人的自主运动,在运动过程中采集多张图片加速重建,重复步骤S2

S8,直至第一多层感知机模型收敛,完成当前场景的隐式三维重建。2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,每一张图片对应的相机位姿通过机器人位姿间接获得的计算方法具体为:首先,在棋盘格标定板的角点上粘贴动作捕捉系统的荧光标记球,此时获得它们在世界坐标系以及棋盘格坐标系的坐标,利用ICP算法,得到棋盘格坐标系相对于世界坐标系的变换;其次,利用机器人上携带的相机对标定板进行拍照,由此获得相机相对于棋盘格坐标系的位姿,进而得到相机相对于世界坐标系的位姿;最后,在机器人上粘贴动作捕捉系统的荧光标记球,获得机器人相对于世界坐标系的位姿,得到当前时刻相机位姿相对于机器人位姿的偏移,每个时刻的相机位姿都通过机器人位姿间接得到。3.根据权利要求1所述的方法,其特征在于,所述步骤S3中第一多层感知机模型的构建具体为:隐式神经表示的第一多层感知机模型由10个全连接层组成,输入是当前相机位置,前九个全连接层的神经元数目均为256,在第五层引入了前馈操作,第九层增加了相机观测姿态作为输入,同时第九层的输出为预测的体素密度,第十层的神经元数目为128,输出为预测的颜色值;在训练时,执行dropout操作,以减轻过拟合;将相机相对于世界坐标系的位姿作为可优化的变量,用于减少真实场景的位姿噪声的影响。4.根据权利要求3所述的方法,其特征在于,所述步骤S3中不确定度的获取方式具体为:将步骤S3中模型预测的每个采样点的颜色值看作服从同一高斯分布的随机变量,则有其中c代表颜色值,μ代表颜色均值,σ代表颜色方差,方差越大代表该点的不确定度越大,需要更多的观测数据;由此可得输入图片的不确定度为:
其中R代表输入图片中的像素数目,N代表预测每个像素需要的采样点数目,σ
I
,σ
r
,σ
ri
分别代表输...

【专利技术属性】
技术研发人员:叶琦李艳旭曾静冉云龙
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1