使用图像数据对环境进行建模制造技术

技术编号:39571815 阅读:13 留言:0更新日期:2023-12-03 19:23
一种方法,包括获得由相机装置捕获的图像数据

【技术实现步骤摘要】
【国外来华专利技术】使用图像数据对环境进行建模


[0001]本专利技术涉及用于获得环境的模型的方法和系统,所述模型可例如由机器人装置用来导航和
/
或与其环境交互


技术介绍

[0002]在计算机视觉和机器人领域中,通常需要构建环境的模型,诸如能够使用机器人装置进行导航的三维空间

构建模型允许将真实世界环境映射到虚拟或数字领域,在所述虚拟或数字领域中,环境的表示可由电子装置使用和操纵

例如,可移动机器人装置可需要三维空间的表示,所述表示可使用同时定位和映射
(
通常称为“SLAM”)
来生成,以允许对其环境进行导航和
/
或与其环境交互

[0003]实时操作
SLAM
系统仍然具有挑战性

例如,许多现有系统需要对大型数据集进行离线操作
(
例如,通宵或连续几天
)。
希望为真实世界应用程序实时提供
3D
场景映射

[0004]Newcombe
等人在
2011
年混合和增强现实国际研讨会
(ISMAR)
论文集中发表的论文“KinectFusion:Real

Time Dense Surface Mapping and Tracking”中描述了一种从红

绿

蓝和深度
(RGB

D)<br/>数据构建场景的方法,其中
RGB

D
数据的多个帧被配准并融合到三维体素网格中

使用密集的六自由度对齐来跟踪数据帧,然后将其融合到体素网格的体积中

然而,环境的体素网格表示针对每个体素需要大量的内存

此外,针对在所获得的
RGB

D
数据中不完全可见的环境区域
(
例如,被遮挡或部分被遮挡的区域
)
,基于体素的表示可能不准确

使用环境的点云表示时会出现类似的问题

[0005]B.Mildenhall
等人在
2020
年欧洲计算机视觉会议
(ECCV)
上发表的论文“NeRF:Representing Scenes as Neural Radiance Fields for View Synthesis”提出了一种通过使用全连接神经网络处理一组具有已知相机位姿的图像来合成复杂场景的视图的方法

然而,所述方法需要大约1‑2天来使用大量训练图像进行离线训练,因此不适合实时使用

此外,这篇论文中提出的方法假设已知给定图像的相机位姿,例如,如果图像是在机器人装置穿越其环境时捕获的,则所述相机位姿可能不可用

[0006]希望改进对环境的建模


技术实现思路

[0007]根据本公开的第一方面,提供了一种方法,其包括:获得由相机装置捕获的图像数据,图像数据表示对环境的至少一部分的观察;获得与观察相关联的相机位姿估计;基于相机位姿估计和环境的模型生成渲染的图像数据,其中模型用于生成环境的至少一部分的三维表示,其中渲染的图像数据表示与环境的至少一部分相对应的至少一个渲染的图像部分;基于图像数据和渲染的图像数据评估损失函数,从而生成损失;以及基于损失联合优化至少相机位姿估计和模型,从而生成:对相机位姿估计的更新;和对模型的更新

[0008]这种方法允许获得环境的准确模型,例如,而无需预先训练或优化模型

例如,可实时优化模型和相机位姿估计,以便以有效的方式为模型和相机位姿估计两者提供自适应
改进

[0009]在一些示例中,模型是神经网络并且对模型的更新是对神经网络的一组参数的更新

例如,使用神经网络可允许对尚未观察到的环境区域进行预测

[0010]在一些示例中,三维表示包括密集三维表示

例如,密集三维表示提供了比其他类型的表示更完整的表示,这在涉及机器人装置与其环境之间的复杂交互的各种任务
(
诸如机器人导航和抓取
)
中非常有用

[0011]在一些示例中,生成渲染的图像数据包括:使用模型生成三维表示;以及使用三维表示执行渲染过程,其中渲染过程相对于相机位姿估计和模型的一组参数是可区分的

例如,使用可区分的渲染过程允许直接有效地生成用于损失函数的项,从而允许有效地联合优化模型和相机位姿估计

[0012]在一些示例中,所述方法包括:评估至少渲染的图像部分相对于相机位姿估计的第一梯度,从而生成第一梯度值;以及评估至少一个渲染的图像部分相对于模型的一组参数的第二梯度,从而生成第二梯度值,其中联合优化相机位姿估计和模型包括使用第一梯度值和第二梯度值应用基于梯度的优化算法

例如,这种方法允许以直接的方式迭代地改进模型的参数和相机位姿估计

[0013]在一些示例中,模型被配置来将与环境内的位置相对应的空间坐标映射到:与环境内的位置相关联的光度值;和体积密度值,所述体积密度值用于导出与环境内的位置相关联的深度值

在一些示例中,图像数据包括光度数据,所述光度数据包括至少一个测量的光度图像部分;至少一个渲染的图像部分包括至少一个渲染的光度图像部分;并且损失函数包括基于至少一个测量的光度图像部分和至少一个渲染的光度图像部分的光度误差

在一些示例中,图像数据包括深度数据,所述深度数据包括至少一个测量的深度图像部分;至少一个渲染的图像部分包括至少一个渲染的深度图像部分;并且损失函数包括基于至少一个测量的深度图像部分和至少一个渲染的深度图像部分的几何误差

在这些示例中,在优化程序中可考虑光度和
/
或几何误差,这例如提高了所获得的优化的模型和相机位姿估计的准确度

[0014]在一些示例中,深度数据包括多个测量的深度图像部分,至少一个渲染的图像部分包括多个渲染的深度图像部分,每个渲染的深度图像部分对应于多个测量的深度图像部分中的相应的测量的深度图像部分,几何误差包括多个几何误差项,每个几何误差项对应于多个测量的深度图像部分中的不同的测量的深度图像部分,并且所述方法包括基于以下中的至少一者相对于与多个测量的深度图像部分中的第二测量的深度图像部分相关联的第二几何误差项减少与多个测量的深度图像部分中的第一测量的深度图像部分相关联的第一几何误差项对几何误差的贡献:与多个测量的深度图像部分中的第一测量的深度图像部分相关联的第一不确定性量度,或者与多个测量的深度图像部分中的第二测量的深度图像部分相关联的第二不确定性量度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种方法,其包括:获得由相机装置捕获的图像数据,所述图像数据表示对环境的至少一部分的观察;获得与所述观察相关联的相机位姿估计;基于所述相机位姿估计和所述环境的模型生成渲染的图像数据,其中所述模型用于生成所述环境的所述至少一部分的三维表示,其中所述渲染的图像数据表示与所述环境的所述至少一部分相对应的至少一个渲染的图像部分;基于所述图像数据和所述渲染的图像数据评估损失函数,从而生成损失;以及基于所述损失联合优化至少所述相机位姿估计和所述模型,从而生成:对所述相机位姿估计的更新;和对所述模型的更新
。2.
根据权利要求1所述的方法,其中,所述模型是神经网络,并且对所述模型的所述更新是对所述神经网络的一组参数的更新
。3.
根据权利要求1或权利要求2所述的方法,其中,所述三维表示包括密集三维表示
。4.
根据权利要求1至3中任一项所述的方法,其中,生成所述渲染的图像数据包括:使用所述模型生成所述三维表示;以及使用所述三维表示执行渲染过程,其中所述渲染过程相对于所述相机位姿估计和所述模型的一组参数是可区分的
。5.
根据权利要求1至4中任一项所述的方法,其包括:评估所述至少一个渲染的图像部分相对于所述相机位姿估计的第一梯度,从而生成第一梯度值;以及评估所述至少一个渲染的图像部分相对于所述模型的一组参数的第二梯度,从而生成第二梯度值,其中联合优化所述相机位姿估计和所述模型包括使用所述第一梯度值和所述第二梯度值应用基于梯度的优化算法
。6.
根据权利要求1至5中任一项所述的方法,其中,所述模型被配置来将与所述环境内的位置相对应的空间坐标映射到:与所述环境内的所述位置相关联的光度值;和体积密度值,所述体积密度值用于导出与所述环境内的所述位置相关联的深度值
。7.
根据权利要求1至6中任一项所述的方法,其中:所述图像数据包括光度数据,所述光度数据包括至少一个测量的光度图像部分;所述至少一个渲染的图像部分包括至少一个渲染的光度图像部分;并且所述损失函数包括基于所述至少一个测量的光度图像部分和所述至少一个渲染的光度图像部分的光度误差
。8.
根据权利要求1至7中任一项所述的方法,其中:所述图像数据包括深度数据,所述深度数据包括至少一个测量的深度图像部分;所述至少一个渲染的图像部分包括至少一个渲染的深度图像部分;并且所述损失函数包括基于所述至少一个测量的深度图像部分和所述至少一个渲染的深度图像部分的几何误差
。9.
根据权利要求8所述的方法,其中,所述深度数据包括多个测量的深度图像部分,所述至少一个渲染的图像部分包括多个渲染的深度图像部分,每个渲染的深度图像部分对应
于所述多个测量的深度图像部分中的相应的测量的深度图像部分,所述几何误差包括多个几何误差项,每个几何误差项对应于所述多个测量的深度图像部分中的不同的测量的深度图像部分,并且所述方法包括基于以下中的至少一者相对于与所述多个测量的深度图像部分中的第二测量的深度图像部分相关联的第二几何误差项减少与所述多个测量的深度图像部分中的第一测量的深度图像部分相关联的第一几何误差项对所述几何误差的贡献:与所述多个测量的深度图像部分中的所述第一测量的深度图像部分相关联的第一不确定性量度,或者与所述多个测量的深度图像部分中的所述第二测量的深度图像部分相关联的第二不确定性量度
。10.
根据权利要求1至9中任一项所述的方法,其中,生成所述渲染的图像数据包括:应用光线跟踪来识别沿着光线的一组空间坐标,其中,所述光线基于所述相机位姿估计和所述至少一个渲染的图像部分的像素的像素坐标来确定;以及使用所述模型来处理所述一组空间坐标,从而生成一组光度值和一组体积密度值,每一组值与所述一组空间坐标中的相应空间坐标相关联;组合所述一组光度值以生成与所述像素相关联的像素光度值;以及组合所述一组体积密度值以生成与所述像素相关联的像素深度值
。11.
根据权利要求
10
所述的方法,其中,所述一组空间坐标是第一组空间坐标,所述一组光度值是第一组光度值,所述一组体积密度值是第一组体积密度值,并且应用所述光线跟踪包括应用所述光线跟踪来识别沿着所述光线的第二组空间坐标,其中,所述第二组空间坐标基于概率分布来确定,所述概率分布随所述第一组体积密度值以及所述第一组空间坐标中的相邻空间坐标之间的距离而变化,并且所述方法包括:使用所述模型来处理所述第二组空间坐标,从而生成第二组光度值和第二组体积密度值;组合所述第一组光度值和所述第二组光度值以生成所述像素光度值;以及组合所述第一组体积密度值和所述第二组体积密度值以生成所述像素深度值
。12.
根据权利要求1至
11
中任一项所述的方法,其中,所述观察是第一观察,所述相机位姿估计是第一相机位姿估计,并且所述方法包括:在联合优化所述相机位姿估计和所述模型之后:获得与在所述第一观察之后的对所述环境的第二观察相关联的第二相机位姿估计;并且基于对所述环境的所述第二观察和所述模型优化所述第二相机位姿估计,从而生成对所述第二相机位姿估计的更新
。13.
根据权利要求1至
12
中任一项所述的方法,其中,所述观察包括第一帧和第二帧,并且所述渲染的图像数据表示与所述第一帧相对应的至少一个渲染的图像部分和与所述第二帧相对应的至少一个渲染的图像部分,所述相机位姿估计是与所述第一帧...

【专利技术属性】
技术研发人员:埃德加
申请(专利权)人:帝国理工学院创新有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1