使用图像数据对环境进行建模制造技术

技术编号:39583871 阅读:7 留言:0更新日期:2023-12-03 19:34
一种方法,包括获得由相机装置捕获的图像数据

【技术实现步骤摘要】
【国外来华专利技术】使用图像数据对环境进行建模


[0001]本专利技术涉及用于获得环境的模型的方法和系统,所述模型可例如由机器人装置用来导航和
/
或与其环境交互


技术介绍

[0002]在计算机视觉和机器人领域中,通常需要构建环境的模型,诸如能够使用机器人装置进行导航的三维空间

构建模型允许将真实世界环境映射到虚拟或数字领域,在所述虚拟或数字领域中,环境的表示可由电子装置使用和操纵

例如,可移动机器人装置可需要三维空间的表示,所述表示可使用同时定位和映射
(
通常称为“SLAM”)
来生成,以允许对其环境进行导航和
/
或与其环境交互

[0003]实时操作
SLAM
系统仍然具有挑战性

例如,许多现有系统需要对大型数据集进行离线操作
(
例如,通宵或连续几天
)。
希望为真实世界应用程序实时提供
3D
场景映射

[0004]Newcombe
等人在
2011
年混合和增强现实国际研讨会
(ISMAR)
论文集中发表的论文“KinectFusion:Real

Time Dense Surface Mapping and Tracking”中描述了一种从红

绿

蓝和深度
(RGB

D)<br/>数据构建场景的方法,其中
RGB

D
数据的多个帧被配准并融合到三维体素网格中

使用密集的六自由度对齐来跟踪数据帧,然后将其融合到体素网格的体积中

然而,环境的体素网格表示针对每个体素需要大量的内存

此外,针对在所获得的
RGB

D
数据中不完全可见的环境区域
(
例如,被遮挡或部分被遮挡的区域
)
,基于体素的表示可能不准确

使用环境的点云表示时会出现类似的问题

[0005]B.Mildenhall
等人在
2020
年欧洲计算机视觉会议
(ECCV)
上发表的论文“NeRF:Representing Scenes as Neural Radiance Fields for View Synthesis”提出了一种通过使用全连接神经网络处理一组具有已知相机位姿的图像来合成复杂场景的视图的方法

然而,所述方法需要大约1‑2天来使用大量训练图像进行离线训练,因此不适合实时使用

此外,这篇论文中提出的方法假设已知给定图像的相机位姿,例如,如果图像是在机器人装置穿越其环境时捕获的,则所述相机位姿可能不可用

[0006]希望改进对环境的建模


技术实现思路

[0007]根据本公开的第一方面,提供了一种方法,其包括:获得由相机装置捕获的图像数据,图像数据表示对环境的观察;使用环境的模型来获得环境的至少一部分的二维表示;评估二维表示与观察的至少一部分之间的差异,其中观察的至少一部分是对由二维表示表示的环境的至少一部分的观察;基于差异,选择图像数据的一部分来优化模型,其中图像数据的部分表示对环境的观察的一部分;以及使用图像数据的部分来优化模型

[0008]以这种方式,例如,可选择性地获得图像数据的一部分来优化模型,而不是使用所获得的所有图像数据

通过减少要处理和存储的数据量,这允许优化比其他方式更有效地执行

[0009]在一些示例中,所述方法包括:使用环境的模型来生成环境的至少一部分的三维表示;以及使用三维表示来获得环境的至少一部分的二维表示

以这种方式,用于优化的二维表示可从模型本身获得并通过与观察进行比较来直接优化

[0010]在一些示例中,观察包括至少一个图像,并且选择图像数据的部分包括选择至少一个图像的像素子集

与使用图像的每个像素相比,这进一步提高了优化过程的效率

[0011]在一些示例中,评估差异包括:评估观察的第一部分与二维表示的对应部分之间的差异,从而生成第一差异;以及评估观察的第二部分与二维表示的对应部分之间的差异,从而生成小于第一差异的第二差异,并且选择图像数据的部分包括:选择与观察的第一部分相对应的图像数据的第一部分,图像数据的第一部分表示第一数量的数据点;以及选择与观察的第二部分相对应的图像数据的第二部分,图像数据的第二部分表示小于第一数据点数量的第二数量的数据点

通过这种方法,对环境中与模型所获得的二维表示有较大偏差的部分采样大量数据点,从而将优化过程集中在模型尚未良好建模的区域上

[0012]在一些示例中,所述方法包括:基于二维表示和对环境的观察的至少一部分评估损失函数,从而生成用于优化模型的损失,其中评估损失函数包括评估二维表示与观察的至少一部分之间的差异;以及基于损失选择图像数据的部分

例如,损失表明观察的信息量有多大:对环境的包含更大量信息的部分
(
诸如高度详细的部分或模型尚未准确地表示的部分
)
的观察往往具有更高的损失

因此,基于损失选择图像数据的部分允许轻松识别此类观察
(
或观察的部分
)
,因此它们可用于优化程序

[0013]在一些示例中,观察包括至少一个图像,并且选择图像数据的部分包括选择至少一个图像的像素子集和像素子集在至少一个图像上的分布,像素子集在至少一个图像上的分布基于通过针对观察的至少一部分评估损失函数而生成的损失概率分布

例如,基于损失概率分布选择一组像素允许基于像素可能在更新模型时的有用程度
(
例如,它们与具有大量细节和
/
或模型未充分表示的环境部分相对应的可能性有多大
)
来对像素进行采样

[0014]在一些示例中,像素子集中的至少一个像素与像素子集中的每个其他像素在空间上不相连

以这种方式,可从图像上对像素进行采样,例如以便对与环境内的不同空间区域相对应的各种像素进行采样,与仅对环境的特定空间区域的连接的像素块进行采样相比,这可改进优化程序

[0015]在一些示例中,生成损失概率分布包括:将观察的至少一部分划分成多个区域;针对多个区域中的每一个区域评估损失函数,从而生成多个区域中的每一个区域的区域损失;以及基于损失和多个区域中的每一个区域的区域损失生成损失概率分布

这种方法允许基于区域损失直接生成损失概率分布,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种方法,包括:获得由相机装置捕获的图像数据,所述图像数据表示对环境的观察;使用所述环境的模型来获得所述环境的至少一部分的二维表示;评估所述二维表示与所述观察的至少一部分之间的差异,其中,所述观察的所述至少一部分是对由所述二维表示表示的所述环境的所述至少一部分的观察;基于所述差异,选择所述图像数据的一部分来优化所述模型,其中,所述图像数据的所述部分表示对所述环境的所述观察的一部分;以及使用所述图像数据的所述部分来优化所述模型
。2.
根据权利要求1所述的方法,包括:使用所述环境的所述模型来生成所述环境的所述至少一部分的三维表示;以及使用所述三维表示来获得所述环境的所述至少一部分的所述二维表示
。3.
根据权利要求1或权利要求2所述的方法,其中,所述观察包括至少一个图像,并且选择所述图像数据的所述部分包括选择所述至少一个图像的像素子集
。4.
根据权利要求3所述的方法,其中,所述至少一个图像包括多个帧,并且选择所述图像数据的所述部分包括选择所述多个帧中的至少两个的像素子集
。5.
根据权利要求1至4中任一项所述的方法,其中,评估所述差异包括:评估所述观察的第一部分与所述二维表示的对应部分之间的差异,从而生成第一差异;以及评估所述观察的第二部分与所述二维表示的对应部分之间的差异,从而生成小于所述第一差异的第二差异,并且选择所述图像数据的所述部分包括:选择与所述观察的所述第一部分相对应的所述图像数据的第一部分,所述图像数据的所述第一部分表示第一数量的数据点;以及选择与所述观察的所述第二部分相对应的所述图像数据的第二部分,所述图像数据的所述第二部分表示小于所述第一数据点数量的第二数量的数据点
。6.
根据权利要求1至5中任一项所述的方法,包括:基于所述二维表示和对所述环境的所述观察的所述至少一部分评估损失函数,从而生成用于优化所述模型的损失,其中,评估所述损失函数包括评估所述二维表示与所述观察的所述至少一部分之间的所述差异;以及基于所述损失选择所述图像数据的所述部分
。7.
根据权利要求6所述的方法,其中,所述观察包括至少一个图像,并且选择所述图像数据的所述部分包括选择所述至少一个图像的像素子集和所述像素子集在所述至少一个图像上的分布,所述像素子集在所述至少一个图像上的所述分布基于通过针对所述观察的所述至少一部分评估所述损失函数而生成的损失概率分布
。8.
根据权利要求7所述的方法,其中,所述像素子集中的至少一个像素与所述像素子集中的每个其他像素在空间上不相连
。9.
根据权利要求7或权利要求8所述的方法,其中,生成所述损失概率分布包括:将所述观察的所述至少一部分划分成多个区域;针对所述多个区域中的每一个区域,评估所述损失函数,从而生成所述多个区域中的
所述每一个区域的区域损失;以及基于所述损失和所述多个区域中的所述每一个区域的所述区域损失生成所述损失概率分布
。10.
根据权利要求6至9中任一项所述的方法,其中:所述观察包括第一帧和第二帧;评估所述损失函数包括:基于所述第一帧和所述第一帧的二维表示评估所述损失函数,从而生成第一损失;基于所述第二帧和所述第二帧的二维表示评估所述损失函数,从而生成第二损失;并且基于所述损失选择所述图像数据的所述部分包括:响应于确定所述第一损失大于所述第二损失:从所述第一帧中选择第一数量的像素;以及从所述第二帧中选择第二数量的像素,并且其中,第一像素数量大于第二像素数量
。11.
根据权利要求
10
所述的方法,包括:确定帧组的总损失来优化所述模型,所述帧组包括所述第一帧和所述第二帧,所述确定所述总损失包括基于所述帧组和所述帧组的一组对应二维表示评估所述损失函数;以及基于所述第一损失对所述总损失的贡献确定所述第一像素数量
。12.
根据权利要求1至
11
中任一项所述的方法,其中,所述观察包括多个帧,所述评估所述差异包括:评估所述多个帧中的相应帧与所述相应帧的二维表示之间的差异,并且选择所述图像数据的所述部分包括:基于所述差异,选择要添加到用于优化所述模型的帧集合的所述多个帧的子集
。13.
根据权利要求
12
所述的方法,其中,所述多个帧包括帧,并且所述方法包括:获得所述帧的第一组像素;生成所述帧的所述二维表示的第二组像素,其中,评估所述差异包括评估所述第一组像素中的每个像素与所述第二组像素中的对应像素之间的差异;以及确定所述差异低于第一阈值的所述第一组像素...

【专利技术属性】
技术研发人员:埃德加
申请(专利权)人:帝国理工学院创新有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1