尺度感知单目定位和地图构建制造技术

技术编号:31011217 阅读:19 留言:0更新日期:2021-11-30 00:34
公开了一种图像处理设备,包括处理器,该处理器用于通过以下步骤估计图像特征的尺度:通过第一训练模型处理场景的多个图像,以识别图像中的特征并估计图像中这些特征的深度;通过第二训练模型处理多个图像,以估计图像的缩放比例;以及通过根据估计的缩放比例对估计的深度进行调整来估计特征的尺度。还公开了一种用于训练图像处理模型的方法。用于训练图像处理模型的方法。用于训练图像处理模型的方法。

【技术实现步骤摘要】
【国外来华专利技术】尺度感知单目定位和地图构建


[0001]本专利技术涉及解决在投影数码摄像机捕获的图像时尺度模糊的问题。

技术介绍

[0002]数码摄像机通过落在数字传感器上的光捕获图像,该数字传感器将收集到的光转换为数字数据,即原始数据。然后,处理原始数据以创建形成为像素场的光栅图像,其中,每个像素表示在数字传感器的一个区域接收到的亮度和颜色,该区域代表捕获的图像的一个区域。然后,像素场可以显示在屏幕上,从而可供人看到。这样,就实现了捕获的图像的投影。原始数据和处理后的数据都可以进行存储并传输到另一个设备,从而允许根据需要以及在需要时进一步再现捕获的图像。
[0003]如果该图像为场景(可以为室外场景或室内场景),则该图像通常会包括许多对象或特征。在一些情况下,可能希望能够识别构成场景的一部分的对象。例如,如果餐馆等对象是场景的一部分,则有用的是识别餐馆,使得餐馆能够被找到,且将该餐馆的名称、位置等提供给正在所识别的餐馆所在区域中寻找餐馆使用者的设备。或者或另外,识别对象可以有利于调整和/或增强该对象在显示时的外观。在单个摄像机捕获图像的情况下,很难知道对象离该摄像机的距离。对于一个在现实生活中观看场景的人来说,这通常至少在某种程度上是显而易见的。例如,如果该对象是一辆汽车,并且它看起来大约一米高(约3英尺),则知道一辆普通的汽车大约有1.3米(约4英尺)高的人就会推断出该汽车必定在大约10米(30英尺)远的地方。这是因为这个人会排除它是一栋房子的高度(这时会更远)的可能性,同样也会排除它是一只狗的高度(这时会更近)的可能性。但是,数字图像处理器并不具备关于对象是什么以及其大致可能大小的人类知识,因此无法以这种方式推断它有多远。换句话说,对象的尺度是模糊的,因为它与视点的距离是未知的。此外,数码摄像机投影的图像的外观还取决于传感器平面离摄像机光学中心的距离—同一位置的不同摄像机可能会捕获不同大小的场景。因此,处理原始图像数据的一个方面涉及考虑捕获的图像中对象的尺度的模糊性,从而能够确定它们的深度(即离摄像机的距离),使得图像可以被准确地投影和增强。
[0004]单个摄像机采集的图像称为单目视觉。可以确定构成图像一部分的对象的深度的一种方法是通过在捕获图像的同时移动摄像机。因此,视频序列是在摄像机移动的时间段内捕获的,捕获序列的每个帧的位置取决于在捕获帧的瞬间摄像机移动到的位置。处理移动摄像机捕获的这样的视频序列可以实现同步定位和地图构建(simultaneous localization and mapping,SLAM)到一个缩放因子。这是因为可以使用视差原理,即取决于对象离摄像机的距离,同一对象看起来大小不同。因此,如果一个图像是从两个(或更多)不同的空间位置获取的,则可以对在两个图像中不同像素位置看到的点进行三角测量。这两个图像之间的关系通过它们的对极几何描述,这可以用作创建像素场的数字处理的一部分。场景中一个点的像素位置差异称为视差,与该点离摄像机的距离(即深度)成反比。如果将深度编码在图像上,则称为深度图。深度的等差图像称为视差图。可以定位摄像机位置,
同时对其周围环境进行地图构建,并且可以通过输入直接图像或特征关键点进行更新,以实现重新定位。
[0005]单目SLAM技术通常会导致尺度模糊,即使在进行上面描述的三角测量处理之后也是如此。现有的数字图像处理器使用算法来处理捕获的图像。用于确定尺度的处理部分可以大致分为基于统计的算法方法和基于学习的算法方法。基于统计的方法的缺点是需要大量的处理能力,这在所花费的时间和/或物理组件大小的限制方面是不利的。因此,最近开始用神经网络来创建算法。现有的方法以三种不同的方式解决尺度模糊问题。这些方法使用单目深度估计(1)或附加的传感器(2)来估计深度,或者保持尺度模糊(3)。以下对每种方式进行更详细的描述:
[0006](1)使用单目深度估计的方法解决了高度约束不足的问题,并学习如何根据视觉线索推断距离(例如汽车通常是X米长
……
),并完全依靠他们在被训练时看到的事物。这存在不适定问题,因此结果是不准确的,不能推广到以前没看到的场景。
[0007](2)附加的传感器,如第二摄像机、有源深度传感器或惯性测量单元(inertial measurement unit,IMU),使系统能够直接恢复尺度感知测量,但这会增加附加的硬件并需要融合不同模式的信息。此外,在确定第一摄像机和附加传感器之间的空间位移时,存在校准成本。
[0008](3)尺度模糊方法是那些不恢复尺度的方法。缩放参数“s”最初是随机设置的(通常为1),所有连续测量都参考这个值。测量将只以“s”乘以测量单位为单位。在这些场景中,任何虚拟内容都不能以度量正确的方式放置。
[0009]CN 107945265 A是方法(1)的一个示例,描述了基于在线学习深度预测网络的SLAM方法,该方法涉及全深度图的预测和非常具体的表决方案。该方法依赖于关于对象的知识,这意味着当面对未知对象或不符合先前看到的该类型对象的已知对象时,该方法很容易失败,例如,如果该方法熟悉苹果树等树,则知道它们大约有3米(10英尺)高,但很难识别出一棵可能大约有100米(350英尺)高的红杉是一棵树。CN 106127739 A是方法(2)的一个示例,描述了一种依赖于单目深度估计的SLAM方法,需要单目摄像机和深度传感器的组合,以及附加的硬件传感器来估计尺度。CN 105825520 A是方法(3)的一个示例,描述了另一种单目SLAM方法,该方法能够创建大尺度地图,但不是尺度感知的。
[0010]希望提供一种能够提供准确的尺度和深度预测性能的技术,从而最大限度地减少处理需求。

技术实现思路

[0011]根据第一方面,提供了一种图像处理设备,包括处理器,该处理器用于通过以下步骤估计图像特征的尺度:借助于第一训练模型处理场景的多个图像,以识别图像中的特征并估计图像中这些特征的深度;通过第二训练模型处理多个图像,以估计图像的缩放比例;以及通过根据估计的缩放比例调整估计的深度来估计特征的尺度。这可以允许推断场景的深度和特征的尺度,而不需要额外的硬件或场景特征的知识。
[0012]尺度可以由设备估计的特征的一些示例包括像素、像素距离和共同表示对象或对象的特定部分的图像伪影。深度可以是离拍摄图像的摄像机的距离。摄像机可以是设备,也可以包括设备,或者可以是设备的一部分。
[0013]多个图像可以包括从不同位置捕获的场景的图像。这可以允许使用来自单目移动摄像机的两个图像,或来自两个不同摄像机的两个图像。
[0014]第一训练模型和第二训练模型可以用于独立于所述位置之间的距离操作。因此,摄像机速度并不重要。
[0015]多个图像可以包括在不同时间捕获的场景的图像。这也包括从单个移动摄像机捕获图像。
[0016]多个图像可以是公共视频流中的帧。这允许同步定位移动摄像机和特征地图构建。
[0017]在一些实现方式中,图像处理设备包括摄像机,多个图像是摄像机捕获的图像。因此,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种图像处理设备(1101,1102),其特征在于,包括处理器(1104),用于通过以下步骤估计图像特征的尺度:通过第一训练模型处理场景的多个图像,以识别所述图像中的特征并估计所述图像中的这些特征的深度;通过第二训练模型处理所述多个图像,以估计所述图像的缩放比例;通过根据所述估计的缩放比例对所述估计的深度进行调整来估计所述特征的尺度。2.根据权利要求1所述的图像处理设备(1101,1102),其特征在于,所述多个图像包括从不同位置捕获的所述场景的图像。3.根据权利要求2所述的图像处理设备(1101,1102),其中,所述第一训练模型和所述第二训练模型用于独立于所述位置之间的距离进行操作。4.根据权利要求2或3所述的图像处理设备(1101,1102),其特征在于,所述多个图像包括在不同时间捕获的所述场景的图像。5.根据上述权利要求中任一项所述的图像处理设备(1101,1102),其特征在于,所述多个图像是公共视频流中的帧。6.根据上述权利要求中任一项所述的图像处理设备(1101,1102),其特征在于,包括摄像机,其中,所述多个图像是由所述摄像机捕获的图像。7.根据上述权利要求中任一项所述的图像处理设备(1101,1102),其特征在于,所述估计的深度是相对距离。8.根据上述权利要求中任一项所述的图像处理设备(1101,1102),其特征在于,所述估计的尺度是绝对距离。9.根据上述权利要求中任一项所述的图像处理设备(1101,1102),其特征在于,所述设备用于:对所述场景的下采样图像运行所述第一训练模型,以形成包括所述下采样图像中的所述特征深度的估计的数据集;以及处理所述数据集以放大其分辨率。10.一种用于训练图像处理模型的方法,其特征在于,包括:(a)接收(1001)多对图像,每对图像代表一个公共场景且所述每对图像中的图像从间隔一定距离的不同...

【专利技术属性】
技术研发人员:本杰明
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1