结构注释制造技术

技术编号:33121925 阅读:10 留言:0更新日期:2022-04-17 00:24
本发明专利技术涉及一种创建一个或多个经注释感知输入的计算机实施方法,该方法包括:在注释计算机系统中:接收多个捕获帧,每一帧均包括3D结构点集,其中捕获公共结构组件的至少一部分;计算多帧中至少一个参考帧内的参考位置;通过基于该帧内的参考位置选择性提取参考帧的3D结构点来生成公共结构组件的3D模型;基于3D模型与多帧的目标帧中公共结构组件自动对齐,确定该目标帧内3D模型的对齐模型位置;将对齐模型位置的注释数据与该目标帧的至少一个感知输入相关联地存储在计算机存储器中,以便注释其中的公共结构组件。便注释其中的公共结构组件。

【技术实现步骤摘要】
【国外来华专利技术】结构注释


[0001]本公开涉及对图像、点云和其他形式的感知输入中捕获的结构进行注释。这种注释可应用于创建经注释的感知输入以便用于训练机器学习(ML)感知组件。

技术介绍

[0002]结构感知是指一类数据处理算法,能够有意义地解释感知输入中捕获的结构。这种处理可应用于不同形式的感知输入。感知输入一般是指任何结构表示,即在其中捕获结构的任何数据集。结构感知可应用于二维(2D)和三维(3D)空间。将结构感知算法应用于既定结构输入的结果可编码为结构感知输出。
[0003]一种形式的感知输入是二维(2D)图像,即,仅有颜色分量(一个或多个颜色通道)的图像。最基本形式的结构感知是图像分类,即,将图像作为整体相对于一组图像类进行简单分类。更复杂形式的应用于2D空间的结构感知包括2D对象检测和/或定位(例如,2D空间中的定向、位姿和/或距离估计)、2D实例分割等。其他形式的感知输入包括三维(3D)图像,即至少具有深度分量(深度通道)的图像;3D点云,例如使用RADAR或LIDAR捕获或源自3D图像的3D点云;基于体素或网格的结构表示,或任何其他形式的3D结构表示。可应用于3D空间的感知算法例如包括3D对象检测和/或定位(例如,3D空间中的距离、方位或位姿估计)等。单感知输入也可以由多图像形成。例如,可以在一对立体2D图像中捕捉立体深度信息,这对图像可用作3D感知的基础。3D结构感知也可应用于单个2D图像,例如单目深度提取,从单个2D图像中提取深度信息(应当注意,即使无任何深度通道仍可在其一个或多个颜色通道中捕捉一定程度的深度信息)。此类形式的结构感知为不同“感知模态”的示例,正如该术语在本文所用那样。应用于2D或3D图像的结构感知可称为“计算机视觉”。
[0004]对象检测是指检测感知输入中捕获的任意数目的对象,通常涉及将每个这样的对象表征为对象类的实例。这种对象检测可涉及或结合一种或多种形式的位置估计执行,诸如2D或3D边界框检测(一种对象定位形式,其目的是在2D或3D空间中定义界定对象的面积或体积)、距离估计、位姿估计等。
[0005]在机器学习(ML)情境下,结构感知组件可以包括一个或多个经训练的感知模型。例如,机器视觉处理常用卷积神经网络(CNN)来实施。此类网络需要大量的训练图像,这些图像注释有神经网络需要学习的信息(一种有监督学习形式)。训练时,为网络呈现数千或优选地数十万个这样的注释图像,并且网络自行学习在图像中捕获的特征与之相关联的注释的相关方式。从与注释数据相关联的意义上对每个图像进行注释。图像作为感知输入,相关联的注释数据提供了图像的“Ground Truth(真实标注)”。可将CNN和其他形式的感知模型架构为接收和处理其他形式的感知输入,诸如点云、体素张量等,并感知2D和3D空间中的结构。在训练情境下,感知输入一般可称为“训练样例”或“训练输入”。相比之下,在运行时,由经训练的感知组件捕获以供处理的训练样例可称为“运行时输入”。与训练输入相关联的注释数据为该训练输入提供了Ground Truth,因为注释数据编码了该训练输入的预期感知输出。在监督训练过程中,感知组件的参数被系统地调谐为在定义限度内最小化感知组件
在应用于训练集中的训练样例时所生成的感知输出(“实际”感知输出)与相关联的注释数据所提供的对应Ground Truth(“预期”感知输出)之间差异的总体度量。依此方式,从训练样例中“学习”感知输入,而且能够“概括”这种学习,这样一经训练就能为其在训练期间未曾遇到的感知输入提供有意义的感知输出。
[0006]此类感知组件是许多成熟和新兴技术的基石。例如,在机器人领域,能够在复杂环境中自主规划路径的移动机器人系统正日益普及。这种快速发展的技术例如有自主驾驶车辆(AV),可在城市道路上自行导航。这类车辆不仅须在人与其他车辆之间执行复杂的操纵,而且还须在频繁这样操纵的同时保证严格约束发生不良事件的概率(例如与环境中其他这些媒介发生碰撞)。为了允许AV安全地进行计划,至关重要的是,它能够准确可靠地观察其环境。这包括需要准确可靠地检测车辆附近的现实世界结构。自主驾驶车辆(又称为自动驾驶车辆)是指具有用于监视其外部环境的传感器系统以及能够使用这些传感器自动做出和实施驾驶决策的控制系统的车辆。这特别是包括基于来自传感器系统的感知输入来自动调适车辆的速度和行驶方向的能力。全自主驾驶或“无人驾驶”的车辆具有足够的决策能力,无需驾驶员的任何输入即可运行。然而,本文所用的术语“自主驾驶车辆”也适用于半自主驾驶车辆,其具有更强的自主决策能力,因此仍然要求驾驶员一定程度上的监督。其他移动机器人正在研发中,例如用于在内外工业区中载运供货。此类移动机器人不会载人,属于一类称作UAV(无人自主载具)的移动机器人。自主空中移动机器人(无人机)也正处于研发中。
[0007]因此,在更普遍的自主驾驶和机器人领域中,可能需要一个或多个感知组件来解释感知输入,即,可确定关于既定感知输入中捕获的真实世界结构的信息。
[0008]诸如AV等复杂机器人系统可能愈发需要实施多种感知模态,从而准确解释多种形式的感知输入。例如,AV可能配备一对或多对立体光学传感器(相机),从中提取相关联的深度图。在此情形下,AV的数据处理系统可以配置为将一种或多种形式的2D结构感知应用于图像本身(例如,2D边界框检测和/或其他形式的2D定位、实例分割等)加上一种或多种形式的对相关联深度图数据的3D结构感知(例如,3D边界框检测和/或其他形式的3D定位)。此类深度图也可来自于LiDAR、RADAR等或者得自于合并多个传感器模态。
[0009]为了针对期望的感知模态训练感知组件,感知组件架构为使其能够接收期望形式的感知输入并作为响应提供期望形式的感知输出。另外,为了基于监督学习训练适当架构的感知组件,需要提供符合期望感知模态的注释。例如,若要训练2D边界框检测器,需要2D边界框注释;同样,若要训练分割组件执行图像分割(各个图像像素的逐像素分类),注释需要编码合适的分割掩膜,模型可从中进行学习;3D边界框检测器需要能够接收3D结构数据以及经注释的3D边界框等。

技术实现思路

[0010]常规上,经注释的训练样例是通过人工注释者手动注释训练样例来创建。即使在2D图像的情形下,每张图像也可能需要数十分钟。因此,创建数十万张训练图像需要巨量的时间和人工成本,这又导致其成为一项高成本的训练。实践中,它会限制实际提供训练图像的数量,这又可能不利于对有限数量的图像上训练感知组件的表现。手动3D注释明显更加繁琐耗时。此外,当需要适应多种感知模态时,问题只会加剧,因为那样关于一种或多种形式的训练输入(例如,一种或多种2D图像、3D图像、点云等)可能需要多种形式的注释数据
(例如,两个或更多个2D边界框、分割掩膜、3D边界框等)。
[0011]本公开总体上涉及一种形式的具有注释功能的注释工具,这些注释功能有助于快速高效地注释感知输入。此类注释工具可用于创建用于训练感知组件的注释感知输入。术语“注释工具”泛指编程为或以其他方式配置为实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种创建一个或多个经注释感知输入的计算机实施方法,所述方法包括:在注释计算机系统中:接收多个捕获帧,每一帧均包括3D结构点集,其中捕获公共结构组件的至少一部分;计算多帧中至少一个参考帧内的参考位置;通过基于该帧内的参考位置选择性提取参考帧的3D结构点来生成所述公共结构组件的3D模型;基于所述3D模型与多帧的目标帧中的公共结构组件自动对齐,确定所述目标帧内3D模型的对齐模型位置;及将所述对齐模型位置的注释数据与该目标帧的至少一个感知输入相关联地存储在计算机存储器中,以便注释其中的公共结构组件。2.根据权利要求1所述的方法,其中,所述对齐模型位置的注释数据包括所述对齐模型位置的位置数据,用于注释所述目标帧的至少一个感知输入中公共结构组件的位置。3.根据权利要求2所述的方法,其中,所述位置数据为用于注释所述公共结构组件在3D空间中的位置的3D位置数据。4.根据权利要求2或3所述的方法,其中,所述对齐模型位置的注释数据包括使用所述对齐模型位置从所述3D模型派生的注释数据。5.根据权利要求4所述的方法,其中,从3D模型派生的数据为通过如下方式派生的2D注释数据:基于所述对齐模型位置将所述3D模型投影到图像平面中;或将通过基于所述对齐模型位置从所述目标帧中选择性提取3D结构点而生成的单帧或聚合3D模型投影到图像平面中。6.根据权利要求5所述的方法,其中,所述2D注释数据包括如下至少之一:拟合到所述3D模型或所述单帧或聚合3D模型在图像平面中的投影的2D边界对象;以及用于所述公共结构组件的分割掩膜。7.根据任一项前述权利要求所述的方法,其中,基于用户界面处关于所述参考帧所接收的一个或多个定位输入来计算所述参考帧的参考位置,同时渲染所述参考帧内参考位置的视觉指示,用于手动调整所述参考帧内的参考位置。8.根据任一项前述权利要求所述的方法,其中,所述对齐模型位置的确定是通过初始估计所述目标帧内的模型位置,然后应用自动对齐来调整估计的模型位置。9.根据权利要求8所述的方法,其中,所述模型位置为自动初始估计,或作为手动定义位置,由用户界面处所接收的一个或多个手动位置输入表示。10.根据权利要求9所述的方法,其中,所述模型位置是通过将结构感知组件应用于所述目标帧而自动初始估计。11.根据权利要求9或10所述的方法,其中,多帧为时序帧,所述模型位置是基于所述时序帧的时间间隔内的公共结构组件路径而自动初始估计。12.根据权利要求11所述的方法,其中,基于应用于所述目标帧的自动对齐来更新所述公共结构组件路径。13.根据权利要求12所述的方法,其中,经更新的公共结构组件路径用于计算所述公共结构组件在多帧中除目标帧外的一帧内的位置。
14.根据权利要求13所述的方法,包括如下步骤:存储针对所述一帧所计算的位置的2D或3D注释数据,用于注释该帧的至少一个感知输入中的公共结构组件。15.根据任一项前述权利要求所述的方法,其中,执行自动对齐以优化定义的成本函数,其奖励所述3D模型与所述公共结构组件的匹配,同时惩罚所述公共结构组件的意外行为,如所述公共结构组件的预期行为模型所定义。16.根据权利要求12的从属权利要求15所述的方法,其中,所述定义的成本函数惩罚所述公共结构组件路径的意外变化,如所述预期行为模型所定义。17.根据权利要求11至14或16中任一项所述的方法,其中,所述公共结构组件路径用于计算所述参考帧内的参考位置以生成所述3D模型。18.根据任一项前述权利要求所述的方法,其中,所述对齐模型位置是基于如下组合来半自动确定:(i)自动对齐以初始计算所述模型位置的粗略对齐估计;以及(ii)用户界面处关于所述目标帧所接收的一个或多个手动对齐输入,同时在所述目标帧内渲染所述3D模型以调整粗略对齐模型位置,从而确定所述对齐模型位置。19.根据权利要求1至17中任一项所述的方法,其中,自动确定所述对齐模型位置而无需任何手动对齐输入。20.根据任一项前述权利要求所述的方法,其中,自动或半自动计算所述参考帧内的参考位置以生成所述3D模型。21.根据权利要求20所述的方法,其中,通过将感知组件应用于所述参考帧,自动或半自动计算所述参考位置。22.根据任一项前述权利要求所述的方法,其中,所述自动对齐包括迭代最近点。23.根据任一项前述权利要求所述的方法,其中,所述自动对齐使用如下至少之一:颜色匹配、2D特征匹配和3D特征匹配。24.根据任一项前述权利要求所述的方法,其中,...

【专利技术属性】
技术研发人员:罗伯特
申请(专利权)人:法弗人工智能有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1