结构建模制造技术

技术编号:33260338 阅读:13 留言:0更新日期:2022-04-30 23:08
本发明专利技术涉及一种对公共结构组件进行建模的计算机实施方法,该方法包括:在建模计算机系统中,接收多个捕获帧,每一帧均包括3D结构点集,其中捕获公共结构组件的至少一部分;计算多帧中至少一个第一帧内的第一参考位置;基于针对第一帧所计算的第一参考位置来选择性提取第一帧的第一3D结构点;计算多帧中第二帧内的第二参考位置;基于针对第二帧所计算的第二参考位置来选择性提取第二帧的第二3D结构点;聚合第一3D结构点和第二3D结构点,从而基于第一参考位置和第二参考位置生成公共结构组件的聚合3D模型。组件的聚合3D模型。

【技术实现步骤摘要】
【国外来华专利技术】结构建模


[0001]本公开涉及3D建模并具有各种应用,包括对图像、点云和其他形式的感知输入中捕获的结构进行注释。这种注释可应用于创建经注释的感知输入以便用于训练机器学习(ML)感知组件。其他应用包括训练数据增强和模拟。

技术介绍

[0002]结构感知是指一类数据处理算法,能够有意义地解释感知输入中捕获的结构。这种处理可应用于不同形式的感知输入。感知输入一般是指任何结构表示,即在其中捕获结构的任何数据集。结构感知可应用于二维(2D)和三维(3D)空间。将结构感知算法应用于既定结构输入的结果可编码为结构感知输出。
[0003]一种形式的感知输入是二维(2D)图像,即,仅有颜色分量(一个或多个颜色通道)的图像。最基本形式的结构感知是图像分类,即,将图像作为整体相对于一组图像类进行简单分类。更复杂形式的应用于2D空间的结构感知包括2D对象检测和/或定位(例如,2D空间中的定向、位姿和/或距离估计)、2D实例分割等。其他形式的感知输入包括三维(3D)图像,即至少具有深度分量(深度通道)的图像;3D点云,例如使用RADAR或LIDAR捕获或源自3D图像的3D点云;基于体素或网格的结构表示,或任何其他形式的3D结构表示。可应用于3D空间的感知算法例如包括3D对象检测和/或定位(例如,3D空间中的距离、方位或位姿估计)等。单感知输入也可以由多图像形成。例如,可以在一对立体2D图像中捕捉立体深度信息,这对图像可用作3D感知的基础。3D结构感知也可应用于单个2D图像,例如单目深度提取,从单个2D图像中提取深度信息(应当注意,即使无任何深度通道仍可在其一个或多个颜色通道中捕捉一定程度的深度信息)。此类形式的结构感知为不同“感知模态”的示例,正如该术语在本文所用那样。应用于2D或3D图像的结构感知可称为“计算机视觉”。
[0004]对象检测是指检测感知输入中捕获的任意数目的对象,通常涉及将每个这样的对象表征为对象类的实例。这种对象检测可涉及或结合一种或多种形式的位置估计执行,诸如2D或3D边界框检测(一种对象定位形式,其目的是在2D或3D空间中定义界定对象的面积或体积)、距离估计、位姿估计等。
[0005]在机器学习(ML)情境下,结构感知组件可以包括一个或多个经训练的感知模型。例如,机器视觉处理常用卷积神经网络(CNN)来实施。此类网络需要大量的训练图像,这些图像注释有神经网络需要学习的信息(一种有监督学习形式)。训练时,为网络呈现数千或优选地数十万个这样的注释图像,并且网络自行学习在图像中捕获的特征与之相关联的注释的相关方式。从与注释数据相关联的意义上对每个图像进行注释。图像作为感知输入,相关联的注释数据提供了图像的“Ground Truth(真实标注)”。可将CNN和其他形式的感知模型架构为接收和处理其他形式的感知输入,诸如点云、体素张量等,并感知2D和3D空间中的结构。在训练情境下,感知输入一般可称为“训练样例”或“训练输入”。相比之下,在运行时,由经训练的感知组件捕获以供处理的训练样例可称为“运行时输入”。与训练输入相关联的注释数据为该训练输入提供了Ground Truth,因为注释数据编码了该训练输入的预期感知
输出。在监督训练过程中,感知组件的参数被系统地调谐为在定义限度内最小化感知组件在应用于训练集中的训练样例时所生成的感知输出(“实际”感知输出)与相关联的注释数据所提供的对应Ground Truth(“预期”感知输出)之间差异的总体度量。依此方式,从训练样例中“学习”感知输入,而且能够“概括”这种学习,这样一经训练就能为其在训练期间未曾遇到的感知输入提供有意义的感知输出。
[0006]此类感知组件是许多成熟和新兴技术的基石。例如,在机器人领域,能够在复杂环境中自主规划路径的移动机器人系统正日益普及。这种快速发展的技术例如有自主驾驶车辆(AV),可在城市道路上自行导航。这类车辆不仅须在人与其他车辆之间执行复杂的操纵,而且还须在频繁这样操纵的同时保证严格约束发生不良事件的概率(例如与环境中其他这些媒介发生碰撞)。为了允许AV安全地进行计划,至关重要的是,它能够准确可靠地观察其环境。这包括需要准确可靠地检测车辆附近的现实世界结构。自主驾驶车辆(又称为自动驾驶车辆)是指具有用于监视其外部环境的传感器系统以及能够使用这些传感器自动做出和实施驾驶决策的控制系统的车辆。这特别是包括基于来自传感器系统的感知输入来自动调适车辆的速度和行驶方向的能力。全自主驾驶或“无人驾驶”的车辆具有足够的决策能力,无需驾驶员的任何输入即可运行。然而,本文所用的术语“自主驾驶车辆”也适用于半自主驾驶车辆,其具有更强的自主决策能力,因此仍然要求驾驶员一定程度上的监督。其他移动机器人正在研发中,例如用于在内外工业区中载运供货。此类移动机器人不会载人,属于一类称作UAV(无人自主载具)的移动机器人。自主空中移动机器人(无人机)也正处于研发中。
[0007]因此,在更普遍的自主驾驶和机器人领域中,可能需要一个或多个感知组件来解释感知输入,即,可确定关于既定感知输入中捕获的真实世界结构的信息。
[0008]诸如AV等复杂机器人系统可能愈发需要实施多种感知模态,从而准确解释多种形式的感知输入。例如,AV可能配备一对或多对立体光学传感器(相机),从中提取相关联的深度图。在此情形下,AV的数据处理系统可以配置为将一种或多种形式的2D结构感知应用于图像本身(例如,2D边界框检测和/或其他形式的2D定位、实例分割等)加上一种或多种形式的对相关联深度图数据的3D结构感知(例如,3D边界框检测和/或其他形式的3D定位)。此类深度图也可来自于LiDAR、RADAR等或者得自于合并多个传感器模态。
[0009]为了针对期望的感知模态训练感知组件,感知组件架构为使其能够接收期望形式的感知输入并作为响应提供期望形式的感知输出。另外,为了基于监督学习训练适当架构的感知组件,需要提供符合期望感知模态的注释。例如,若要训练2D边界框检测器,需要2D边界框注释;同样,若要训练分割组件执行图像分割(各个图像像素的逐像素分类),注释需要编码合适的分割掩膜,模型可从中进行学习;3D边界框检测器需要能够接收3D结构数据以及经注释的3D边界框等。

技术实现思路

[0010]常规上,经注释的训练样例是通过人工注释者手动注释训练样例来创建。即使在2D图像的情形下,每张图像也可能需要数十分钟。因此,创建数十万张训练图像需要巨量的时间和人工成本,这又导致其成为一项高成本的训练。实践中,它会限制实际提供训练图像的数量,这又可能不利于对有限数量的图像上训练感知组件的表现。手动3D注释明显更加繁琐耗时。此外,当需要适应多种感知模态时,问题只会加剧,因为那样关于一种或多种形
式的训练输入(例如,一种或多种2D图像、3D图像、点云等)可能需要多种形式的注释数据(例如,两个或更多个2D边界框、分割掩膜、3D边界框等)。
[0011]本公开实施例总体上涉及一种形式的具有注释功能的注释工具,这些注释功能有助于快速高效地注释感知输入。此类注释工具可用于创建用于训练感知本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种对公共结构组件进行建模的计算机实施方法,所述方法包括:在建模计算机系统中:接收多个捕获帧,每一帧均包括3D结构点集,其中捕获公共结构组件的至少一部分;计算多帧中至少一个第一帧内的第一参考位置;基于针对所述第一帧所计算的第一参考位置来选择性提取所述第一帧的第一3D结构点;计算多帧中第二帧内的第二参考位置;基于针对所述第二帧所计算的第二参考位置来选择性提取所述第二帧的第二3D结构点;聚合所述第一3D结构点和所述第二3D结构点,从而基于所述第一参考位置和所述第二参考位置生成所述公共结构组件的聚合3D模型。2.根据权利要求1所述的方法,其中,所述聚合3D模型用来生成用于注释多帧中一帧的感知输入中公共结构组件的注释数据,所述一帧为多帧中的第一帧、第二帧或第三帧。3.根据权利要求2所述的方法,其中,所述注释数据包括如下至少之一:通过将所述3D模型投影到图像平面中而派生的2D注释数据和3D注释数据。4.根据权利要求2或3所述的方法,其中,所述一帧为第三帧,其中,所述方法包括如下步骤:计算所述第三帧内3D模型的对齐模型位置,所述注释数据为该计算位置的注释数据,其中,所述对齐模型位置是基于如下至少之一:(i)自动对齐过程,其中所述注释计算机系统将所述3D模型与所述第三帧中的公共结构组件相匹配以自动对齐所述3D模型;及(ii)在用户界面处关于所述第三帧所接收的一个或多个手动对齐输入,同时渲染所述3D模型以手动对齐所述3D模型与所述第三帧中的公共结构组件。5.根据任一项前述权利要求所述的方法,其中,通过选择性提取所述第一3D结构点来生成第一3D模型,其中,所述第二参考位置与所述第二帧中的公共结构组件对齐,以基于如下至少之一来生成聚合3D模型:(i)所述第一3D模型与所述第二帧中的公共结构组件的自动对齐;(ii)在用户界面处关于所述第二帧所接收的一个或多个手动对齐输入,同时渲染所述第一3D模型,以手动对齐所述第一3D模型与所述第二帧中的公共结构组件。6.根据权利要求5所述的方法,其中,在多帧中第三帧内捕捉公共结构组件的至少一部分,所述方法包括:将第三参考位置与所述第三帧中的公共结构组件对齐,这是基于如下至少之一:(i)所述3D聚合模型与所述第三帧中的公共结构组件的自动对齐;(ii)用户界面处关于所述第三帧所接收的一个或多个手动对齐输入,同时渲染所述聚合3D模型,以手动对齐所述聚合3D模型与所述第三帧中的公共结构组件;基于所述第三参考位置来选择性提取所述第三帧的第三3D结构点;聚合所述第一3D结构点、所述第二3D结构点和所述第三3D结构点,从而基于所述第一参考位置、所述第二参考位置和所述第三参考位置来生成所述公共结构组件的第二聚合3D模型。7.根据任一项前述权利要求所述的方法,其中,初始估计所述第二帧内的第二参考位
置以生成所述聚合3D模型,并基于所述第二帧和所述第二帧内对齐的第二参考位置来更新所述聚合3D模型。8.根据权利要求7所述的方法,其中,所述聚合3D模型经由用户界面渲染,并随着所述用户界面处关于所述第二帧所接收的一个或多个手动对齐输入来更新和重新渲染以手动对齐所述第二参考位置与所述公共结构组件,从而所述第二参考位置与所述第二帧中的公共结构组件对齐的效果是校正经渲染的聚合3D模型中因所述第二参考位置的初始错位所致的视觉伪影。9.根据权利要求2的从属权利要求5至8中任一项所述的方法,其中,所述一帧为第二帧,所述注释数据为对齐的第二参考位置的注释数据。10.根据权利要求9所述的方法,其中,所述注释数据包括对齐的第二参考位置的位置数据,用于注释所述目标帧的至少一个感知输入中公共结构组件的位置,例如用于注释所述公共结构组件在3D空间中的位置的3D位置数据。11.根据权利要求9或10所述的方法,其中,所述注释数据包括使用对齐的第二参考位置从所述聚合3D模型派生的数据,例如通过基于对齐的第二参考位置将所述3D模型投影到图像平面中而派生的2D注释数据。12.根据任一项前述权利要求所述的方法,其中,所述第一3D结构点是基于所述第一参考位置和一个或多个边界对象尺寸而从用于生成所述3D模型的第一帧中选择性提取;其中,所述第二3D结构点是基于所述第二参考位置以及如下之一而从用于生成所述3D模型的帧中选择性提取:相同的一个或多个边界对象尺寸,用于建模刚性对象;一个或多个边界对象尺寸的变换,用于建模非刚性对象。13.根据权利要求12所述的方法,其中,所述一个或多个边界对象尺寸是如下之一:(i)基于针对所述第一帧和所述第二帧中的至少一帧所接收的一个或多个尺寸输入而手动确定;(ii)通过将感知组件应用于所述第一帧和所述第二帧之中的至少一帧而自动确定;(iii)通过将所述感知组件应用于所述至少一帧并进一步基于针对所述至少一帧所接收的一个或多个尺寸输入而半自动确定;(iv)假设。14.根据权利要求12或13所述的方法,其中,所述第一3D结构点是由所述第一参考位置和所述一个或多个边界对象尺寸所定义的第一3D体积内的点子集;其中,所述第二3D结构点是由所述第二参考位置和相同的一个或多个边界对象尺寸或其变换所定义的第二3D体积内的点子集。15.根据任一项前述权利要求所述的方法,其中,所述聚合3D模型用于借助所述聚合3D模型的模型数据来增强多帧中一帧的数据,从而创建至少一个增强感知输入,包括所述一帧的数据和所述3D模型的模型数据,所述一帧为多帧中的第一帧、第二帧或第三帧。16.根据权利要求15所述的方法,其中,模型数据包括如下至少之一:通过将所述3D模型投影到图像平面中而创建的2D增强数据;及3D模型数据。17.根据权利要求2或15或其任一项从属权利要求所述的方法,包括如下步骤:使用如下至少之一来训练至少一个感知组件:
(i)根据权利要求15所述的增强感知输入,由此在训练期间将所述模型数据和所述一帧的数据的组合作为相同感知输入的一部分提供...

【专利技术属性】
技术研发人员:罗伯特
申请(专利权)人:法弗人工智能有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1