根据二维图像和点云数据生成三维边界框制造技术

技术编号:24043896 阅读:70 留言:0更新日期:2020-05-07 04:19
根据二维图像和点云确定三维边界框。可以传递与图像相关联的特征向量和与点云相关联的特征向量通过神经网络,以确定三维边界框的参数。还可以确定和考虑与点云中的每个点相关联的特征向量,以在逐点基础上生成三维边界框的估计。

Generate 3D bounding box from 2D image and point cloud data

【技术实现步骤摘要】
【国外来华专利技术】根据二维图像和点云数据生成三维边界框要求优先权本PCT国际申请要求于2017年10月30日递交的美国专利申请号15/797,573、以及于2017年9月22日递交的美国临时申请号62/562,193的优先权的权益,该两个专利申请的全部内容通过引用并入本文中。
技术介绍
多种应用需要环境中存在的三维对象的信息。例如,各种自主系统(例如,无人驾驶车辆和无人机)利用对象的三维数据来避免碰撞和避障。为了有效地在三维环境中导航,这样的自主系统需要有关障碍物的信息,例如包括有关障碍物的大小和定位的信息。此外,这些系统可能需要估计此类对象与环境的交互方式。三维对象的一种这样的表示形式就是三维边界框。三维边界框可以是由八个角定义的三维对象的简单表示,并且三维对象具有位置、方位、长度、宽度和高度。附图简单说明图1示出了环境、与该环境相关联的图像数据和点云数据、以及该环境中围绕对象的三维边界框的示例;图2是示例性过程的图形表示,二维图像和点云按照该过程通过神经网络,以确定三维边界框的参数;图3是另一示例性过程的图形表示,二维图像和点云按照该过程通过神经网络,以确定三维边界框的参数;图4描绘了表示用于根据二维图像和点云数据确定三维边界框的一个或多个过程的流程图;图5描绘了表示用于根据二维图像和点云数据确定三维边界框的一个或多个附加过程的流程图;以及图6描绘了可用于根据二维图像和点云数据确定三维边界框的示例性计算机化系统。详细的说明以下详细描述针对用于估计表示环境中的对象的三维边界框的技术。存在各种需要环境中存在的对象的空间信息的应用。举个简单的例子,许多自主系统(例如,半自主和全自主驾驶汽车、自主无人机等)需要对象在其环境中的位置、方位和维度,以便执行跟踪、导航、避免碰撞等。自主驾驶车辆系统可包括用于检测、跟踪和识别对象和/或对象属性的不同类型传感器的阵列。例如,传感器(例如,LIDAR和RADAR)、超声换能器、深度相机等可以提供关于环境中的对象的三维信息,而传感器(例如,常规相机)可以提供有关环境的二维信息。例如,LIDAR系统可以具有光发射器和光传感器,其中,光发射器包括一个或多个激光器,这些激光器将高度聚焦的光导向对象或表面,该对象或表面将光反射回到光传感器。LIDAR系统的测量可以表示为三维LIDAR数据,其具有对应于由LIDAR系统捕获的位置或距离的坐标(例如,笛卡尔坐标、极坐标等)。例如,LIDAR数据可以包括点云数据,该点云数据包括环境中的多个点。在某些实例中,LIDAR传感器可以在很短的时间内生成大量的距离测量值(例如,每0.1秒1000-100000个距离测量值)。类似地,已知RADAR系统会生成有关环境中3D对象或特征的点云数据。相反,图像捕获设备可以提供关于环境的2D图像数据,例如RGB图像数据、灰度图像数据或其他。在本公开的实施方式中,例如来自LIDAR系统或RADAR系统的点云数据、和2D图像数据可用于在自主驾驶车辆的环境中创建对象的三维表示。三维表示的一个示例是三维边界框。三维边界框可以是包围对象的最小体积的长方体。三维边界框提供有关其所包括的对象的空间定位、方位以及大小的信息。例如,自主系统可以将该信息用于跟踪、导航和避免碰撞。根据本公开的实施例,将机器学习算法应用于图像数据和点云数据,以估计与环境中的一个或多个对象相关联的三维边界框的参数。例如,可以将与图像数据相关联的第一特征向量(例如,与对应于感兴趣的对象的剪裁图像相关联)、以及与点云数据相关联的第二特征向量输入到机器学习算法。机器学习算法可以输出三维边界框的参数。参数可以包括坐标系中的八个点,这八个点代表三维边界框的八个角。用于恢复参数的示例性机器学习算法是人工神经网络(ANN),它可以是卷积神经网络(CNN)。在一些实施方式中,可以从残差网络中提取与图像数据相关联的特征向量,和/或可以从被配置为处理点云数据的深度神经网络中提取与点云数据相关联的特征向量。例如,在通过另一机器学习算法之前,可以将与图像数据相关联的特征向量和与点云数据相关联的特征向量连结在一起(concatenated)。同样在本公开的实施方式中,可以考虑逐点数据来确定三维边界框。例如,在例如使用最大池化、平均池化等组合关于各个点的信息之前,用于处理点云数据的已知深度学习网络可以单独考虑每个点。然而,在实施方式中,为点云中的每个点确定特征向量,并且这些特征向量可以连同与图像数据相关联的特征向量和与(全局)点云相关联的特征向量一起输入到机器学习算法。以这种方式,该算法可以针对点云中的每个点,确定估计边界框的属性的多个参数。例如,对于点云中的每个点,本公开的实施方式可以确定三维边界框的每个角相对于该点的偏移量。确定相对于每个点的偏移量可以提供改进的简单性、功能性和/或可靠性。除了计算这些偏移量之外,机器学习算法还可以确定与每个点的偏移量关联的置信度值。在一些示例中,可以选择与最高置信度值相关联的点及其对应的偏移量以定义三维边界框。在一些实施方式中,可以训练机器学习算法,以确定置信度值。在一些实施方式中,可以使用指示点在三维边界框中还是在三维边界框外的数据,以受监督的方式训练ANN。在其他实施方式中,可以使用三维边界框的回归损失函数,以无监督的方式训练ANN。使用三维边界框的可以是系统(例如,自主无人机、全自主或半自主驾驶车辆系统)、或另一些用于跟踪对象、辅助导航、和/或用于避免碰撞的系统。三维边界框的其他用途对于受益于本公开的本领域普通技术人员来说也是显而易见的。下面参考图1-6提供更多细节。转向图1,环境100可以包括各种对象。为了示例性目的,环境100中的一个这样的对象是车辆102。环境100与坐标系104相关联。坐标系104可以是全局坐标系或局部坐标系。在全局坐标系中,在坐标系104中表示的任何点都是绝对坐标。可替代地,在局部坐标系中,点是相对于任意定义的原点(例如,当无人驾驶车辆在环境中行驶时,车辆的中心)来表示,其可以在全局坐标系中移动。与环境100相关联的三维数据可以由三维传感器(例如,LIDAR系统(未示出))生成。如上所述,LIDAR系统可以输出LIDAR数据(例如,一个或多个点云),其包括代表环境中对象的外表面的一组数据点。例如,由附图标记106表示的LIDAR数据包括点云108,该点云108包括与车辆102相关联的多个点。尽管将该点云108描述为由LIDAR传感器生成,但是该点云可以包括来自LIDAR传感器、RADAR传感器和/或其他三维传感器中的一个或多个的点。例如,点云108可以包括从一个或多个LIDAR传感器、一个或多个RADAR传感器、和/或一个或多个其他三维传感器组合或融合的数据,以提供关于环境100的信息,例如但不限于深度相机、超声换能器、相控阵雷达等。点云中的每个点可以由图像坐标系表示,例如由三维坐标表示,例如(x,y,z)。同样如图1所示,除了点云信息之外,环境100的图像110可以由至少一个图像捕获设备(未示出)捕获。图像110包括图像本文档来自技高网...

【技术保护点】
1.一种用于估计三维边界框的系统,所述系统包括非暂时性计算机可读介质,所述介质包括指令,当所述指令由一个或多个处理器执行时,所述指令将使所述系统执行以下操作:/n接收从图像捕获设备捕获的图像;/n检测所述图像中的对象;/n剪裁所述图像,以形成包括所述对象的剪裁图像;/n接收与所述对象相关联的点云数据;/n确定与所述点云数据相关联的第一特征向量,所述第一特征向量包括几何特征向量;/n确定与所述剪裁图像相关联的第二特征向量,所述第二特征向量包括外观特征向量;/n将所述第一特征向量和所述第二特征向量传递到神经网络中;以及/n从所述神经网络接收描述与所述对象相关联的三维边界框的坐标。/n

【技术特征摘要】
【国外来华专利技术】20170922 US 62/562,193;20171030 US 15/797,5731.一种用于估计三维边界框的系统,所述系统包括非暂时性计算机可读介质,所述介质包括指令,当所述指令由一个或多个处理器执行时,所述指令将使所述系统执行以下操作:
接收从图像捕获设备捕获的图像;
检测所述图像中的对象;
剪裁所述图像,以形成包括所述对象的剪裁图像;
接收与所述对象相关联的点云数据;
确定与所述点云数据相关联的第一特征向量,所述第一特征向量包括几何特征向量;
确定与所述剪裁图像相关联的第二特征向量,所述第二特征向量包括外观特征向量;
将所述第一特征向量和所述第二特征向量传递到神经网络中;以及
从所述神经网络接收描述与所述对象相关联的三维边界框的坐标。


2.根据权利要求1所述的系统,其中,所述指令还使所述系统执行以下操作:
确定多个第三特征向量,所述多个第三特征向量中的第一个与所述点云数据中的第一点相对应,以及所述多个第三特征向量中的第二个与所述点云数据中的第二点相对应;
将所述多个第三特征向量与多个第一特征向量和多个第二特征向量一起传递到所述神经网络中;
针对所述第一点确定第一组偏移量和第一置信度分数,所述第一组偏移量对应于所述三维边界框的角相对于所述第一点的第一估计位置;以及
针对所述第二点确定第二组偏移量和第二置信度分数,所述第二组偏移量对应于所述三维边界框的角相对于所述第二点的第二估计位置,
其中,当所述第一置信度分数高于所述第二置信度分数时,所述系统接收与所述第一估计位置相对应的坐标,并且当所述第二置信度分数高于所述第一置信度分数时,所述系统接收与所述第二估计位置相对应的坐标。


3.根据权利要求1所述的系统,其中,所述指令使所述系统从被配置为处理原始点云数据的点云神经网络的处理层中提取所述第一特征向量,并且其中,所述指令使所述系统从残差学习神经网络中提取所述第二特征向量。


4.根据权利要求1所述的系统,其中:
所述神经网络包括一个或多个完全连接的层;
所述图像捕获设备包括被配置为捕获RGB图像的相机;
传感器包括LIDAR传感器或RADAR传感器;以及
来自所述传感器的点云数据和RGB图像是对齐的。


5.根据权利要求1所述的系统,其中,所述指令还使所述系统通过将所述点云数据转换成原点,来归一化所述点云数据。


6.根据权利要求1所述的系统,其中,所述坐标包括八个点,所述八个点中的每个点与所述三维边界框的相应角相关联。
...

【专利技术属性】
技术研发人员:徐丹菲D·D·安格洛夫A·简恩
申请(专利权)人:祖克斯有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1