用于生成与对象相关联的鸟瞰图边界框的方法和系统技术方案

技术编号:36841837 阅读:39 留言:0更新日期:2023-03-15 15:44
公开了用于为靠近车辆的对象生成边界框的系统和方法。所述方法包括:接收表示环境的三维(three

【技术实现步骤摘要】
【国外来华专利技术】用于生成与对象相关联的鸟瞰图边界框的方法和系统
[0001]相关申请的交叉引用
[0002]本申请要求于2020年7月10日提交的、专利技术名称为“用于生成与对象相关联的鸟瞰图边界框的方法和系统(METHOD AND SYSTEM FOR GENERATING A BIRD'S EYE VIEW BOUNDING BOX ASSOCIATED WITH AN OBJECT)”的第16/926,096号美国专利申请的优先权的权益,所述美国专利申请的内容以引用的方式并入本文中,如全文再现一般。


[0003]本专利技术涉及生成与对象相关联的鸟瞰图(bird's eye view,BEV)边界框。

技术介绍

[0004]自动驾驶车辆包括许多不同类型的传感器,这些传感器感测车辆周围的环境。自动驾驶车辆的感知模块可以处理从不同类型的传感器中的每一个接收的传感器数据,以识别感兴趣的对象(例如,行人或其它汽车)。例如,扫描光检测和测距(light detection and ranging,LIDAR)传感器生成表示三维(three

dimensional,3D)点云的传感器数据,并且感知模块处理3D点云以识别感兴趣的对象。相机生成传感器数据作为表示图像的图像数据,感知模块处理图像数据以检测和识别感兴趣的对象。每个传感器可以生成不同类型的传感器数据,这些传感器数据可由感知模块用于自动驾驶中的对象识别。
[0005]感知模块可以在3D点云上执行边界框回归,3D点云可以包括部分可见的对象。边界框回归通常需要预测边界框的尺寸和角度。
[0006]点云是由给定坐标系定义的数据点的集合,该坐标系可以是最初生成数据点的传感器(例如LIDAR传感器)的坐标系。例如,在3D坐标系中,点云可以包括用于定义环境中一个或多个物理对象的形状的数据点。点云用于创建3D网格和用于3D建模的其它模型,包括医疗成像、建筑、3D打印、制造、3D游戏和各种虚拟现实(virtual reality,VR)应用等各种领域。
[0007]在3D笛卡尔(Cartesian)坐标系中,数据点由三个值表示,这些值加在一起与空间中相对于原点(0,0,0)的精确点相关。这三个值中的每一个都与3D笛卡尔系统中的相应轴相关联。因此,点云中的数据点可以包括至少三个值(x,y,z),并且可选地,可以包括表示生成数据点的激光束的强度值的值,以及表示点云中对象的类别的值,其中,数据点可以与对象相关联。
[0008]点云通常是实时或接近实时处理的,用于基于点云中的数据点预测边界框的尺寸和角度。
[0009]实时处理点云的一个挑战是在具有准确方向和尺寸的对象周围拟合边界框。大多数已知的点云处理方法都集中在查找对象的L形几何体,并基于对象的L形几何体在对象周围拟合矩形边界框。但是,对于距离车辆的平均距离大于一定阈值(例如30米)的对象,由于3D点云中包括的数据点的稀疏性,为对象拟合边界框的问题变得更加难以解决,这意味着对象在3D点云中仅部分可见。当对象仅部分可见时,估计对象的中心和尺寸变得容易出错,
特别是在长范围内。
[0010]一些现有的为部分可见对象生成边界框的方案使用具有端到端训练的深度学习方法来输出部分可见对象的边界框,但深度学习方法通常计算昂贵,并且难以在计算资源有限的车辆上实现。一些现有的深度学习方法利用2D图像和3D点云中的信息,其中例如,使用卷积神经网络(convolutional neural network,CNN)处理图像数据,以基于图像数据生成对象的边界框的参数(例如大小、位置和方向),点云分别使用PointNet
TM
独立处理,以基于点云生成对象的边界框的参数(例如大小、位置和方向)。然后,由CNN和PointNet
TM
分别生成的边界框的结果参数由融合网络组合。CNN和PointNet
TM
的输出可以是任意大小的特征矩阵。例如,CNN的输出通常包括宽度、高度和通道,而对于PointNet
TM
的输出(PointNet
TM
是使用神经网络的点云处理技术),通常包括多个点和一个或多个通道。通过使用3D点云作为空间锚点,融合网络预测对象的3D边界框的参数(例如大小、位置和方向)的多个假设和参数的置信度值。在其它一些著作中,3D点云用于对象分类和边界框回归。例如,提出了一种称为PIXOR
TM
的深度神经网络作为单级检测器,它输出定向3D对象的边界框的参数(例如大小、位置和方向)的估计。在另一个示例中,称为BoxNet
TM
的经过训练的深度神经网络基于3D点云和表示对应二维(two

dimensional,2D)鸟瞰图图像的图像数据,对3D点云中的对象执行边界框估计。尽管这些已知的深度学习方法可以在边界框的位置、方向和大小方面输出有希望的结果,但这些深度学习方法在计算上是密集型的,因为它们往往需要大量的计算资源(例如内存和处理资源)来执行边界框估计,并且当点云中标记的数据点数量不足时将不起作用。例如,需要具有包括点云中对象的3D边界框参数的标签的数据点和具有包括图像数据中对象的2D边界框参数的标签的标记图像数据,训练这些已知深度学习方法的神经网络。这些限制使得深度学习方法不稳定,不适合在自动驾驶车辆行驶时实时使用。
[0011]需要一种改进的方案,该方案能够高效地处理3D点云,为车辆路径中可能位于远处的对象生成边界框,使用的计算资源比传统深度学习方法所需的计算资源更少。

技术实现思路

[0012]本专利技术提供了一种用于为靠近车辆检测到的对象生成鸟瞰图(bird's eye view,BEV)边界框的方法、系统和计算机可读介质。
[0013]在一个方面中,示例性方法包括:接收表示环境的三维(three

dimensional,3D)点云;接收所述环境的二维(two

dimensional,2D)图像;处理所述3D点云以识别所述3D点云中的3D对象的3D数据点的对象簇;处理所述2D图像,以检测所述2D图像中的2D对象,并从所述2D图像生成关于所述2D对象的信息;当所述3D对象和所述2D对象对应于所述环境中的同一对象时,基于3D数据点的所述对象簇和所述2D图像中的所述信息,为所述对象生成鸟瞰图(bird's eye view,BEV)边界框。
[0014]在另一方面中,公开了一种用于为靠近车辆的对象生成边界框的处理系统。所述处理系统可以包括:处理单元;耦合到所述处理单元的存储器,所述存储器存储机器可执行指令,所述机器可执行指令当由所述处理单元执行时,使所述处理系统:接收表示环境的3D点云;接收所述环境的2D图像;处理所述3D点云,以识别所述3D点云中的3D对象的数据点簇;处理所述2D图像,以检测所述2D图像中的2D对象,并从所述2D图像生成关于所述2D对象的信息;当所述3D对象和所述2D对象对应于所述环境中的同一对象本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于为靠近车辆的对象生成边界框的处理器实现的方法,其特征在于,所述方法包括:接收表示环境的三维(three

dimensional,3D)点云;接收所述环境的二维(two

dimensional,2D)图像;处理所述3D点云,以识别所述3D点云中的3D对象的3D数据点的对象簇;处理所述2D图像,以检测所述2D图像中的2D对象,并从所述2D图像生成关于所述2D对象的信息;当所述3D对象和所述2D对象对应于所述环境中的同一对象时:基于3D数据点的所述对象簇和所述2D图像中的所述信息,为所述对象生成鸟瞰图(bird's eye view,BEV)边界框。2.根据权利要求1所述的方法,其特征在于,生成所述BEV边界框包括:将3D数据点的所述对象簇映射到鸟瞰图(bird's eye view,BEV)中和所述车辆的车辆坐标系中的2D平面上的2D数据点簇;确定并存储所述BEV中的所述2D平面上的一组BEV多边形点,其中,所述一组BEV多边形点形成包围所述2D平面上的所述2D数据点簇的凸包;基于所述2D平面上的所述2D数据点簇、所述一组BEV多边形点和所述2D图像中的所述信息生成所述BEV边界框。3.根据权利要求2所述的方法,其特征在于,生成所述BEV边界框还包括:确定所述2D平面上的所述2D数据点簇的中心p
center
;确定所述对象的估计航向h
obj
;基于所述估计航向h
obj
,围绕所述中心p
center
旋转所述2D平面上的所述2D数据点簇;从所述一组BEV多边形点中确定多个选定的多边形点;确定多个候选边界框,其中,每个候选边界框基于所述多个选定的多边形点中的相应的选定的多边形点确定;从所述多个候选边界框中选择最终边界框作为所述BEV边界框,其中,所述最终边界框是所述候选边界框中覆盖所述2D平面上的所述2D数据点簇中的最多数量的数据点的一个候选边界框;基于h
obj
的值围绕所述2D平面上的所述2D数据点簇的中心p
center
旋转所述BEV边界框。4.根据权利要求3所述的方法,其特征在于,确定所述多个候选边界框包括,对于所述多个选定的多边形点中的每个相应的多边形点:生成四个预定大小的矩形框;从所述四个矩形框中选择一个矩形框作为所述相应多边形点的所述候选边界框,其中,与所述四个矩形框中的其余矩形框相比,所述选定的矩形框覆盖所述2D平面上的所述2D数据点簇中的最多数量的数据点。5.根据权利要求4所述的方法,其特征在于,所述四个矩形框中的每个矩形框具有:在所述车辆坐标系中平行于所述车辆的x轴的相应第一侧,以及在所述车辆坐标系中平行于所述车辆的y轴的相应第二侧;所述四个矩形框中的第一矩形框具有与所述相应多边形点重合的右下角,所述四个矩形框中的第二矩形框具有与所述相应多边形点重合的左下角,所述四个矩形框中的第三矩
形框具有与所述相应多边形点重合的右上角,所述四个矩形框中的第四矩形框具有与所述相应多边形点重合的左上角。6.根据权利要求3所述的方法,其特征在于,所述2D图像中的所述信息包括:与所述对象相关联的类别标签、与所述类别标签相关联的分类分数、所述对象的大小、所述对象的图像航向h
image
以及与所述对象的所述图像航向h
image
相关联的图像航向不确定性所述方法包括:基于与所述对象相关联的所述类别标签、与所述类别标签相关联的所述分类分数和所述对象的所述大小,确定所述3D对象和所述2D对象对应于所述环境中的同一对象;接收或确定所述对象的跟踪航向h
track
和与所述对象的所述跟踪航向h
track
相关联的跟踪航向不确定性基于所述对象的所述图像航向h
image
和所述对象的所述跟踪航向h
track
,计算并存储所述对象的所述估计航向h
obj
;基于所述图像航向不确定性和所述跟踪航向不确定性计算并存储所述对象的估计航向不确定性7.根据权利要求6所述的方法,其特征在于,h
obj
=f(h
image
,h
track
)和f()是用于基于h
image
和h
track
计算平均值的函数。8.根据权利要求7所述的方法,其特征在于,9.根据权利要求6所述的方法,其特征在于,和g()是用于基于和计算平均值的函数。10.根据权利要求9所述的方法,其特征在于,11.一种用于为靠近车辆的对象生成边界框的处理系统,其特征在于,所述处理系统包括:处理单元;耦合到所述处理单元的存储器,所述存储器存储机器可执行指令,所述机器可执行指令当由所述处理单元执行时,使所述处理系统:接收表示环境的3D点云;接收所述环境的2D图像;处理所述3D点云,以识别所述...

【专利技术属性】
技术研发人员:埃赫桑
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1