用于2D卷积神经网络的点云数据转换方法和系统技术方案

技术编号:28738366 阅读:19 留言:0更新日期:2021-06-06 13:19
描述了用于2D卷积神经网络(convolutional neural network,CNN)的3D数据编码方法和系统。将3D数据集编码为一个或多个阵列的集合。通过将3D点的3D坐标投影到由已定义虚拟摄像头参数集定义的2D图像平面上,计算阵列的2D索引。虚拟摄像头参数包括定义2D图像平面的摄像头投影矩阵。根据计算得到的2D索引,将点的每个3D坐标存储在阵列中。提供编码得到的阵列集合,用于输入到2D CNN中进行训练或推理。或推理。或推理。

【技术实现步骤摘要】
【国外来华专利技术】用于2D卷积神经网络的点云数据转换方法和系统


[0001]本公开涉及将3D点云数据编码为可适用于2D卷积神经网络的2D数据阵列集合,例如用于进行对象检测、分类和分段。

技术介绍

[0002]自动驾驶车辆可以使用不同的传感器来感知其周围环境,可以处理传感器数据以在空间中生成数据点集,并且可以使用计算机视觉系统来处理数据点集,以便检测和识别周围环境中的感兴趣对象(例如行人或其他汽车)。传感器例如激光雷达和摄像头(例如光学摄像头)经常用于自动驾驶车辆,以感知车辆周围环境中的对象。激光雷达和摄像头具有不同的特点和优势。例如,光学摄像头感知环境中的对象,捕获感知到的对象的图像,并生成表示所捕获图像的2D图像数据。然而,光学摄像头在极端光照变化下(例如夜间或非常明亮的环境中)可能无法感知对象,并且可能仅限于捕获二维(two

dimensional,2D)图像。然而,光学摄像头可能能够感知距离光学摄像头较远的对象的图像。激光雷达可以捕获周围环境的三维(three

dimensional,3D)信息,并在空间中生成表示所捕获3D信息的数据点集。本领域中通常将三维空间中的数据点集称为点云,并由激光雷达作为3D数据提供。尽管激光雷达可能能够捕获较宽区域的3D信息,但激光雷达可能无法检测远离激光雷达的小和/或窄的对象,并且可能具有有限的传感分辨率,特别是在垂直方向上。因此,计算机视觉系统可以有益地同时使用从激光雷达接收的3D数据和从摄像头接收的2D图像。
[0003]已尝试将激光雷达和2D图像数据一起作为计算机视觉系统的输入,并训练这种系统学习如何进行对象检测、分类和分段。计算机视觉系统实现了特征金字塔网络聚合视图对象检测(Aggregate View Object Detection with Feature Pyramid Network,AVOD

FPN)算法,该算法对2D图像数据和激光雷达数据分别进行特征提取,然后对用于对象检测和分类的投影对应区域特征进行早期融合。然而,实现AVOD

FPN算法的计算机视觉系统需要为每个对象类别单独训练网络(例如,一个网络训练用于检测汽车,另一个网络单独训练用于检测行人),在实践中,通常需要多个并行运行的计算设备来检测多个对象类别。在其他计算机视觉系统中,多视点3D(Multi

View 3D,MV3D)算法将激光雷达数据投影到圆柱面,SqueezeSeg算法将激光雷达数据投影到球面。然而,这些算法中的投影几何形状可能难以与设计用于分析2D平面图像的现有卷积神经网络(convolved neural network,CNN)一起使用,并且可能难以将这些投影几何形状与2D光学图像进行空间配准,且成本高昂。已开发出包括区域CNN(regional CNN,R

CNN)(例如掩码R

CNN)的高精度计算机视觉系统,用于对从摄像头接收的2D、平面、RGB图像数据进行对象检测、分类和分段。
[0004]期望能够使用包括CNN的计算机视觉系统分析3D点云数据,其中CNN设计用于对2D图像数据(例如表示2D RGB图像的2D图像数据)进行对象检测、分类和分段。

技术实现思路

[0005]本公开提供了将3D点云数据编码为阵列集合(例如3个2D阵列的集合)的方法和系
CNN用于输出检测对象集。所述方法还包括:将所述检测对象集作为2D分段和回归单元的输入来进行对象分类、回归和分段,其中所述2D分段和回归单元用于为所述检测对象集添加感兴趣类别标签,并针对所述检测对象集输出2D对象限界框集和2D对象掩码集。
[0016]在上述任一方面/实施例中,可以存储映射索引以将每个计算得到的2D索引与所述3D数据中的相应点相关联。所述方法还可以包括:通过使用所述映射索引将每个2D对象掩码与所述3D数据中的相应点集群相关联来进行3D语义分段;输出3D对象掩码集。
[0017]在上述任一方面/实施例中,所述方法还可以包括:使用3D回归网络进行3D回归,以输出3D对象限界框集,其中所述3D回归网络被训练以回归所述一个或多个阵列的集合中的数据点子集所对应的3D限界框的参数。
[0018]在一些方面中,本公开描述了用于实现数据分析系统的处理单元。所述数据分析系统实现以下操作:接收点云形式的3D数据集;将所述3D数据编码为一个或多个阵列的集合。所述编码针对所述3D数据的每个数据点通过以下方式执行:通过将所述点的3D坐标投影到由已定义虚拟摄像头参数集定义的2D图像平面上,计算所述一个或多个阵列的2D索引,其中所述虚拟摄像头参数集包括定义所述2D图像平面的摄像头投影矩阵;根据所述计算得到的2D索引,将所述数据点的每个3D坐标存储在所述一个或多个阵列中。所述数据分析系统还实现以下操作:输出所述一个或多个阵列的集合,用于输入到所述数据分析系统的2D卷积神经网络(convolved neural network,CNN)中进行训练或推理。
[0019]在上述任一方面/实施例中,所述处理单元还可以用于所述数据分析系统实现以下操作:根据预定义的一个或多个参数对所述3D数据进行调整,生成调整后的3D数据集。可以通过执行以下至少一项调整所述3D数据:对所述3D坐标进行缩放、移位、归一化或量化。所述一个或多个阵列的集合可以由所述调整后的3D数据生成。
[0020]在上述任一方面/实施例中,所述调整后的3D数据包含经调整可识别为图像数据的值。
[0021]在上述任一方面/实施例中,所述虚拟摄像头参数包括感兴趣区域(region of interest,ROI)的定义。所述处理单元还可以用于所述数据分析系统实现以下操作:定义对应于所述ROI的所述3D数据的子集;将所述3D数据的子集编码为所述一个或多个阵列的集合。
[0022]在上述任一方面/实施例中,所述处理单元还可以用于所述数据分析系统实现以下操作:通过扩张填充所述一个或多个阵列的集合中的任何空洞。
[0023]在上述任一方面/实施例中,所述处理单元还可以用于所述数据分析系统实现以下操作:使用定义第二2D图像平面的第二虚拟摄像头参数集,将所述3D数据编码为一个或多个阵列的第二集合。
[0024]在上述任一方面/实施例中,所述处理单元还可以用于所述数据分析系统实现以下操作:将所述一个或多个阵列的集合作为所述2D CNN的输入来进行对象检测;输出2D对象限界框集和2D对象掩码集。
[0025]在上述任一方面/实施例中,可以存储映射索引以将每个计算得到的2D索引映射到所述3D数据中的相应点。所述处理单元还可以用于所述数据分析系统实现以下操作:通过使用所述映射索引将每个2D对象掩码与所述3D数据中的相应点集群相关联来进行3D语义分段;输出3D对象掩码集。
[0026]在上述任一方面/实施例中,所述处理单元还可以用于所述数据分析系统实现以下操作:使用3D回归网络进行3D回归,以输出3D对象限界本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,其特征在于,包括:接收点云形式的3D数据集;将所述3D数据集编码为一个或多个阵列的集合,针对所述3D数据的每个数据点:通过将所述数据点的3D坐标投影到由已定义虚拟摄像头参数集定义的2D图像平面上,计算所述一个或多个阵列的2D索引,其中所述虚拟摄像头参数集包括定义所述2D图像平面的摄像头投影矩阵;根据所述计算得到的2D索引,将所述数据点的每个3D坐标存储在所述一个或多个阵列中;输出所述一个或多个阵列的集合,用于输入到2D卷积神经网络(convolved neural network,CNN)中进行训练或推理。2.根据权利要求1所述的方法,其特征在于,还包括:根据预定义的一个或多个参数对所述3D数据进行调整,生成调整后的3D数据集,其中所述调整为以下至少一项:对所述3D坐标进行缩放、移位、归一化或量化;所述一个或多个阵列的集合由所述调整后的3D数据生成。3.根据权利要求1或2所述的方法,其特征在于,所述一个或多个阵列的集合包括经调整可识别为图像数据的值。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述虚拟摄像头参数包括感兴趣区域(region of interest,ROI)的定义,所述方法还包括:定义对应于所述ROI的所述3D数据的子集;将所述3D数据的子集编码为所述一个或多个阵列的集合。5.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:通过扩张填充所述一个或多个阵列的集合中的任何空洞。6.根据权利要求1至5中任一项所述的方法,其特征在于,还包括:使用定义第二2D图像平面的第二虚拟摄像头参数集,将所述3D数据编码为一个或多个阵列的第二集合。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述虚拟摄像头参数集对应于光学摄像头的参数。8.根据权利要求7所述的方法,其特征在于,还包括:将所述一个或多个阵列的集合与所述光学摄像头获得的2D图像数据集相组合,以生成组合数据集;将所述组合数据集作为所述2D CNN的输入来进行对象检测;输出2D对象限界框集和2D对象掩码集。9.根据权利要求8所述的方法,其特征在于,所述组合包括:在所述一个或多个阵列的集合和所述2D图像数据集之间进行空间配准;将所述一个或多个阵列的集合与所述2D图像数据集进行级联。10.一种方法,其特征在于,包括:接收点云形式的3D数据集;将所述3D数据集编码为一个或多个阵列的集合,针对所述3D数据的每个数据点:通过将所述数据点的3D坐标投影到由已定义虚拟摄像头参数集定义的2D图像平面上,
计算所述一个或多个阵列的2D索引,其中所述虚拟摄像头参数集包括定义所述2D图像平面的摄像头投影矩阵;根据所述计算得到的2D索引,将所述数据点的每个3D坐标存储在所述一个或多个阵列中;将所述一个或多个阵列的集合作为2D卷积神经网络(convolutional neural network,CNN)的输入来进行对象检测,其中所述2D CNN用于输出检测对象集;将所述检测对象集作为2D分段和回归单元的输入来进行对象分类、回归和分段,其中所述2D分段和回归单元用于为所述检测对象集添加感兴趣类别标签,并针对所述检测对象集输出2D对象限界框集和2D对象掩码集。11.根据权利要求10所述的方法,其特征在于,存储映射索引以将每个计算得到的2D索引与所述3D数据中的相应点相关联,所述方法还包括:通过使用所述映射索引将每个2D对象掩码与所述3D数据中的相应点集群相关联来进行3D语义分段;输出3D对象掩码集。12.根...

【专利技术属性】
技术研发人员:爱德华多
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1