【技术实现步骤摘要】
【国外来华专利技术】用于2D卷积神经网络的点云数据转换方法和系统
[0001]本公开涉及将3D点云数据编码为可适用于2D卷积神经网络的2D数据阵列集合,例如用于进行对象检测、分类和分段。
技术介绍
[0002]自动驾驶车辆可以使用不同的传感器来感知其周围环境,可以处理传感器数据以在空间中生成数据点集,并且可以使用计算机视觉系统来处理数据点集,以便检测和识别周围环境中的感兴趣对象(例如行人或其他汽车)。传感器例如激光雷达和摄像头(例如光学摄像头)经常用于自动驾驶车辆,以感知车辆周围环境中的对象。激光雷达和摄像头具有不同的特点和优势。例如,光学摄像头感知环境中的对象,捕获感知到的对象的图像,并生成表示所捕获图像的2D图像数据。然而,光学摄像头在极端光照变化下(例如夜间或非常明亮的环境中)可能无法感知对象,并且可能仅限于捕获二维(two
‑
dimensional,2D)图像。然而,光学摄像头可能能够感知距离光学摄像头较远的对象的图像。激光雷达可以捕获周围环境的三维(three
‑
dimensional,3D)信息,并在空间中生成表示所捕获3D信息的数据点集。本领域中通常将三维空间中的数据点集称为点云,并由激光雷达作为3D数据提供。尽管激光雷达可能能够捕获较宽区域的3D信息,但激光雷达可能无法检测远离激光雷达的小和/或窄的对象,并且可能具有有限的传感分辨率,特别是在垂直方向上。因此,计算机视觉系统可以有益地同时使用从激光雷达接收的3D数据和从摄像头接收的2D图像。
[0003]已尝试将激光雷达和2D图 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法,其特征在于,包括:接收点云形式的3D数据集;将所述3D数据集编码为一个或多个阵列的集合,针对所述3D数据的每个数据点:通过将所述数据点的3D坐标投影到由已定义虚拟摄像头参数集定义的2D图像平面上,计算所述一个或多个阵列的2D索引,其中所述虚拟摄像头参数集包括定义所述2D图像平面的摄像头投影矩阵;根据所述计算得到的2D索引,将所述数据点的每个3D坐标存储在所述一个或多个阵列中;输出所述一个或多个阵列的集合,用于输入到2D卷积神经网络(convolved neural network,CNN)中进行训练或推理。2.根据权利要求1所述的方法,其特征在于,还包括:根据预定义的一个或多个参数对所述3D数据进行调整,生成调整后的3D数据集,其中所述调整为以下至少一项:对所述3D坐标进行缩放、移位、归一化或量化;所述一个或多个阵列的集合由所述调整后的3D数据生成。3.根据权利要求1或2所述的方法,其特征在于,所述一个或多个阵列的集合包括经调整可识别为图像数据的值。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述虚拟摄像头参数包括感兴趣区域(region of interest,ROI)的定义,所述方法还包括:定义对应于所述ROI的所述3D数据的子集;将所述3D数据的子集编码为所述一个或多个阵列的集合。5.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:通过扩张填充所述一个或多个阵列的集合中的任何空洞。6.根据权利要求1至5中任一项所述的方法,其特征在于,还包括:使用定义第二2D图像平面的第二虚拟摄像头参数集,将所述3D数据编码为一个或多个阵列的第二集合。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述虚拟摄像头参数集对应于光学摄像头的参数。8.根据权利要求7所述的方法,其特征在于,还包括:将所述一个或多个阵列的集合与所述光学摄像头获得的2D图像数据集相组合,以生成组合数据集;将所述组合数据集作为所述2D CNN的输入来进行对象检测;输出2D对象限界框集和2D对象掩码集。9.根据权利要求8所述的方法,其特征在于,所述组合包括:在所述一个或多个阵列的集合和所述2D图像数据集之间进行空间配准;将所述一个或多个阵列的集合与所述2D图像数据集进行级联。10.一种方法,其特征在于,包括:接收点云形式的3D数据集;将所述3D数据集编码为一个或多个阵列的集合,针对所述3D数据的每个数据点:通过将所述数据点的3D坐标投影到由已定义虚拟摄像头参数集定义的2D图像平面上,
计算所述一个或多个阵列的2D索引,其中所述虚拟摄像头参数集包括定义所述2D图像平面的摄像头投影矩阵;根据所述计算得到的2D索引,将所述数据点的每个3D坐标存储在所述一个或多个阵列中;将所述一个或多个阵列的集合作为2D卷积神经网络(convolutional neural network,CNN)的输入来进行对象检测,其中所述2D CNN用于输出检测对象集;将所述检测对象集作为2D分段和回归单元的输入来进行对象分类、回归和分段,其中所述2D分段和回归单元用于为所述检测对象集添加感兴趣类别标签,并针对所述检测对象集输出2D对象限界框集和2D对象掩码集。11.根据权利要求10所述的方法,其特征在于,存储映射索引以将每个计算得到的2D索引与所述3D数据中的相应点相关联,所述方法还包括:通过使用所述映射索引将每个2D对象掩码与所述3D数据中的相应点集群相关联来进行3D语义分段;输出3D对象掩码集。12.根...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。