用于2D卷积神经网络的点云数据转换方法和系统技术方案

技术编号：28738366 阅读：19 留言：0更新日期：2021-06-06 13:19

描述了用于2D卷积神经网络(convolutional neural network，CNN)的3D数据编码方法和系统。将3D数据集编码为一个或多个阵列的集合。通过将3D点的3D坐标投影到由已定义虚拟摄像头参数集定义的2D图像平面上，计算阵列的2D索引。虚拟摄像头参数包括定义2D图像平面的摄像头投影矩阵。根据计算得到的2D索引，将点的每个3D坐标存储在阵列中。提供编码得到的阵列集合，用于输入到2D CNN中进行训练或推理。或推理。或推理。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于2D卷积神经网络的点云数据转换方法和系统

[0001]本公开涉及将3D点云数据编码为可适用于2D卷积神经网络的2D数据阵列集合，例如用于进行对象检测、分类和分段。

技术介绍

[0002]自动驾驶车辆可以使用不同的传感器来感知其周围环境，可以处理传感器数据以在空间中生成数据点集，并且可以使用计算机视觉系统来处理数据点集，以便检测和识别周围环境中的感兴趣对象(例如行人或其他汽车)。传感器例如激光雷达和摄像头(例如光学摄像头)经常用于自动驾驶车辆，以感知车辆周围环境中的对象。激光雷达和摄像头具有不同的特点和优势。例如，光学摄像头感知环境中的对象，捕获感知到的对象的图像，并生成表示所捕获图像的2D图像数据。然而，光学摄像头在极端光照变化下(例如夜间或非常明亮的环境中)可能无法感知对象，并且可能仅限于捕获二维(two
‑
dimensional，2D)图像。然而，光学摄像头可能能够感知距离光学摄像头较远的对象的图像。激光雷达可以捕获周围环境的三维(three
‑
dimensional，3D)信息，并在空间中生成表示所捕获3D信息的数据点集。本领域中通常将三维空间中的数据点集称为点云，并由激光雷达作为3D数据提供。尽管激光雷达可能能够捕获较宽区域的3D信息，但激光雷达可能无法检测远离激光雷达的小和/或窄的对象，并且可能具有有限的传感分辨率，特别是在垂直方向上。因此，计算机视觉系统可以有益地同时使用从激光雷达接收的3D数据和从摄像头接收的2D图像。
[0003]已尝试将激光雷达和2D图...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，其特征在于，包括：接收点云形式的3D数据集；将所述3D数据集编码为一个或多个阵列的集合，针对所述3D数据的每个数据点：通过将所述数据点的3D坐标投影到由已定义虚拟摄像头参数集定义的2D图像平面上，计算所述一个或多个阵列的2D索引，其中所述虚拟摄像头参数集包括定义所述2D图像平面的摄像头投影矩阵；根据所述计算得到的2D索引，将所述数据点的每个3D坐标存储在所述一个或多个阵列中；输出所述一个或多个阵列的集合，用于输入到2D卷积神经网络(convolved neural network，CNN)中进行训练或推理。2.根据权利要求1所述的方法，其特征在于，还包括：根据预定义的一个或多个参数对所述3D数据进行调整，生成调整后的3D数据集，其中所述调整为以下至少一项：对所述3D坐标进行缩放、移位、归一化或量化；所述一个或多个阵列的集合由所述调整后的3D数据生成。3.根据权利要求1或2所述的方法，其特征在于，所述一个或多个阵列的集合包括经调整可识别为图像数据的值。4.根据权利要求1至3中任一项所述的方法，其特征在于，所述虚拟摄像头参数包括感兴趣区域(region of interest，ROI)的定义，所述方法还包括：定义对应于所述ROI的所述3D数据的子集；将所述3D数据的子集编码为所述一个或多个阵列的集合。5.根据权利要求1至4中任一项所述的方法，其特征在于，还包括：通过扩张填充所述一个或多个阵列的集合中的任何空洞。6.根据权利要求1至5中任一项所述的方法，其特征在于，还包括：使用定义第二2D图像平面的第二虚拟摄像头参数集，将所述3D数据编码为一个或多个阵列的第二集合。7.根据权利要求1至6中任一项所述的方法，其特征在于，所述虚拟摄像头参数集对应于光学摄像头的参数。8.根据权利要求7所述的方法，其特征在于，还包括：将所述一个或多个阵列的集合与所述光学摄像头获得的2D图像数据集相组合，以生成组合数据集；将所述组合数据集作为所述2D CNN的输入来进行对象检测；输出2D对象限界框集和2D对象掩码集。9.根据权利要求8所述的方法，其特征在于，所述组合包括：在所述一个或多个阵列的集合和所述2D图像数据集之间进行空间配准；将所述一个或多个阵列的集合与所述2D图像数据集进行级联。10.一种方法，其特征在于，包括：接收点云形式的3D数据集；将所述3D数据集编码为一个或多个阵列的集合，针对所述3D数据的每个数据点：通过将所述数据点的3D坐标投影到由已定义虚拟摄像头参数集定义的2D图像平面上，
计算所述一个或多个阵列的2D索引，其中所述虚拟摄像头参数集包括定义所述2D图像平面的摄像头投影矩阵；根据所述计算得到的2D索引，将所述数据点的每个3D坐标存储在所述一个或多个阵列中；将所述一个或多个阵列的集合作为2D卷积神经网络(convolutional neural network，CNN)的输入来进行对象检测，其中所述2D CNN用于输出检测对象集；将所述检测对象集作为2D分段和回归单元的输入来进行对象分类、回归和分段，其中所述2D分段和回归单元用于为所述检测对象集添加感兴趣类别标签，并针对所述检测对象集输出2D对象限界框集和2D对象掩码集。11.根据权利要求10所述的方法，其特征在于，存储映射索引以将每个计算得到的2D索引与所述3D数据中的相应点相关联，所述方法还包括：通过使用所述映射索引将每个2D对象掩码与所述3D数据中的相应点集群相关联来进行3D语义分段；输出3D对象掩码集。12.根...

【专利技术属性】
技术研发人员：爱德华多，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人