3D目标检测方法及装置制造方法及图纸

技术编号：27590193 阅读：31 留言：0更新日期：2021-03-10 10:07

本发明专利技术公开了一种3D目标检测方法，包括获取原始的RGB图像；在RGB图像上进行2D目标检测得到2D边界框和目标类别；利用2D边界框进行分割和重采样得到包含目标的视锥点云数据；利用2D边界框对RGB图像进行裁剪得到目标RGB图像；将目标RGB图像输入到特征提取网络得到RGB深度特征；将视锥点云数据和RGB深度特征输入到分割网络得到分割掩膜并转换为目标点云；将目标点云进行重采样并输入到3D框预测网络得到最终的目标3D边界框。本发明专利技术还提供了一种实现所述3D目标检测方法的装置。本发明专利技术方法融合了RGB深度特征与视锥点云数据，因此可靠性更高，而且准确性更好。而且准确性更好。而且准确性更好。

全部详细技术资料下载

【技术实现步骤摘要】
3D目标检测方法及装置

[0001]本专利技术属于图像处理领域，具体涉及一种3D目标检测方法及装置。

技术介绍

[0002]随着经济技术的发展和智能技术的广泛应用，自动驾驶领域已经成为了当今的研究热点。
[0003]多模态的感知融合技术是自动驾驶系统的重要组成部分；自动驾驶系统往往需要融合多种传感器的感知数据，在三维空间进行目标检测，从而为规划模块提供车辆周围环境的真实可靠的合理表达。
[0004]视锥点云，是利用图像平面上的目标2D边界框和和激光雷达坐标系与相机坐标系之间的映射关系，将属于2D目标所在的空间视锥中的激光点分割出来所组成的锥形点云。目前，已经存在许多基于视锥点云的3D目标检测方法：
[0005]方法a：在RGB图像上检测出2D目标框，分割出视锥点云以后将其输入到一个分割网络进行目标或非目标的二分类，输出分割掩模并分割出目标点云；再将目标点云输入到一个3D边界框预测网络，对目标中心坐标进行回归，对尺寸和航向角进行分类和回归，最终输出以向量(x,y,z,w,l,h,θ)的形式表示的目标3D边界框；
[0006]方法b：在方法a的基础上，引入Mask RCNN来直接输出目标在图像平面上的2D掩膜，并用这个2D掩膜来分割原始点云得到视锥点云，而不是像a一样在三维坐标中来做分割；
[0007]方法c：在方法a的基础上，在其进行目标或非目标的而分类时，引入了注意力机制来找到点云数据中需要被关注的空间点和特征通道，以达到有效增加目标信息的目的。并使用Focal Loss来决点...

【技术保护点】

【技术特征摘要】
1.一种3D目标检测方法，包括如下步骤：S1.获取原始的RGB图像；S2.在步骤S1获取的RGB图像上进行2D目标检测，从而得到2D边界框和目标类别；S3.利用步骤S2得到的2D边界框进行分割和重采样，从而得到包含目标的视锥点云数据；S4.利用步骤S2得到的2D边界框对步骤S1获取的RGB图像进行裁剪，从而得到目标RGB图像；S5.将步骤S4得到的目标RGB图像输入到特征提取网络，得到RGB深度特征；S6.将步骤S3得到的视锥点云数据和步骤S5得到的RGB深度特征输入到分割网络，得到分割掩膜，并转换为目标点云；S7.将步骤S6得到的目标点云进行重采样，并输入到3D框预测网络，从而得到最终的目标3D边界框。2.根据权利要求1所述的3D目标检测方法，其特征在于步骤S3所述的利用步骤S2得到的2D边界框进行分割和重采样，从而得到包含目标的视锥点云数据，具体为利用步骤S2得到的2D边界框进行分割，并重采样1024个点，从而得到包含目标的视锥点云数据。3.根据权利要求2所述的3D目标检测方法，其特征在于步骤S4所述的利用步骤S2得到的2D边界框对步骤S1获取的RGB图像进行裁剪，从而得到目标RGB图像，具体为采用OpenCV库中的copyMakeBorder函数，采用灰度值(128,128,128)填充边缘，得到长宽比1:1的方形图像，并调整尺寸为固定的[244
×
224]。4.根据权利要求3所述的3D目标检测方法，其特征在于步骤S5所述的将步骤S4得到的目标RGB图像输入到特征提取网络，得到RGB深度特征，具体为将目标RGB图像输入ResNet 50网络，输出形状为[1
×1×
2048]的特征，并通过一个[1
×
1,128]的卷积进行降维，从而得到形状为[1
×1×
128]的RGB深度特征γ。5.根据权利要求4所述的3D目标检测方法，其特征在于步骤S6所述的将步骤S3得到的视锥点云数据和步骤S5得到的RGB深度特征输入到分割网络，得到分割掩膜，并转换为目标点云，具体为采用如下步骤得到目标点云：A.将步骤S3得到的形状为[1024
×
4]的视锥点云数据张量，经过维度扩张后，再通过3层[1
×
1,64]的卷积层后，得到形状为[1024
×1×
64]的逐点特征α；B.将步骤A得到的逐点特征α经过两个分别为[1
×
1,128]、[1
×
1,1024]的卷积层，得到形状为[1024
×1×
1024]的特征，并在其第一个维度上进行最大池化得到形状为[1
×1×
1024]的全局特征β；C.由于目标为三种类别，将步骤S2得到的目标的类别表示为[3]的张量，进行维度扩张得到[1
×1×
3]的类别特征δ；D.将步骤B得到的全局特征β、步骤S5中得到的RGB深度特征γ和步骤C得到的类别特征δ，在第三个维度上进行拼接，并将第一个维度进行复制，从而得到形状为[1024
×1×
1155]的特征ε；E.将步骤A得到的逐点特征α和步骤D得到的特征ε在第三个维度上进行拼接，得到形状为[1024
×1×
1219]的特征；F.将步骤E得到的[1024
×1×
1219]的特征，分别输入一个[1
×
1,512]的卷积层、一个
[1<...

【专利技术属性】
技术研发人员：刘彩苹，易子越，李智勇，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人