【技术实现步骤摘要】
3D目标检测方法及装置
[0001]本专利技术属于图像处理领域,具体涉及一种3D目标检测方法及装置。
技术介绍
[0002]随着经济技术的发展和智能技术的广泛应用,自动驾驶领域已经成为了当今的研究热点。
[0003]多模态的感知融合技术是自动驾驶系统的重要组成部分;自动驾驶系统往往需要融合多种传感器的感知数据,在三维空间进行目标检测,从而为规划模块提供车辆周围环境的真实可靠的合理表达。
[0004]视锥点云,是利用图像平面上的目标2D边界框和和激光雷达坐标系与相机坐标系之间的映射关系,将属于2D目标所在的空间视锥中的激光点分割出来所组成的锥形点云。目前,已经存在许多基于视锥点云的3D目标检测方法:
[0005]方法a:在RGB图像上检测出2D目标框,分割出视锥点云以后将其输入到一个分割网络进行目标或非目标的二分类,输出分割掩模并分割出目标点云;再将目标点云输入到一个3D边界框预测网络,对目标中心坐标进行回归,对尺寸和航向角进行分类和回归,最终输出以向量(x,y,z,w,l,h,θ)的形式表示的目标3D边界框;
[0006]方法b:在方法a的基础上,引入Mask RCNN来直接输出目标在图像平面上的2D掩膜,并用这个2D掩膜来分割原始点云得到视锥点云,而不是像a一样在三维坐标中来做分割;
[0007]方法c:在方法a的基础上,在其进行目标或非目标的而分类时,引入了注意力机制来找到点云数据中需要被关注的空间点和特征通道,以达到有效增加目标信息的目的。并使用Focal Loss来决点 ...
【技术保护点】
【技术特征摘要】
1.一种3D目标检测方法,包括如下步骤:S1.获取原始的RGB图像;S2.在步骤S1获取的RGB图像上进行2D目标检测,从而得到2D边界框和目标类别;S3.利用步骤S2得到的2D边界框进行分割和重采样,从而得到包含目标的视锥点云数据;S4.利用步骤S2得到的2D边界框对步骤S1获取的RGB图像进行裁剪,从而得到目标RGB图像;S5.将步骤S4得到的目标RGB图像输入到特征提取网络,得到RGB深度特征;S6.将步骤S3得到的视锥点云数据和步骤S5得到的RGB深度特征输入到分割网络,得到分割掩膜,并转换为目标点云;S7.将步骤S6得到的目标点云进行重采样,并输入到3D框预测网络,从而得到最终的目标3D边界框。2.根据权利要求1所述的3D目标检测方法,其特征在于步骤S3所述的利用步骤S2得到的2D边界框进行分割和重采样,从而得到包含目标的视锥点云数据,具体为利用步骤S2得到的2D边界框进行分割,并重采样1024个点,从而得到包含目标的视锥点云数据。3.根据权利要求2所述的3D目标检测方法,其特征在于步骤S4所述的利用步骤S2得到的2D边界框对步骤S1获取的RGB图像进行裁剪,从而得到目标RGB图像,具体为采用OpenCV库中的copyMakeBorder函数,采用灰度值(128,128,128)填充边缘,得到长宽比1:1的方形图像,并调整尺寸为固定的[244
×
224]。4.根据权利要求3所述的3D目标检测方法,其特征在于步骤S5所述的将步骤S4得到的目标RGB图像输入到特征提取网络,得到RGB深度特征,具体为将目标RGB图像输入ResNet 50网络,输出形状为[1
×1×
2048]的特征,并通过一个[1
×
1,128]的卷积进行降维,从而得到形状为[1
×1×
128]的RGB深度特征γ。5.根据权利要求4所述的3D目标检测方法,其特征在于步骤S6所述的将步骤S3得到的视锥点云数据和步骤S5得到的RGB深度特征输入到分割网络,得到分割掩膜,并转换为目标点云,具体为采用如下步骤得到目标点云:A.将步骤S3得到的形状为[1024
×
4]的视锥点云数据张量,经过维度扩张后,再通过3层[1
×
1,64]的卷积层后,得到形状为[1024
×1×
64]的逐点特征α;B.将步骤A得到的逐点特征α经过两个分别为[1
×
1,128]、[1
×
1,1024]的卷积层,得到形状为[1024
×1×
1024]的特征,并在其第一个维度上进行最大池化得到形状为[1
×1×
1024]的全局特征β;C.由于目标为三种类别,将步骤S2得到的目标的类别表示为[3]的张量,进行维度扩张得到[1
×1×
3]的类别特征δ;D.将步骤B得到的全局特征β、步骤S5中得到的RGB深度特征γ和步骤C得到的类别特征δ,在第三个维度上进行拼接,并将第一个维度进行复制,从而得到形状为[1024
×1×
1155]的特征ε;E.将步骤A得到的逐点特征α和步骤D得到的特征ε在第三个维度上进行拼接,得到形状为[1024
×1×
1219]的特征;F.将步骤E得到的[1024
×1×
1219]的特征,分别输入一个[1
×
1,512]的卷积层、一个
[1<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。