当前位置: 首页 > 专利查询>湖南大学专利>正文

3D目标检测方法及装置制造方法及图纸

技术编号:27590193 阅读:31 留言:0更新日期:2021-03-10 10:07
本发明专利技术公开了一种3D目标检测方法,包括获取原始的RGB图像;在RGB图像上进行2D目标检测得到2D边界框和目标类别;利用2D边界框进行分割和重采样得到包含目标的视锥点云数据;利用2D边界框对RGB图像进行裁剪得到目标RGB图像;将目标RGB图像输入到特征提取网络得到RGB深度特征;将视锥点云数据和RGB深度特征输入到分割网络得到分割掩膜并转换为目标点云;将目标点云进行重采样并输入到3D框预测网络得到最终的目标3D边界框。本发明专利技术还提供了一种实现所述3D目标检测方法的装置。本发明专利技术方法融合了RGB深度特征与视锥点云数据,因此可靠性更高,而且准确性更好。而且准确性更好。而且准确性更好。

【技术实现步骤摘要】
3D目标检测方法及装置


[0001]本专利技术属于图像处理领域,具体涉及一种3D目标检测方法及装置。

技术介绍

[0002]随着经济技术的发展和智能技术的广泛应用,自动驾驶领域已经成为了当今的研究热点。
[0003]多模态的感知融合技术是自动驾驶系统的重要组成部分;自动驾驶系统往往需要融合多种传感器的感知数据,在三维空间进行目标检测,从而为规划模块提供车辆周围环境的真实可靠的合理表达。
[0004]视锥点云,是利用图像平面上的目标2D边界框和和激光雷达坐标系与相机坐标系之间的映射关系,将属于2D目标所在的空间视锥中的激光点分割出来所组成的锥形点云。目前,已经存在许多基于视锥点云的3D目标检测方法:
[0005]方法a:在RGB图像上检测出2D目标框,分割出视锥点云以后将其输入到一个分割网络进行目标或非目标的二分类,输出分割掩模并分割出目标点云;再将目标点云输入到一个3D边界框预测网络,对目标中心坐标进行回归,对尺寸和航向角进行分类和回归,最终输出以向量(x,y,z,w,l,h,θ)的形式表示的目标3D边界框;
[0006]方法b:在方法a的基础上,引入Mask RCNN来直接输出目标在图像平面上的2D掩膜,并用这个2D掩膜来分割原始点云得到视锥点云,而不是像a一样在三维坐标中来做分割;
[0007]方法c:在方法a的基础上,在其进行目标或非目标的而分类时,引入了注意力机制来找到点云数据中需要被关注的空间点和特征通道,以达到有效增加目标信息的目的。并使用Focal Loss来决点云数据中目标与背景类别不平衡的问题。
[0008]但是,目前的3D目标检测方法,依旧存在准确性较差和可靠性不高的问题,从而影响了多模态的感知融合技术的应用。

技术实现思路

[0009]本专利技术的目的之一在于提供一种可靠性高且准确性好的3D目标检测方法。
[0010]本专利技术的目的之二在于提供一种实现所述3D目标检测方法的装置。
[0011]本专利技术提供的这种3D目标检测方法,包括如下步骤:
[0012]S1.获取原始的RGB图像;
[0013]S2.在步骤S1获取的RGB图像上进行2D目标检测,从而得到2D边界框和目标类别;
[0014]S3.利用步骤S2得到的2D边界框进行分割和重采样,从而得到包含目标的视锥点云数据;
[0015]S4.利用步骤S2得到的2D边界框对步骤S1获取的RGB图像进行裁剪,从而得到目标RGB图像;
[0016]S5.将步骤S4得到的目标RGB图像输入到特征提取网络,得到RGB深度特征;
[0017]S6.将步骤S3得到的视锥点云数据和步骤S5得到的RGB深度特征输入到分割网络,得到分割掩膜,并转换为目标点云;
[0018]S7.将步骤S6得到的目标点云进行重采样,并输入到3D框预测网络,从而得到最终的目标3D边界框。
[0019]步骤S3所述的利用步骤S2得到的2D边界框进行分割和重采样,从而得到包含目标的视锥点云数据,具体为利用步骤S2得到的2D边界框进行分割,并重采样1024个点,从而得到包含目标的视锥点云数据。
[0020]步骤S4所述的利用步骤S2得到的2D边界框对步骤S1获取的RGB图像进行裁剪,从而得到目标RGB图像,具体为采用OpenCV库中的copyMakeBorder函数,采用灰度值(128,128,128)填充边缘,得到长宽比1:1的方形图像,并调整尺寸为固定的[244
×
224]。
[0021]步骤S5所述的将步骤S4得到的目标RGB图像输入到特征提取网络,得到RGB深度特征,具体为将目标RGB图像输入ResNet 50网络,输出形状为[1
×1×
2048]的特征,并通过一个[1
×
1,128]的卷积进行降维,从而得到形状为[1
×1×
128]的RGB深度特征γ。
[0022]步骤S6所述的将步骤S3得到的视锥点云数据和步骤S5得到的RGB深度特征输入到分割网络,得到分割掩膜,并转换为目标点云,具体为采用如下步骤得到目标点云:
[0023]A.将步骤S3得到的形状为[1024
×
4]的视锥点云数据张量,经过维度扩张后,再通过3层[1
×
1,64]的卷积层后,得到形状为[1024
×1×
64]的逐点特征α;
[0024]B.将步骤A得到的逐点特征α经过两个分别为[1
×
1,128]、[1
×
1,1024]的卷积层,得到形状为[1024
×1×
1024]的特征,并在其第一个维度上进行最大池化得到形状为[1
×1×
1024]的全局特征β;
[0025]C.由于目标为三种类别,将步骤S2得到的目标的类别表示为[3]的张量,进行维度扩张得到[1
×1×
3]的类别特征δ;
[0026]D.将步骤B得到的全局特征β、步骤S5中得到的RGB深度特征γ和步骤C得到的类别特征δ,在第三个维度上进行拼接,并将第一个维度进行复制,从而得到形状为[1024
×1×
1155]的特征ε;
[0027]E.将步骤A得到的逐点特征α和步骤D得到的特征ε在第三个维度上进行拼接,得到形状为[1024
×1×
1219]的特征;
[0028]F.将步骤E得到的[1024
×1×
1219]的特征,分别输入一个[1
×
1,512]的卷积层、一个[1
×
1,256]的卷积层、两个[1
×
1,128]的卷积层和一个[1
×
1,2]的卷积层后,在删去第二个维度,从而得到形状为[1024
×
2]的分割掩膜;
[0029]G.步骤F得到的形状为[1024
×
2]的分割掩膜,对应于输入的视锥点云数据中1024个点中,每一个点的二分类类别,并由此分割得到形状为[1024
×
3]的点云,并对第一维进行重采样,输出形状为[1024
×
3]的目标点云。
[0030]步骤S7所述的将步骤S6得到的目标点云进行重采样,并输入到3D框预测网络,从而得到最终的目标3D边界框,具体为采用如下步骤得到最终的目标3D边界框:
[0031]a.将输入的形状为[1024
×
3]的目标点云重采样为[512
×
3],在第二个维度上扩张一维,从而得到形状为[512
×1×
3]的张量;
[0032]b.将步骤a得到的[512
×1×
3]的张量,分别经过两个[1
×
1,128]的卷积层、一个[1
×
1,256]的卷积层和一个[1
×
1,512]的卷积层后本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种3D目标检测方法,包括如下步骤:S1.获取原始的RGB图像;S2.在步骤S1获取的RGB图像上进行2D目标检测,从而得到2D边界框和目标类别;S3.利用步骤S2得到的2D边界框进行分割和重采样,从而得到包含目标的视锥点云数据;S4.利用步骤S2得到的2D边界框对步骤S1获取的RGB图像进行裁剪,从而得到目标RGB图像;S5.将步骤S4得到的目标RGB图像输入到特征提取网络,得到RGB深度特征;S6.将步骤S3得到的视锥点云数据和步骤S5得到的RGB深度特征输入到分割网络,得到分割掩膜,并转换为目标点云;S7.将步骤S6得到的目标点云进行重采样,并输入到3D框预测网络,从而得到最终的目标3D边界框。2.根据权利要求1所述的3D目标检测方法,其特征在于步骤S3所述的利用步骤S2得到的2D边界框进行分割和重采样,从而得到包含目标的视锥点云数据,具体为利用步骤S2得到的2D边界框进行分割,并重采样1024个点,从而得到包含目标的视锥点云数据。3.根据权利要求2所述的3D目标检测方法,其特征在于步骤S4所述的利用步骤S2得到的2D边界框对步骤S1获取的RGB图像进行裁剪,从而得到目标RGB图像,具体为采用OpenCV库中的copyMakeBorder函数,采用灰度值(128,128,128)填充边缘,得到长宽比1:1的方形图像,并调整尺寸为固定的[244
×
224]。4.根据权利要求3所述的3D目标检测方法,其特征在于步骤S5所述的将步骤S4得到的目标RGB图像输入到特征提取网络,得到RGB深度特征,具体为将目标RGB图像输入ResNet 50网络,输出形状为[1
×1×
2048]的特征,并通过一个[1
×
1,128]的卷积进行降维,从而得到形状为[1
×1×
128]的RGB深度特征γ。5.根据权利要求4所述的3D目标检测方法,其特征在于步骤S6所述的将步骤S3得到的视锥点云数据和步骤S5得到的RGB深度特征输入到分割网络,得到分割掩膜,并转换为目标点云,具体为采用如下步骤得到目标点云:A.将步骤S3得到的形状为[1024
×
4]的视锥点云数据张量,经过维度扩张后,再通过3层[1
×
1,64]的卷积层后,得到形状为[1024
×1×
64]的逐点特征α;B.将步骤A得到的逐点特征α经过两个分别为[1
×
1,128]、[1
×
1,1024]的卷积层,得到形状为[1024
×1×
1024]的特征,并在其第一个维度上进行最大池化得到形状为[1
×1×
1024]的全局特征β;C.由于目标为三种类别,将步骤S2得到的目标的类别表示为[3]的张量,进行维度扩张得到[1
×1×
3]的类别特征δ;D.将步骤B得到的全局特征β、步骤S5中得到的RGB深度特征γ和步骤C得到的类别特征δ,在第三个维度上进行拼接,并将第一个维度进行复制,从而得到形状为[1024
×1×
1155]的特征ε;E.将步骤A得到的逐点特征α和步骤D得到的特征ε在第三个维度上进行拼接,得到形状为[1024
×1×
1219]的特征;F.将步骤E得到的[1024
×1×
1219]的特征,分别输入一个[1
×
1,512]的卷积层、一个
[1<...

【专利技术属性】
技术研发人员:刘彩苹易子越李智勇
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1