一种基于BEV的多摄像机3D目标检测的深度学习算法制造技术

技术编号:38141010 阅读:25 留言:0更新日期:2023-07-08 09:55
本发明专利技术涉及3D目标检测技术领域,尤其为一种基于BEV的多摄像机3D目标检测的深度学习算法,包括以下步骤:步骤S1,数据构建、数据预处理;步骤S2,多摄像机图像特征提取;步骤S3,图像特征转BEV特征;步骤S4,BEV特征提取以及步骤S5,任务Head解码,本发明专利技术中,通过针对现阶段3D检测算法的缺陷以及BEV在3D分割的成功应用,因此提供一种基于BEV的多摄像机3D目标检测深度学习算法,首先在输入的六张图像特征提取上,采用Resnet50的网络架构并进行特征融合,得到的图像特征转换成BEV图像,并对BEV图像进行特征提取和特征融合,得到最终的高精度3D目标检测结果,在开源数据集上BEV方法中位于前列位置。于前列位置。

【技术实现步骤摘要】
一种基于BEV的多摄像机3D目标检测的深度学习算法


[0001]本专利技术涉及3D目标检测
,尤其涉及一种基于BEV的多摄像机3D目标检测的深度学习算法。

技术介绍

[0002]3D目标检测算法在在近几年有快速的发展,其中基于2D图像的3D目标算法也是发展势头十足,FCOS3D将三维目标检测问题视为一个二维目标检测问题,只在图像视图中进行感知,由于目标属性与图像外观的强空间相关性,它可以很好地预测这一点,但在感知目标的平移、速度和方向方面相对较差,PGD通过搜索的方法解决了FCOS3D对目标深度预测的缺点,进一步发展了FCOS3D的范式,显著了提升了精度,但是存在更多的计算预算和额外的推理延迟为代价。现有的范式在准确性和时间效率之间的平衡上存在一定缺陷。
[0003]其中3D语义分割范式中BEV技术快速发展,主要包含以下几个组件:用于在图像视图中编码特征的图像视图编码器,用于将特征从图像视图转换为BEV的视图转换器,用于进一步编码特征在BEV中的BEV编码器,以及用于像素分类的头。BEV在语义分割中的成功应用鼓励我们将其扩展到三维本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于BEV的多摄像机3D目标检测的深度学习算法,包括以下步骤:步骤S1,数据构建、数据预处理:3D物体检测的开源数据集主要是KITTI Dataset、SUN

RGBD Dataset和Nuscenes Dataset,如需在自己的数据集上进行训练,需要将数据格式准备为与上述两个数据集一致,首先对数据进行转换,获取六个摄像机视角的关键帧信息、真实标签信息、标注信息,数据预处理完成后,进行特征提取;步骤S2,多摄像机图像特征提取:六个摄像机视角分别为左前方、正前方、右前方、左后方、正后方、右后方,六个RGB图像作为一组输入数据,利用Resnet50网络进行特征提取,再对提取的特征进行多尺度融合,得到图像的编码特征;步骤S3,图像特征转BEV特征:对2D图像的图像进行BEV视角转换,根据投影几何学的针孔摄像机模型,当摄像机的外参和内参已知的情况下,根据转换公式可以将图像像素点的位置映射到世界坐标系中,从而实现2D到3D映射,输入的参数除了六个摄像机图片,还包含从相机坐标系到激光雷达坐标系的旋转参数、从相机坐标系到雷达坐标系的平移参数、相机内参、相机坐标系中的旋转参数和相机坐标系的平移,根据输入的图像压缩16倍及图像深度信息生成2D图像的视锥体,由视锥体得到图像的深度信息,其次根据转换公式,将2D图像特征转换到3D空间,至此完成2D图像视角到3D图像视角的BEV的转换,并使用voxelpooling体素池化生成点的BEV特征,同时也对BEV特征进行增强;步骤S4,BEV特征提取:根据提取的BEV特征,使用FPN方法对特征进行特征融合,将原始特征进行两次上采样,再进行一次下采样,融合相同大小的特征图,得到最终特征图;步骤S5,任务Head解码:根据上面的特征图,经过一次上采样和共享卷积,并使用ScaleNMS对3D框进行非极大值抑制,最后解码六个不共享的任务Head,每个任务Head包含六个分支,分支一是2D维度沿着x,y轴方向的偏移量(reg分支),分支二是z轴也就是预测物体的高度信息(height分支),分支三是物体的的尺寸大小信息(长



高)(dim分支),分支四是物体偏航角的正、余弦(rot分支),分支五是物体沿x,y轴方向的速度(vel分支),分支六是分类置信度(heatmap分支)。2.根据权利要求1所述的一种基于BEV的多摄像机3D目标检测的深度学习算法,其特征在于,所述步骤S1中的六个摄像机视角的关键帧的图像长为1600、宽为900,真实标签10类以及2D标注框。3.根据权利要求1所述的一种基于BEV的多摄像机3D目标检测的深度学习算法,其特征在于,所述步骤S2中六个RGB图像作为一组输入数据,输入六张RGB图像裁剪为704*256大小,深度为3,输入通道为[1,6,256,704,3],其中1为batchsize,6为六个摄像机,[256,704,3]为单张图片裁剪后的输入Resnet50的大小,经过[3,4,6,3]个Bottleneck模块的卷积操作,得到[1,6,8,22,2048]大小的特征图,再经过一个FPN进行高维和低维的特征融合操作,最终特征图大小为[1,6,16,44,512]。4.根据权利要求1所述的一种基于BEV的多摄像机3D目标检测的深度学习算法,其特征在于,所述步骤S3中从相机坐标系到激光雷达坐标系的旋转参数的大小为[1,6,3,3]、从相机坐标系到雷达坐标系的平移参数大小为[1,6,3]、相机...

【专利技术属性】
技术研发人员:姚健胡超虞祝豪邬伟杰黄家耀朱莉琴
申请(专利权)人:联通上海产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1