一种基于时间注意力与可形变的交叉注意力相结合的3D目标检测算法制造技术

技术编号:39289358 阅读:11 留言:0更新日期:2023-11-07 10:58
本发明专利技术涉及3D目标检测技术领域,尤其为一种基于时间注意力与可形变的交叉注意力相结合的3D目标检测算法,包括以下步骤:步骤S1,数据构建;步骤S2,数据预处理;步骤S3,时间注意力模块;步骤S4,可形变交叉注意力模块和步骤S5,任务Head解码,本发明专利技术通过初始化维度为200*200的可学习参数BEV_Query,融合历史帧与当前帧的信息,其次输入的六张图像特征提取上,采用Resnet101的网络架构并进行特征融合,再将可形变交叉注意力扩展到3D感知,将BEV平面上的每个BEV_Query都升维,在高度这一维上设定4个高度,再将每个参考点的映射到图像坐标系,利用时间注意力的BEV_Query对主干网络得到的特征进行查询,生成BEV空间下BEV特征,再经过解码得到最终的高精度3D目标检测结果。再经过解码得到最终的高精度3D目标检测结果。再经过解码得到最终的高精度3D目标检测结果。

【技术实现步骤摘要】
Dataset和KITTI Dataset,如需在自己的数据集上进行训练,需要将数据格式准备为与上述两个数据集一致,首先对数据进行转换,获取六个摄像机视角的关键帧信息、真实标签信息、标注信息,数据预处理完成后,进行特征提取;
[0011]步骤S2,数据预处理:六个摄像机视角分别为左前方、正前方、右前方、左后方、正后方、右后方,六个RGB图像作为一组输入数据,利用Resnet101网络进行特征提取,再对提取的特征进行多尺度融合,得到图像的编码特征;
[0012]步骤S3,时间注意力模块:初始化维度为200*200的BEV_Query,用来查询时间注意力和可形变交叉注意力的BEV特征,在时间注意力中,BEV_Query都与当前帧BEV特征和上一帧BEV特征相交互,第一帧则为当前帧的自注意力,得到的时间注意力特征作为可形变交叉注意力的输入;
[0013]步骤S4,可形变交叉注意力模块:可形变交叉注意力的特征是根据Resnet101以及多尺度融合模块FPN得到的,鉴于可形变交叉注意力的设计主要是用于2D感知,因此在处理3D感知时需要相应调整,将BEV平面上的每个BEV_Query都升维,在高度这一维上设定4个高度,再将每个参考点的映射到图像坐标系,并不是落在所有的六张图像上,只会落在其中某些图像上,再对这些参考点附近的位置进行采样,将采样后的参考点送入可形变交叉注意力模块生成融合时间注意力和交叉注意力的BEV特征,最后将上述时间注意力模块和可形变交叉注意力模块堆叠在一起并重复8次,生成最终的BEV特征;
[0014]步骤S5,任务Head解码:根据上述得到的BEV特征,首先生成900*256的可学习的查询Query与900*256的可学习的位置编码Query_position去查询BEV特征,将Query和Query_position传入时间注意力模块,更新Query,其次将BEV特征作为value,利用得到的Query查询特征后,经过回归和分类分支(FFN网络)对提取的特征计算检测结果,预测结果包含10个输出,分别是预测框中心位置的x方向偏移,预测框中心位置的y方向偏移,预测框的宽,预测框的长,预测框中心位置的z方向偏移,预测框的高,旋转角的正弦值,旋转角的余弦值,x方向速度,y方向速度,至此得到3D检测结果。
[0015]作为本专利技术优选的方案,所述步骤S1中的六个摄像机视角的关键帧的图像长为1600、宽为928,真实标签10类以及2D标注框。
[0016]作为本专利技术优选的方案,所述步骤S2中六个RGB图像作为一组输入数据,输入六张RGB图像,输入通道为[1,6,928,1600,3],其中1为batchsize,6为六个摄像机,[928,1600,3]为单张图片输入Resnet101的大小,经过Resnet101网络的特征提取,得到[1,6,29,50,2048]大小的特征图,再经过一个FPN进行高维和低维的特征融合操作,最终特征图大小为[1,6,15,25,4096]。
[0017]作为本专利技术优选的方案,所述步骤S3中初始化维度为200*200的可学习参数BEV_Query,其中200是BEV特征的长和宽,用来查询时间注意力和可形变交叉注意力的BEV特征,在时间注意力中,BEV_Query都与当前帧BEV特征和历史帧BEV特征相交互,在实际情况中,车辆是自身在运动且车辆周围的物体也是在不断的运动,因此历史帧与当前帧的BEV存在特征不对齐的问题,所以在融合历史帧与当前帧时需要进行特征的旋转和平移对BEV特征进行对齐,此外,第一帧则为当前帧的自注意力,得到的时间注意力特征作为可形变交叉注意力的输入,最终得到的输出大小为[2,40000,8,32]。
[0018]作为本专利技术优选的方案,所述步骤S4中首先根据Resnet101以及多尺度融合模块
FPN得到4个有效特征层,大小分别为[1,6,256,116,200]、[1,6,256,58,100]、[1,6,256,29,50]和[1,6,256,15,25],将这4个有效特征层进行拉伸操作,得到特征大小为[1,6,256,30825]作为可形变的交叉注意力模块的value;
[0019]其次,将可形变的交叉注意力应用到3D感知,将BEV平面上的每个BEV_Query都升维,在高度这一维上设定4个高度,再将每个参考点的映射到图像坐标系,并不是落在所有的六张图像上,只会落在其中某些图像上,再对这些参考点附近的位置进行采样,将采样后的参考点送入可形变交叉注意力模块生成融合时间注意力和交叉注意力的BEV特征,最后将上述时间注意力模块和可形变交叉注意力模块堆叠在一起并重复8次,生成最终的BEV特征。
[0020]作为本专利技术优选的方案,所述步骤S5中据上述得到的BEV特征,首先生成900*256的可学习的查询Query与900*256的可学习的位置编码Query_position去查询BEV特征,将Query和Query_position传入时间注意力模块,更新Query,其次将BEV特征作为value,利用得到的Query查询特征后,经过回归和分类分支(FFN网络)对提取的特征计算检测结果,预测结果包含10个输出,分别是预测框中心位置的x方向偏移,预测框中心位置的y方向偏移,预测框的宽,预测框的长,预测框中心位置的z方向偏移,预测框的高,旋转角的正弦值,旋转角的余弦值,x方向速度,y方向速度,至此得到3D检测结果。
[0021]与现有技术相比,本专利技术的有益效果是:
[0022]本明提供一种基于时间注意力与可形变的交叉注意力相结合的3D目标检测算法,初始化维度为200*200的可学习参数BEV_Query,融合历史帧与当前帧的信息,其次输入的六张图像特征提取上,采用Resnet101的网络架构并进行特征融合,再将可形变交叉注意力扩展到3D感知,将BEV平面上的每个BEV_Query都升维,在高度这一维上设定4个高度,再将每个参考点的映射到图像坐标系,利用时间注意力的BEV_Query对主干网络得到的特征进行查询,生成BEV空间下BEV特征,再经过解码得到最终的高精度3D目标检测结果,有效的解决了现阶段3D检测算法的缺陷以及缺少时间信息使用的现状。
附图说明
[0023]图1为本专利技术时间注意力特征映射图;
[0024]图2为本专利技术可形变交叉注意力特征映射图;
[0025]图3为本专利技术测试实例图。
具体实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]请参阅图1

3,本专利技术提供一种技术方案:
[0028]本专利技术创造提供一种基于时间注意力与可形变的交叉注意力相结合的3D目标检测算法,该算法首先初始化维度为200*200的可学习参数BE本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时间注意力与可形变的交叉注意力相结合的3D目标检测算法,其特征在于,包括以下步骤:步骤S1,数据构建:3D物体检测的开源数据集主要是NuscenesDataset、SUN

RGBDDataset和KITTIDataset,如需在自己的数据集上进行训练,需要将数据格式准备为与上述两个数据集一致,首先对数据进行转换,获取六个摄像机视角的关键帧信息、真实标签信息、标注信息,数据预处理完成后,进行特征提取;步骤S2,数据预处理:六个摄像机视角分别为左前方、正前方、右前方、左后方、正后方、右后方,六个RGB图像作为一组输入数据,利用Resnet101网络进行特征提取,再对提取的特征进行多尺度融合,得到图像的编码特征;步骤S3,时间注意力模块:初始化维度为200*200的BEV_Query,用来查询时间注意力和可形变交叉注意力的BEV特征,在时间注意力中,BEV_Query都与当前帧BEV特征和上一帧BEV特征相交互,第一帧则为当前帧的自注意力,得到的时间注意力特征作为可形变交叉注意力的输入;步骤S4,可形变交叉注意力模块:可形变交叉注意力的特征是根据Resnet101以及多尺度融合模块FPN得到的,鉴于可形变交叉注意力的设计主要是用于2D感知,因此在处理3D感知时需要相应调整,将BEV平面上的每个BEV_Query都升维,在高度这一维上设定4个高度,再将每个参考点的映射到图像坐标系,并不是落在所有的六张图像上,只会落在其中某些图像上,再对这些参考点附近的位置进行采样,将采样后的参考点送入可形变交叉注意力模块生成融合时间注意力和交叉注意力的BEV特征,最后将上述时间注意力模块和可形变交叉注意力模块堆叠在一起并重复8次,生成最终的BEV特征;步骤S5,任务Head解码:根据上述得到的BEV特征,首先生成900*256的可学习的查询Query与900*256的可学习的位置编码Query_position去查询BEV特征,将Query和Query_position传入时间注意力模块,更新Query,其次将BEV特征作为value,利用得到的Query查询特征后,经过回归和分类分支(FFN网络)对提取的特征计算检测结果,预测结果包含10个输出,分别是预测框中心位置的x方向偏移,预测框中心位置的y方向偏移,预测框的宽,预测框的长,预测框中心位置的z方向偏移,预测框的高,旋转角的正弦值,旋转角的余弦值,x方向速度,y方向速度,至此得到3D检测结果。2.根据权利要求1所述的一种基于时间注意力与可形变的交叉注意力相结合的3D目标检测算法,其特征在于,所述步骤S1中的六个摄像机视角的关键帧的图像长为1600、宽为928,真实标签10类以及2D标注框。3.根据权利要求1所述的一种基于时间注意力与可形变的交叉注意力相结合的3D目标检测算法,其特征在于,所述步骤S2中六个RGB图像作为一组输入数据,输入六张RGB图像,输入通道为[1,6,928,1600,3],其...

【专利技术属性】
技术研发人员:姚健胡超张正卿邬伟杰朱力强黄家耀赖盛鑫
申请(专利权)人:联通上海产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1