基于多模态融合和可变形注意力的三维目标检测方法技术

技术编号:41246087 阅读:21 留言:0更新日期:2024-05-09 23:56
本发明专利技术公开了基于多模态融合与可变形注意力的三维目标检测方法,包括:获得原始点云数据和原始图像数据;将预处理后的点云数据和图像数据输入基于多模态融合与深度注意力机制的三维目标检测网络中,该网络共包括四个阶段:第一个阶段为特征提取阶段,第二个阶段为视图转换阶段,第三个阶段为多模态特征融合阶段,第四个阶段为检测处理阶段,网络最终输出目标三维检测信息和目标类别及置信度;训练基于多模态融合与可变形注意力的三维目标检测网络;采用训练好的检测网络对采集到的图像数据和点云数据处理,输出3D目标信息,实现3D目标检测。本发明专利技术使图像和点云特征得到更充分和有效的利用,同时提高了三维目标检测的准确性和鲁棒性。

【技术实现步骤摘要】

本专利技术涉及智能驾驶环境感知领域,尤其涉及基于多模态融合和可变形注意力的三维目标检测方法


技术介绍

1、三维多目标检测是智能驾驶环境感知中的重要任务之一,主要研究如何有效地感知三维环境信息,对感兴趣目标进行准确分类和定位。由于智能驾驶环境一般需要具备较高的复杂性与动态性,对环境感知系统的准确性和鲁棒性设置了较高要求。单一的传感器在感知数据丰富度和感知精度上具有一定的局限性,不足以满足智能驾驶的环境感知需求,因此采用多传感器信息融合进行环境感知是一种有效的三维目标检测手段。

2、基于单一数据模态的检测方法,性能往往受限于传感器固有的物理特性限制,目前三维目标检测的核心传感器包括相机和激光雷达(lidar)等,其中,图像数据以有序的矩阵形式呈现车身周围丰富的色彩信息,但缺少深度信息,还易受到强光的影响。点云数据直接提供了采样点的三维坐标信息,但易受到雨、雪等天气的影响,导致接收的回波数据不稳定,容易对目标检测性能造成影响。

3、通过多传感器间的互补融合实现三维多目标检测的方式大致分为两种。一种是基于图像的目标检测方法,首先采用成熟的本文档来自技高网...

【技术保护点】

1.基于多模态融合和可变形注意力的三维目标检测方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于多模态融合和可变形注意力的三维目标检测方法,其特征在于,步骤1中,所述获得原始图像数据和原始点云数据是从nuScenes数据集中获取。

3.如权利要求1所述的基于多模态融合和可变形注意力的三维目标检测方法,其特征在于,所述图像特征提取网络的输入为图像数据,输出多尺度的二维图像特征图,具体为:采用EfficientNet-B0基线网络去掉阶段9的全连接层后,作为骨干网络提取图像特征;阶段1是一个卷积核大小为3x3,步距为2、包含BN和激活函数Swish的卷积层,...

【技术特征摘要】

1.基于多模态融合和可变形注意力的三维目标检测方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于多模态融合和可变形注意力的三维目标检测方法,其特征在于,步骤1中,所述获得原始图像数据和原始点云数据是从nuscenes数据集中获取。

3.如权利要求1所述的基于多模态融合和可变形注意力的三维目标检测方法,其特征在于,所述图像特征提取网络的输入为图像数据,输出多尺度的二维图像特征图,具体为:采用efficientnet-b0基线网络去掉阶段9的全连接层后,作为骨干网络提取图像特征;阶段1是一个卷积核大小为3x3,步距为2、包含bn和激活函数swish的卷积层,阶段2到阶段8是在重复堆叠的移动翻转瓶颈卷积mbconv结构,输出第5,6,7,8阶段的特征图;然后将四个尺度的输出特征图输入至双向特征金字塔中,其可学习权重能够学习不同输入特征的重要性,同时重复应用自上而下和自下而上的多尺度特征融合;最后通过特征自适应模块对不同层次的特征图进行处理,其采用自适应平均池化和1*1卷积构建,输出指定的相同尺寸的输出特征图。

4.如权利要求1所述的基于多模态融合和可变形注意力的三维目标检测方法,其特征在于,步骤2.1中,所述点云特征提取网络的输入为点云数据,输出为点云特征图;具体是将点云在x-y平面上离散成多个均匀间隔的点云柱实现点云体素化,然后搭建点云柱体特征提取网络,利用pointnet处理得到...

【专利技术属性】
技术研发人员:田成军刘哲刘浩博颜禹张晋通许春生
申请(专利权)人:长春理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1