一种基于可变形注意力融合的多模态3D感知方法技术

技术编号:42440904 阅读:24 留言:0更新日期:2024-08-16 16:49
本发明专利技术提供一种基于可变形注意力融合的多模态3D感知方法,采用多模态3D感知架构,能够利用来自点云的几何信息与图像的语义信息提升检测效果,通过融合互补特征得到更好的检测结果;同时提出一种基于可变形注意力的多模态融合模块,通过对BEV特征的解析动态捕捉周围所需要的场景特征,并将其按权聚合;在上述基础上,为了充分获取原有的来自点云的几何信息,将点云BEV特征加入到聚合特征上通过残差连接来实现,使得性能比单模态得到提升。本发明专利技术能够对跨模态特征进行有效地动态聚合,相比于传统的卷积融合方式更加灵活可变。

【技术实现步骤摘要】

本专利技术涉及多模态3d目标检测领域,具体涉及一种基于可变形注意力融合的多模态3d感知方法。


技术介绍

1、近些年来,随着自动驾驶的兴起,自动驾驶的感知成为系统能够正常运行的先决条件。一般来说,自驾汽车常用的传感器包括激光雷达与相机两种,对应采集到的点云与图像都能够独立作为感知系统的数据源,其中,点云提供了驾驶场景的几何与结构信息,图像提供了语义信息,两种数据互为补充,通过构建适当的融合模块将两种信息的优势互补结合能够有效提升检测感知的性能。

2、各种基于深度学习的多模态3d感知方法被提出,其中一种性能极为优秀的方法将点云与图像两种模态数据通过视角转换生成统一的鸟瞰视角的特征,将得到的点云的bev(鸟瞰图)特征与图像bev特征送入融合模块,进而得到融合的bev特征,其既包含了来自点云的几何信息,又包含了来自图像的语义信息。但目前的融合模块大多基于卷积层实现,一方面卷积层由于其有限的感受野仅能对卷积核大小的范围内的信息进行融合,且感受野中可能包含冗余信息,不利于有效提取融合特征;另一方面,由于图像生成bev特征的过程中深度估计的不准确性与视角转换本文档来自技高网...

【技术保护点】

1.一种基于可变形注意力融合的多模态3D感知方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于可变形注意力融合的多模态3D感知方法,其特征在于,所述S2中,获得两种模态各自的BEV特征包括:

3.根据权利要求2所述的一种基于可变形注意力融合的多模态3D感知方法,其特征在于,所述S3包括:得到两种模态的BEV特征后,将其送入基于可变形注意力的动态聚合融合模块;

4.根据权利要求3所述的一种基于可变形注意力融合的多模态3D感知方法,其特征在于,所述S5包括:得到聚合特征后,保留原有的来自点云的几何结构信息,通过构建残差连接完成:

【技术特征摘要】

1.一种基于可变形注意力融合的多模态3d感知方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于可变形注意力融合的多模态3d感知方法,其特征在于,所述s2中,获得两种模态各自的bev特征包括:

3.根据权利要求2所述的一种基于可变形注意力融合的多模态3d...

【专利技术属性】
技术研发人员:凌强郭鹍李峰方毅
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1