一种基于稀疏代理注意力的多模态三维检测方法技术

技术编号:42073729 阅读:16 留言:0更新日期:2024-07-19 16:54
本发明专利技术提出了一种基于稀疏代理注意力的多模态三维检测方法,利用代理概念实现了高效的同模态下的特征提取与端到端的跨模态的数据融合。本发明专利技术首先提出了一种多模态通用的稀疏代理注意力模块,利用空间代理相关先验简化了注意力计算的复杂度,并实现了算子的高效的并行化加速与相关优化。其次,本发明专利技术实现同模态与跨模态下的高效代理融合方法,实现了基于代理的多模态融合模型。相比直接基于体素与图像进行融合,基于代理的融合即减少了计算与内存的压力,又增大融合时的感受野,从而提升了模型检测的性能。

【技术实现步骤摘要】

本专利技术涉及视频处理、三维目标检测,具体涉及一种基于稀疏代理注意力的多模态三维检测方法


技术介绍

1、多模态的三维目标检测最近已经成为了计算机视觉中的热点研究方向之一,且被广泛的应用于自动驾驶与机器人等领域中。多模态三维检测的目的是在点云与视频的多模态输入中提取相应的三维特征,并检测并标记出对应的感兴趣目标,如行人或车辆等。

2、目前,多模态的三维目标检测任务主要面向两个难点,稀疏特征提取与跨模态数据融合。首先,不同于整齐的二维数据,三维点云由于三维传感器的特性,在连续空间中分布稀疏且不规则、这使得直接应用用于传统常规数据的技术具有挑战性。为了解决这一难题,目前已有许多方法提出了不同的解决方案,但他们都无法同时满足高感受野,无需填充和良好的局部特征提取。传统的稀疏卷积得益于特殊的算子设计,无需对体素进行填充,同时卷积也有良好的局部特征提取能力,但相对的,卷积的感受野十分受限,影响了其特征提取效果。sst基于滑动窗口的分组结构,具有中等大小的感受野与良好的局部分组。但尽管sst使用了一定的优化技巧,它仍需要一定的填充并保证并行。dsvt则使用本文档来自技高网...

【技术保护点】

1.一种基于稀疏代理注意力的多模态三维检测方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种基于稀疏代理注意力的多模态三维检测方法,其特征在于,所述步骤(2)中,稀疏代理注意力网路包含八个稀疏代理注意力模块,稀疏代理注意力模块包含稀疏代理交互模块,批归一化模块,前馈网络模块,其中,每个稀疏代理注意力模块的参数是一致的,稀疏注意力交互模块的参数头数量为8,通道数为256,前馈网络模块的通道数为256,扩张倍率为4。

3.根据权利要求2所述的一种基于稀疏代理注意力的多模态三维检测方法,其特征在于,所述步骤(2)中,稀疏代理交互模块包含代理特征提取模...

【技术特征摘要】

1.一种基于稀疏代理注意力的多模态三维检测方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种基于稀疏代理注意力的多模态三维检测方法,其特征在于,所述步骤(2)中,稀疏代理注意力网路包含八个稀疏代理注意力模块,稀疏代理注意力模块包含稀疏代理交互模块,批归一化模块,前馈网络模块,其中,每个稀疏代理注意力模块的参数是一致的,稀疏注意力交互模块的参数头数量为8,通道数为256,前馈网络模块的通道数为256,扩张倍率为4。

3.根据权利要求2所述的一种基于稀疏代理注意力的多模态三维检测方法,其特征在于,所述步骤(2)中,稀疏代理交互模块包含代理特征提取模块,同模态与跨模态代理特征交互模块与代理特征回传模块;其中,代理特征提取模块与代理特征回传模块使用代理映射约简map-reduce注意力算子,其参数头数量为8,通道数为256,同模态与跨模态代理特征交互模块包括同模态代理特征交互模块和跨模态代理特征交互模块,同模态代理特征交互模块使用的卷积进行计算,卷积核大小为13,通道数为256,跨模态代理特征交互模块使用自注意力进行计算,参数头数量为8,通道数为256。

4....

【专利技术属性】
技术研发人员:张弘万家旭杨一帆李旭亮李亚伟
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1