基于模态间隐式空间增强和时空交互编码的3D目标检测方法和装置制造方法及图纸

技术编号:44829808 阅读:17 留言:0更新日期:2025-03-28 20:22
基于模态间隐式空间增强和时空交互编码的3D目标检测方法和装置,其方法包括:获取训练数据并构建3D目标检测架构;通过特征提取网络分别获取RGB图像特征和点云特征,将这些特征输入到隐式空间增强融合编码网络中生成包含丰富几何信息的鸟瞰视图图像特征;通过时空交互式特征融合网络,在空间和时间维度上融合图像鸟瞰特征和点云鸟瞰特征以获得最终的多模态融合特征;将所述融合特征送入分类头,实现目标的检测与识别。本发明专利技术通过充分挖掘LiDAR点云和RGB图像的互补特性进行高精度目标检测。

【技术实现步骤摘要】

本专利技术涉及三维目标检测领域,特别是基于模态间隐式空间增强和时空交互编码的3d目标检测方法和装置。


技术介绍

1、近年来,3d目标检测技术在机器人和自动驾驶等领域引起了极大的关注。传统的三维目标检测方法通常依赖于单一模态数据,如lidar点云或rgb图像。这些方法在特定场景中表现优异,但在复杂和动态环境中存在局限性。例如,lidar点云在室外环境中表现良好,但在遮挡和复杂背景下难以检测小物体;而rgb图像虽提供丰富纹理信息,但在深度感知和恶劣天气条件下表现不佳。因此,有效整合多模态数据以实现准确感知在自动驾驶中至关重要,多模态融合成为解决这一问题的关键方法。

2、目前,多模态融合模型主要分为两种方法:基于视角转换拼接融合和基于跨模态交互融合。这些方法旨在将lidar点云与rgb图像特征对齐,实现有效的特征融合,并利用融合特征进行边界框和类别预测。然而,现有方法在3d目标检测中面临诸多挑战。

3、首先,rgb图像缺乏深度信息,通常依赖显式深度估计方法对齐lidar数据,但在复杂环境中易产生误差,导致图像特征向鸟瞰(bev)空间转换不本文档来自技高网...

【技术保护点】

1.基于模态间隐式空间增强和时空交互编码的3D目标检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于模态间隐式空间增强和时空交互编码的3D目标检测方法,其特征在于,步骤S3所述的初步交互单元包括投影运算层和空间编码层。在投影运算层中,利用相机的内参矩阵和外参矩阵将LiDAR点云数据投影到RGB图像特征上,建立坐标系对应关系;在空间编码层中,利用LiDAR数据精确的空间信息结合可变交叉注意力机制,进行运算得到增强后的图像特征。

3.根据权利要求1所述的基于模态间隐式空间增强和时空交互编码的3D目标检测方法,其特征在于,步骤S3所述的精细交互单元包含两...

【技术特征摘要】

1.基于模态间隐式空间增强和时空交互编码的3d目标检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于模态间隐式空间增强和时空交互编码的3d目标检测方法,其特征在于,步骤s3所述的初步交互单元包括投影运算层和空间编码层。在投影运算层中,利用相机的内参矩阵和外参矩阵将lidar点云数据投影到rgb图像特征上,建立坐标系对应关系;在空间编码层中,利用lidar数据精确的空间信息结合可变交叉注意力机制,进行运算得到增强后的图像特征。

3.根据权利要求1所述的基于模态间隐式空间增强和时空交互编码的3d目标检测方法,其特征在于,步骤s3所述的精细交互单元包含两个残差模块,通过残差网络将原始rgb图像特征与增强后的rgb图像特征进行融合,以获得鸟瞰视角下的rgb图像特征。

4.根据权利要求1所述的一种基于模态间隐式空间增强和时空交互编码的3d目标检测方法,其特征在于,步骤s4所述的空间融合单元包含查询生成与位置编码层、可变形交叉注意力层以及残差层。所述查询生成与位置编码层生成与ro...

【专利技术属性】
技术研发人员:产思贤段蓓蓓范兴刚毛家发白琮
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1