【技术实现步骤摘要】
本专利技术涉及三维目标检测领域,特别是基于模态间隐式空间增强和时空交互编码的3d目标检测方法和装置。
技术介绍
1、近年来,3d目标检测技术在机器人和自动驾驶等领域引起了极大的关注。传统的三维目标检测方法通常依赖于单一模态数据,如lidar点云或rgb图像。这些方法在特定场景中表现优异,但在复杂和动态环境中存在局限性。例如,lidar点云在室外环境中表现良好,但在遮挡和复杂背景下难以检测小物体;而rgb图像虽提供丰富纹理信息,但在深度感知和恶劣天气条件下表现不佳。因此,有效整合多模态数据以实现准确感知在自动驾驶中至关重要,多模态融合成为解决这一问题的关键方法。
2、目前,多模态融合模型主要分为两种方法:基于视角转换拼接融合和基于跨模态交互融合。这些方法旨在将lidar点云与rgb图像特征对齐,实现有效的特征融合,并利用融合特征进行边界框和类别预测。然而,现有方法在3d目标检测中面临诸多挑战。
3、首先,rgb图像缺乏深度信息,通常依赖显式深度估计方法对齐lidar数据,但在复杂环境中易产生误差,导致图像特征向鸟瞰
...【技术保护点】
1.基于模态间隐式空间增强和时空交互编码的3D目标检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于模态间隐式空间增强和时空交互编码的3D目标检测方法,其特征在于,步骤S3所述的初步交互单元包括投影运算层和空间编码层。在投影运算层中,利用相机的内参矩阵和外参矩阵将LiDAR点云数据投影到RGB图像特征上,建立坐标系对应关系;在空间编码层中,利用LiDAR数据精确的空间信息结合可变交叉注意力机制,进行运算得到增强后的图像特征。
3.根据权利要求1所述的基于模态间隐式空间增强和时空交互编码的3D目标检测方法,其特征在于,步骤S3所述
...【技术特征摘要】
1.基于模态间隐式空间增强和时空交互编码的3d目标检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于模态间隐式空间增强和时空交互编码的3d目标检测方法,其特征在于,步骤s3所述的初步交互单元包括投影运算层和空间编码层。在投影运算层中,利用相机的内参矩阵和外参矩阵将lidar点云数据投影到rgb图像特征上,建立坐标系对应关系;在空间编码层中,利用lidar数据精确的空间信息结合可变交叉注意力机制,进行运算得到增强后的图像特征。
3.根据权利要求1所述的基于模态间隐式空间增强和时空交互编码的3d目标检测方法,其特征在于,步骤s3所述的精细交互单元包含两个残差模块,通过残差网络将原始rgb图像特征与增强后的rgb图像特征进行融合,以获得鸟瞰视角下的rgb图像特征。
4.根据权利要求1所述的一种基于模态间隐式空间增强和时空交互编码的3d目标检测方法,其特征在于,步骤s4所述的空间融合单元包含查询生成与位置编码层、可变形交叉注意力层以及残差层。所述查询生成与位置编码层生成与ro...
【专利技术属性】
技术研发人员:产思贤,段蓓蓓,范兴刚,毛家发,白琮,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。