【技术实现步骤摘要】
本申请涉及三维目标检测领域,特别是涉及一种基于lidar点云和rgb图像的3d目标检测模型的构建方法及构建装置。
技术介绍
1、自动驾驶、机器人技术和增强现实等领域快速发展的今天,3d目标检测任务已成为计算机视觉领域的研究热点。3d目标检测旨在从三维空间中对目标物体进行分类识别以及定位,其精度和效率会直接对实际应用产生很大影响。多模态融合模型可以利用lidar点云和rgb图像来实现更准确的定位和分类,这得益于两种数据间的互补性,lidar点云可以提供精准的空域信息,而rgb图像可以提供丰富的语义和纹理信息。
2、目前的多模态融合模型主要使用基于视角转换和基于矩阵投影两种方法来将lidar点云和rgb图像特征对应起来,从而实现特征融合,再利用融合特征来进行边界框和类别的预测,但是,由于rgb图像包含颜色、纹理等视觉信息,但缺乏深度信息,lidar点云数据可以精确地表示物体的形状、大小和空间位置,但是缺乏颜色和纹理等视觉信息,所以现有的多模态融合模型中lidar点云分支和rgb图像分支相对独立,rgb图像难以和lidar点云数据
...【技术保护点】
1.一种基于LiDAR点云和RGB图像的3D目标检测模型的构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于LiDAR点云和RGB图像的3D目标检测模型的构建方法,其特征在于,在“在所述第一交互单元中将点云体素特征投影到RGB图像特征中并通过双轴编码器进行特征交互得到几何互补图像特征”步骤中,所述第一交互单元包括稠密运算层、双轴编码器层以及拼接层,在所述稠密运算层中将所述点云体素特征投影到RGB图像特征上并进行稠密化运算得到稠密深度特征,所述双轴编码器对所述稠密深度特征进行双轴编码特征双轴编码特征,将所述双轴编码特征与所述稠密深度特征进
...【技术特征摘要】
1.一种基于lidar点云和rgb图像的3d目标检测模型的构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于lidar点云和rgb图像的3d目标检测模型的构建方法,其特征在于,在“在所述第一交互单元中将点云体素特征投影到rgb图像特征中并通过双轴编码器进行特征交互得到几何互补图像特征”步骤中,所述第一交互单元包括稠密运算层、双轴编码器层以及拼接层,在所述稠密运算层中将所述点云体素特征投影到rgb图像特征上并进行稠密化运算得到稠密深度特征,所述双轴编码器对所述稠密深度特征进行双轴编码特征双轴编码特征,将所述双轴编码特征与所述稠密深度特征进行特征相乘得到几何互补特征,在所述拼接层中将几何互补特征与rgb图像特征进行拼接得到几何互补图像特征。
3.根据权利要求2所述的一种基于lidar点云和rgb图像的3d目标检测模型的构建方法,其特征在于,在所述双轴编码器中对稠密深度特征进行x轴和y轴两个方向的细化得到双轴编码特征。
4.根据权利要求1所述的一种基于lidar点云和rgb图像的3d目标检测模型的构建方法,其特征在于,在“在所述第二交互单元中通过可变形交叉注意力机制将rgb图像特征的像素与点云体素特征的聚类中心进行对应得到语义互补体素特征”步骤中,通过参矩阵将所述点云体素特征的聚类中心与rgb图像特征的像素进行对应得到第一语义特征,将所述点云体素特征输入到线性层得到注意力权重,基于注意力权重对所述语义特征进行可变形交叉注意力机制的计算得到第二语义特征,将所述第二语义特征与所述点云体素特征进行拼接得到语义互补特征,使用通道注意力对所述语义互补特征进行维度消减得到语义互补体素特征。
5.根据权利要求1所述的一种基于lidar点云和rgb图像的3d目标检测模型的构建方法,其特征在于,在“在所述全局特征融合单元中将点云鸟瞰特征、几何互补鸟瞰特征以及语义互补鸟瞰特征进行拼接后进行可变形自注意力的计算得到全局鸟瞰特征”步骤中,所述全局特征整合单元包括通道重建层、全局卷积...
【专利技术属性】
技术研发人员:产思贤,毕克南,吴周检,
申请(专利权)人:杭州像素元科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。