一种双框架交互感知3D关联检测模型的构建方法及应用技术

技术编号：40427856 阅读：4 留言：0更新日期：2024-02-20 22:48

本方案提供了双框架交互感知3D关联检测模型的构建方法及应用，训练样本集中的点云数据和图像数据分别输入到特征提取网络中得到多尺度点云特征以及初始图像特征，多尺度点云特征和初始图像特征一并输入到区域跨模态交互融合模块中得到双模态特征，双模态特征输入到双分支分布感知模块中得到双分布特征，双分布特征输入到双特征关联挖掘模块中对三维目标的属性分别进行局部属性关注和全局属性学习得到属性关联注意特征，属性关联注意特征进行分类和回归得到三维物体，可以进一步保留点云数据的空间特征与图像数据的语义特征，并且在多种场景变化下达到稳定的鲁棒性效果，同时具有良好的模型泛化能力和优越的模型推理速度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及三维感知领域，特别是涉及一种双框架交互感知3d关联检测模型的构建方法及应用。

技术介绍

1、多模态三维感知是指利用多种传感器和信息源，如视觉、声音、激光雷达等，以获取环境的三维信息，并综合利用这些信息来全面地理解和感知周围环境。与单一信息源相比，多模态三维感知利用不同传感器间的互补性能够提供更丰富、更全面的信息，有助于应对复杂场景中的挑战。

2、现有的多模态三维感知方法主要有两种方式：transfusion和bevfusion。前者使用两个transformer解码层作为检测头，首先从激光雷达特征生成初始边界框，然后自适应地融合查询与空间上下文关联的图像特征，将交叉注意力的空间范围限制在初始边界框周围以使网络更好地访问相关位置。后者使用统一的bev特征表示，对雷达点云和图像分别独立处理，统一投射到bev空间上进行融合。

3、然而上述两种现有方法存在以下缺陷：

4、1）由于图像和点云模态数据的异质性，无论是在原始输入空间还是在特征空间，两者都存在明显的区别，上述两种方法并未充分捕捉图像模态的语义信息和点云模态的空间信息，以及缺乏交互的过程进一步增强双模态的表征能力。

5、2）再者，bev作为一种具有全局观察的俯视图表示，由于点云数据本身的稀疏性、空间离散性、不规则且无序等特点，导致存在明显的点分布不均匀的问题，尤其自动驾驶场景中普遍存在的遮挡问题，使遮挡目标的部分点缺少，这就使得将三维点云进行压缩投射到二维bev空间时严重加剧了点的分布不平衡现象，现有的方法并未考虑增强be

6、3）同时，三维物体相比二维物体，具有更多的特征表示形式，这些表示间存在相互影响的关系。现有方法并未充分挖掘这一潜在的多属性关联信息用于精细化对应的特征表示和属性回归任务。

技术实现思路

1、本申请实施例提供了一种双框架交互感知3d关联检测模型的构建方法及应用，设计了区域跨模态交互融合模块来保留点云数据和图像数据的双模态特征，进一步增强双模态特征的表示能力，设计了双分支分布感知模块来感知bev特征中点的密度分布，同时联合双分布感知表示学习得到双分布特征，设计了双特征关联挖掘模块来捕获三维目标属性间的上下文关联特征，进一步辅助精细化三维物体的回归任务。

2、第一方面，本申请实施例提供了一种双框架交互感知3d关联检测模型的构建方法，包括：

3、获取匹配的标记三维物体的点云数据和图像数据作为训练样本集；

4、将训练样本集输入到构建的双框架交互感知3d关联检测框架中训练直到满足迭代条件得到双框架交互感知3d关联检测模型，其中双框架交互感知3d检测框架包括特征提取网络、区域跨模态交互融合模块、双分支分布感知模块以及双特征关联挖掘模块，训练样本集中的点云数据和图像数据分别输入到特征提取网络中得到多尺度点云特征以及初始图像特征，多尺度点云特征和初始图像特征一并输入到区域跨模态交互融合模块中得到双模态特征，双模态特征输入到双分支分布感知模块中的内分布感知分支和外分布感知分支中分别得到内点感知分布特征和外点感知分布特征，将内点感知分布特征和外点感知分布特征同双模态特征进行融合得到双分布特征，双分布特征输入到双特征关联挖掘模块中对三维目标的属性分别进行局部属性关注和全局属性学习得到全局注意特征和局部注意特征，全局注意特征和局部注意特征融合得到属性关联注意特征，属性关联注意特征进行分类和回归得到三维物体；

5、其中多尺度点云特征进行通道融合得到体素增强模态特征，基于体素增强模态特征对初始图像特征进行语义信息特征增强得到图像增强特征，体素增强模态特征进行区域体素自注意力聚集得到体素集，体素集同图像增强特征使用跨模态注意力的交互融合方式融合得到双模态特征。

6、第二方面，本申请实施例提供了一种双框架交互感知3d关联检测方法，包括：

7、将点云数据和图像数据输入到所述的双框架交互感知3d关联检测模型的构建方法构建得到的双框架交互感知3d关联检测模型中输出三维物体。

8、第三方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述的双框架交互感知3d关联检测模型的构建方法。

9、第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据所述的双框架交互感知3d关联检测模型的构建方法。

10、本专利技术的主要贡献和创新点如下：

11、1）本专利技术提出了区域跨模态交互融合模态来增强双模态的表示能力以得到双模态特征，对区域内的非空体素voxel进行自注意力学习的聚集，基于双查询集融入对应点-模态的空间特征与图像模态的语义特征进行交互融合。具体的，为了保留点云数据的空间特征与图像特征，对voxelnet与resnet-50原始提取的多尺度点云特征与初始图像特征分别进行特征模态的增强：将多尺度点云特征进行空间通道的融合以融合浅层与深层的信息，将初始图像特征依据点-图像像素的对应关系进行转化以增强图像模态的语义信息。其次，为了解决由于三维空间中点普遍存在稀疏的特征的缺陷，本方案对多尺度点云特征进行进一步区域-感知的体素聚集：对于非空的体素，采用ball-query的方法聚集局部区域的点的特征，生成初始的体素voxel聚集特征，再基于注意力机制以及进一步增强点模态的空间信息特征，在对初始的体素聚集特征进行自注意力学习过程中初始化对应的体素空间位置特征，进而参与自注意力的学习增强，生成精细化的区域感知的体素聚集特征作为体素集，然后将生成的体素集与语义增强的图像增强特征进行交互融合，在双模态特征进行交互融合的过程中，为了进一步保留点云模态的深度信息，采用深度-感知的编码方式将三维空间体素的位置特征进行转化并融入双查询集camera-query与voxel-query进行交互融合，采用跨模态的注意力机制交互双查询集，生成精细化的图像查询集，接着将双模态的特征进行融合生成最终的具有双模态信息特征的双模态特征。

12、2）本方案设计了双分支分布感知模块来增强双模态特征的点-范围分布信息，联合双分布感知表示学习来模拟不同范围分布下点的分布密度，使双模态特征具有范围点-分布感知的信息。由于三维空间点的稀疏性以及远距离的点云分布稀疏或者由于部分遮挡导致点云的缺少，进而导致三维空间点在bev视角的投射存在分布不均匀的现象，而本方案构建的双分布分支感知模块为了使网络能够捕获这种点-分布信息以及增强bev特征的点-范围分布感知，通过联合双分布感知表示学习进一步增强bev特征的点-分布信息：首先，将原始的双模态特征经过两种不同的卷积流生成两种形式的特征，采用类似空间-通道的增强方式增强双模态特征中重要的特征，同时构建双分布感知的表示学习，一种是局部收缩的内点感知得到的内点感知分布表示，另一本文档来自技高网...

【技术保护点】

1.一种双框架交互感知3D关联检测模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的双框架交互感知3D关联检测模型的构建方法，其特征在于，特征提取网络包括用于提取点云数据的点云特征提取分支和用于提取图像数据的图像特征提取分支，将点云数据输入到点云特征提取分支中提取得到多尺度点云特征，将图像数据输入到图像特征提取分支中提取得到初始图像特征。

3.根据权利要求1所述的双框架交互感知3D关联检测模型的构建方法，其特征在于，在“多尺度点云特征进行通道融合得到体素增强模态特征，基于体素增强模态特征对初始图像特征进行语义信息特征增强得到图像增强特征”步骤中，输入到区域跨模态交互融合模块中的多尺度点云特征进行通道融合以融合浅层和深层的信息得到体素增强模态特征，并根据三维点-图像像素的对应关系将体素增强模态特征中三维空间的点投射到对应的初始图像特征的像素网格中生成注意力特征分布图，将初始图像特征同注意力特征分布图进行融合后并使用Softmax函数进行归一化得到图像增强特征。

4.根据权利要求1所述的双框架交互感知3D关联检测模型的构建方法，其特征在于

5.根据权利要求1所述的双框架交互感知3D关联检测模型的构建方法，其特征在于，在“体素集同图像增强特征使用跨模态注意力的交互融合方式融合得到双模态特征”步骤中，将体素集和图像增强特征作为双查询集，使用相机的内参三维空间转化矩阵将体素集的位置信息转换为深度感知的编码方式，使用Softmax与Linear函数计算体素集和图像增强特征的跨模态注意力的注意力权重与预测偏移，利用双查询集和深度编码参与计算的过程并利用注意力权重融合跨模态注意力更新图像增强特征的查询集得到双模态特征。

6.根据权利要求1所述的双框架交互感知3D关联检测模型的构建方法，其特征在于，在“双模态特征输入到双分支分布感知模块中的内分布感知分支和外分布感知分支中分别得到内点感知分布特征和外点感知分布特征”步骤中，

7.根据权利要求1所述的双框架交互感知3D关联检测模型的构建方法，其特征在于，双特征关联挖掘模块包括局部属性关注分支和全局属性学习分支，局部属性关注分支对输入的双分布特征中的三维物体的属性进行局部建模得到全局注意特征，全局属性学习分支对输入的双分布特征中的三维物体的属性进行全局建模得到局部注意特征，从局部注意特征和全局注意特征中挖掘属性关联注意特征，使用Softmax函数对属性关联注意特征进行归一化操作得到关联注意力特征图，将关联注意力特征图进行分类和回归得到三维物体，同时使用SmoothL1损失函数对挖掘的属性关联注意特征与真实标签的特征进行优化训练。

8.一种双框架交互感知3D关联检测方法，其特征在于，包括：

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1到7任一所述的双框架交互感知3D关联检测模型的构建方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1到7任一所述的双框架交互感知3D关联检测模型的构建方法。

...

【技术特征摘要】

1.一种双框架交互感知3d关联检测模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的双框架交互感知3d关联检测模型的构建方法，其特征在于，特征提取网络包括用于提取点云数据的点云特征提取分支和用于提取图像数据的图像特征提取分支，将点云数据输入到点云特征提取分支中提取得到多尺度点云特征，将图像数据输入到图像特征提取分支中提取得到初始图像特征。

3.根据权利要求1所述的双框架交互感知3d关联检测模型的构建方法，其特征在于，在“多尺度点云特征进行通道融合得到体素增强模态特征，基于体素增强模态特征对初始图像特征进行语义信息特征增强得到图像增强特征”步骤中，输入到区域跨模态交互融合模块中的多尺度点云特征进行通道融合以融合浅层和深层的信息得到体素增强模态特征，并根据三维点-图像像素的对应关系将体素增强模态特征中三维空间的点投射到对应的初始图像特征的像素网格中生成注意力特征分布图，将初始图像特征同注意力特征分布图进行融合后并使用softmax函数进行归一化得到图像增强特征。

4.根据权利要求1所述的双框架交互感知3d关联检测模型的构建方法，其特征在于，在“体素增强模态特征进行区域体素自注意力聚集得到体素集”步骤中，对于体素增强模态特征中的非空体素，采用ball-query的方法聚焦区域内点的特征和融入点的位置信息得到聚集的非空体素特征，利用区域感知自注意力对聚集的非空体素特征进行自学习增强得到体素集。

5.根据权利要求1所述的双框架交互感知3d关联检测模型的构建方法，其特征在于，在“体素集同图像增强特征使用跨模态注意力的交互融合方式融合得到双模态特征”步骤中，将体素集和图像增强特征作为双查询集，使用相机的内参三维空间转化矩阵将体素集的位置信息转换为...

【专利技术属性】
技术研发人员：余红旗，王煜，产思贤，孙晶晶，
申请(专利权)人：杭州像素元科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人