【技术实现步骤摘要】
基于多层级跨模态自注意力机制的三维目标检测方法
[0001]本专利技术涉及目标检测
,尤其涉及一种基于多层级跨模态自注意力机制的三维目标检测方法。
技术介绍
[0002]三维目标检测是计算机视觉领域中的一项重要分支,在智能交通、机器人视觉、三维重建、虚拟现实与增强现实等诸多场景有较强的应用价值。三维目标检测的目的是恢复三维空间中的物体的类别、位置、深度、尺寸和姿态等信息。根据处理数据类型的不同,三维目标检测技术主要分为基于二维图像检测与基于点云数据检测两类。
[0003]对三维物体进行成像过程,即是将三维空间中的点,在丢失深度信息之后映射至二维平面上的过程。而对三维空间中的物体进行检测,必然要用到丢失的深度信息,这也是三维目标检测与二维目标检测的主要区别之一,也是三维目标检测的难点所在。基于二维图像的三维目标检测方法可直接从二维图像中获取深度信息,进而检测三维目标。其深度信息的获取主要依赖三维场景中的几何约束,三维物体的形状约束与语意约束等诸多约束条件。由于二维图像中所包含的深度信息有限,且约束条件受场景与物体限制较大,因此该类三维目标检测方法所能达到的精度较低。
[0004]点云是与二维图像中的像素点相对应的三维空间中点的集合,基于点云数据的三维目标检测可通过对点云数据进行处理以获取深度信息,其可进一步分为两类。首先是直接对三维空间中的点云数据进行处理,通过将二维目标检测方法中对像素点的操作升至三维,进而实现对点云的直接处理。由于运算维度的增加,因此该类方法计算复杂度较高,同时点云中的噪声数据 ...
【技术保护点】
【技术特征摘要】
1.一种基于多层级跨模态自注意力机制的三维目标检测方法,其特征在于,包括:利用RGB图像数据构建训练集与测试集数据;构建三维目标检测模型,该三维目标检测模型包含RGB主干网络、深度主干网络、分类器与回归器;利用所述训练集与测试集数据训练所述三维目标检测模型,并利用所述测试集验证所述三维目标检测模型的训练效果,所述RGB主干网络、深度主干网络分别获取RGB特征与深度特征,将所述RGB特征与深度特征输入跨模态自注意力学习模块,对RGB特征进行更新,利用更新之后的RGB特征学习分类器与回归器,得到训练好的三维目标检测模型;利用所述训练好的三维目标检测模型中的分类器和回归器对待识别的二维RGB图像中的三维物体进行类别、位置和姿态检测。2.根据权利要求1所述的方法,其特征在于,所述的利用RGB图像数据构建训练集与测试集数据,包括:采集RGB图像,将RGB图像按照约1:1的比例分成训练集与测试集,对训练集与测试集中的图像数据进行归一化处理,通过深度估计算法获取训练集图像的二维深度图像,标注训练集图像中的物体的类别,对图像的二维检测框的坐标,以及三维检测框的中心位置、尺寸与转角进行标注。3.根据权利要求2所述的方法,其特征在于,所述三维目标检测模型中的RGB主干网络、深度主干网络、分类器与回归器均包含卷积层、全连接层与归一化层,RGB主干网络、深度主干网络的结构一致,均包含4个卷积模块。4.根据权利要求2和3所述的方法,其特征在于,所述的利用所述训练集与测试集数据训练所述三维目标检测模型,所述RGB主干网络、深度主干网络分别获取RGB特征与深度特征,将所述RGB特征与深度特征输入跨模态自注意力学习模块,对RGB特征进行更新,利用更新之后的RGB特征学习分类器与回归器,得到训练好的三维目标检测模型,包括:步骤S3
‑
1:初始化所述三维目标检测模型中的RGB主干网络、深度主干网络、分类器与回归器所包含的卷积层、全连接层与归一化层中的参数;步骤S3
‑
2:设置随机梯度下降算法的相关训练参数,该相关训练参数包括学习率、冲量、批量大小与迭代次数;步骤S3
‑
3:对于任一迭代批次,分别将全部RGB图与深度图输入至RGB主干网络与深度主干网络,得到多层级的RGB特征与深度特征,构建跨模态自注意力学习模块,将所述RGB特征与深度特征输入到跨模态自注意力学习模块,学习得到基于深度信息的自注意力矩阵,通过所述自注意力矩阵对RGB特征进行更新,利用更新之后的RGB特征学习分类器与回归器,将分类器与回归器用于二维RGB图像中的三维物体的目标检测,通过计算网络估计值与实际标注值的误差得到目标函数值,利用公式(1)、(2)和(3)分别计算三种目标函数值:别计算三种目标函数值:
其中公式(1)中的s
i
与p
i
分别为第i个目标的类别标注与估...
【专利技术属性】
技术研发人员:曹原周汉,李浥东,张慧,郎丛妍,陈乃月,
申请(专利权)人:北京交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。