基于多层级跨模态自注意力机制的三维目标检测方法技术

技术编号:33916754 阅读:113 留言:0更新日期:2022-06-25 20:22
本发明专利技术提供了一种基于多层级跨模态自注意力机制的三维目标检测方法。该方法包括利用RGB图像数据构建训练集与测试集;构建三维目标检测模型,该三维目标检测模型包含RGB主干网络、深度主干网络、分类器与回归器;利用训练集与测试集数据训练所述三维目标检测模型,并利用测试集验证训练效果,得到训练好的三维目标检测模型;利用训练得到的模型对RGB图像中的三维目标进行检测。本发明专利技术方法从深度特征图中获取全局场景范围内的深度结构信息,与外观信息有机结合以提升三维目标检测算法的准确性,从而有效地对二维RGB图像中的三维物体进行类别、位置、尺寸和姿态等信息的检测。尺寸和姿态等信息的检测。尺寸和姿态等信息的检测。

【技术实现步骤摘要】
基于多层级跨模态自注意力机制的三维目标检测方法


[0001]本专利技术涉及目标检测
,尤其涉及一种基于多层级跨模态自注意力机制的三维目标检测方法。

技术介绍

[0002]三维目标检测是计算机视觉领域中的一项重要分支,在智能交通、机器人视觉、三维重建、虚拟现实与增强现实等诸多场景有较强的应用价值。三维目标检测的目的是恢复三维空间中的物体的类别、位置、深度、尺寸和姿态等信息。根据处理数据类型的不同,三维目标检测技术主要分为基于二维图像检测与基于点云数据检测两类。
[0003]对三维物体进行成像过程,即是将三维空间中的点,在丢失深度信息之后映射至二维平面上的过程。而对三维空间中的物体进行检测,必然要用到丢失的深度信息,这也是三维目标检测与二维目标检测的主要区别之一,也是三维目标检测的难点所在。基于二维图像的三维目标检测方法可直接从二维图像中获取深度信息,进而检测三维目标。其深度信息的获取主要依赖三维场景中的几何约束,三维物体的形状约束与语意约束等诸多约束条件。由于二维图像中所包含的深度信息有限,且约束条件受场景与物体限制较大,因此该类三维目标检测方法所能达到的精度较低。
[0004]点云是与二维图像中的像素点相对应的三维空间中点的集合,基于点云数据的三维目标检测可通过对点云数据进行处理以获取深度信息,其可进一步分为两类。首先是直接对三维空间中的点云数据进行处理,通过将二维目标检测方法中对像素点的操作升至三维,进而实现对点云的直接处理。由于运算维度的增加,因此该类方法计算复杂度较高,同时点云中的噪声数据也会直接影响该类算法的检测精度。另外一种方法首先通过点云数据训练得到深度预测模型,并通过该模型获取二维深度图像,然后通过二维深度图像获取深度信息用以三维目标检测。该类算法不需要直接对点云数据进行运算,而是将点云数据降维至二维深度图,降低了运算复杂度,同时深度预测模型可祛除部分点云噪声数据,因此在实际应用中使用较为广泛。
[0005]现有技术中的一种三维目标检测方法包括:在得到二维深度图之后,由于通过点云数据训练得到的深度预测模型已具备了获取深度信息的能力,该方法在深度预测模型的基础上进一步通过二维RGB图像训练三维目标检测模型。该方法的缺点为:对于三维目标检测任务,从二维图像或视频帧中获取目标的类别与位置信息,直接对三维点云数据进行处理并无必要,且点云数据通常包含大量噪声。
[0006]现有技术中的另一种三维目标检测方法包括:该方法将二维深度图像作为独立的模型输入,通过额外的模型从深度图像中获取深度信息,并与二维RGB(红、绿、蓝)图像输入相结合进行三维目标检测。该方法的缺点为:能够从二维图像中获取得到的深度信息十分有限,且深度信息的获取过程无法避免的用到几何约束,因此这类算法的检测精度较差。

技术实现思路

[0007]本专利技术的实施例提供了一种基于多层级跨模态自注意力机制的三维目标检测方法,以实现有效地对二维RGB图像中的三维物体进行类别、位置和姿态目标检测。
[0008]为了实现上述目的,本专利技术采取了如下技术方案。
[0009]一种基于多层级跨模态自注意力机制的三维目标检测方法,包括:
[0010]利用RGB图像数据构建训练集与测试集数据;
[0011]构建三维目标检测模型,该三维目标检测模型包含RGB主干网络、深度主干网络、分类器与回归器;
[0012]利用所述训练集与测试集数据训练所述三维目标检测模型,并利用所述测试集验证所述三维目标检测模型的训练效果,所述RGB主干网络、深度主干网络分别获取RGB特征与深度特征,将所述RGB特征与深度特征输入跨模态自注意力学习模块,对RGB特征进行更新,利用更新之后的RGB特征学习分类器与回归器,得到训练好的三维目标检测模型;
[0013]利用所述训练好的三维目标检测模型中的分类器和回归器对待识别的二维RGB图像中的三维物体进行类别、位置和姿态检测。
[0014]优选地,所述的利用RGB图像数据构建训练集与测试集数据,包括:
[0015]采集RGB图像,将RGB图像按照约1:1的比例分成训练集与测试集,对训练集与测试集中的图像数据进行归一化处理,通过深度估计算法获取训练集图像的二维深度图像,标注训练集图像中的物体的类别,对图像的二维检测框的坐标,以及三维检测框的中心位置、尺寸与转角进行标注。
[0016]优选地,所述三维目标检测模型中的RGB主干网络、深度主干网络、分类器与回归器均包含卷积层、全连接层与归一化层,RGB主干网络、深度主干网络的结构一致,均包含4个卷积模块。
[0017]优选地,所述的利用所述训练集与测试集数据训练所述三维目标检测模型,所述RGB主干网络、深度主干网络分别获取RGB特征与深度特征,将所述RGB特征与深度特征输入跨模态自注意力学习模块,对RGB特征进行更新,利用更新之后的RGB特征学习分类器与回归器,得到训练好的三维目标检测模型,包括:
[0018]步骤S3

1:初始化所述三维目标检测模型中的RGB主干网络、深度主干网络、分类器与回归器所包含的卷积层、全连接层与归一化层中的参数;
[0019]步骤S3

2:设置随机梯度下降算法的相关训练参数,该相关训练参数包括学习率、冲量、批量大小与迭代次数;
[0020]步骤S3

3:对于任一迭代批次,分别将全部RGB图与深度图输入至RGB主干网络与深度主干网络,得到多层级的RGB特征与深度特征,构建跨模态自注意力学习模块,将所述RGB特征与深度特征输入到跨模态自注意力学习模块,学习得到基于深度信息的自注意力矩阵,通过所述自注意力矩阵对RGB特征进行更新,利用更新之后的RGB特征学习分类器与回归器,将分类器与回归器用于二维RGB图像中的三维物体的目标检测,
[0021]通过计算网络估计值与实际标注值的误差得到目标函数值,利用公式(1)、(2)和(3)分别计算三种目标函数值:
[0022][0023][0024][0025]其中公式(1)中的s
i
与p
i
分别为第i个目标的类别标注与估计概率,公式(2)中的与公式(3)中的分别代表第i个目标的二维估计框与三维估计框,gt表示实际标注值,N表示目标总数;
[0026]步骤S3

4:将所述三种目标函数值相加得到总目标函数值,并分别对三维目标检测模型中的所有参数求偏导数,通过随机梯度下降法对参数进行更新;
[0027]步骤S3

5:重复进行步骤S3

3与步骤3

4,不断更新三维目标检测模型的参数,直至收敛,输出训练好的三维目标检测模型的参数。
[0028]优选地,所述的将所述RGB特征与深度特征输入跨模态自注意力学习模块,对RGB特征进行更新,利用更新之后的RGB特征学习分类器与回归器,得到训练好的三维目标检测模型,包括:
[0029]对于任本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多层级跨模态自注意力机制的三维目标检测方法,其特征在于,包括:利用RGB图像数据构建训练集与测试集数据;构建三维目标检测模型,该三维目标检测模型包含RGB主干网络、深度主干网络、分类器与回归器;利用所述训练集与测试集数据训练所述三维目标检测模型,并利用所述测试集验证所述三维目标检测模型的训练效果,所述RGB主干网络、深度主干网络分别获取RGB特征与深度特征,将所述RGB特征与深度特征输入跨模态自注意力学习模块,对RGB特征进行更新,利用更新之后的RGB特征学习分类器与回归器,得到训练好的三维目标检测模型;利用所述训练好的三维目标检测模型中的分类器和回归器对待识别的二维RGB图像中的三维物体进行类别、位置和姿态检测。2.根据权利要求1所述的方法,其特征在于,所述的利用RGB图像数据构建训练集与测试集数据,包括:采集RGB图像,将RGB图像按照约1:1的比例分成训练集与测试集,对训练集与测试集中的图像数据进行归一化处理,通过深度估计算法获取训练集图像的二维深度图像,标注训练集图像中的物体的类别,对图像的二维检测框的坐标,以及三维检测框的中心位置、尺寸与转角进行标注。3.根据权利要求2所述的方法,其特征在于,所述三维目标检测模型中的RGB主干网络、深度主干网络、分类器与回归器均包含卷积层、全连接层与归一化层,RGB主干网络、深度主干网络的结构一致,均包含4个卷积模块。4.根据权利要求2和3所述的方法,其特征在于,所述的利用所述训练集与测试集数据训练所述三维目标检测模型,所述RGB主干网络、深度主干网络分别获取RGB特征与深度特征,将所述RGB特征与深度特征输入跨模态自注意力学习模块,对RGB特征进行更新,利用更新之后的RGB特征学习分类器与回归器,得到训练好的三维目标检测模型,包括:步骤S3

1:初始化所述三维目标检测模型中的RGB主干网络、深度主干网络、分类器与回归器所包含的卷积层、全连接层与归一化层中的参数;步骤S3

2:设置随机梯度下降算法的相关训练参数,该相关训练参数包括学习率、冲量、批量大小与迭代次数;步骤S3

3:对于任一迭代批次,分别将全部RGB图与深度图输入至RGB主干网络与深度主干网络,得到多层级的RGB特征与深度特征,构建跨模态自注意力学习模块,将所述RGB特征与深度特征输入到跨模态自注意力学习模块,学习得到基于深度信息的自注意力矩阵,通过所述自注意力矩阵对RGB特征进行更新,利用更新之后的RGB特征学习分类器与回归器,将分类器与回归器用于二维RGB图像中的三维物体的目标检测,通过计算网络估计值与实际标注值的误差得到目标函数值,利用公式(1)、(2)和(3)分别计算三种目标函数值:别计算三种目标函数值:
其中公式(1)中的s
i
与p
i
分别为第i个目标的类别标注与估...

【专利技术属性】
技术研发人员:曹原周汉李浥东张慧郎丛妍陈乃月
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1