一种基于深度学习的3d目标检测办法制造技术

技术编号:36158140 阅读:8 留言:0更新日期:2022-12-31 20:05
本发明专利技术公开了一种基于深度学习的3d目标检测办法,对加载的训练样本图像进行预处理,计算目标的3d中心点,3d中心点在图像上的投影点,八个角点位置,目标中心点的高斯分布;构建深度学习卷积神经网络,包括主干网络和两个分支网络;加载数据集作为训练集,数据经过前向传播得到深度学习卷积神经网络的输出,计算损失度,反向传播,更新网络参数,得到训练好的神经网络模型;使用阶段,接收测试集图像数据,将图像送入预训练好的神经网络模型,得到输出相应的目标,计算每一个目标的3d位置及类别。本发明专利技术的3d目标的检测方法,用于自动驾驶中可以提高车辆对环境的感知能力。提高车辆对环境的感知能力。提高车辆对环境的感知能力。

【技术实现步骤摘要】
一种基于深度学习的3d目标检测办法


[0001]本专利技术属于计算机视觉领域,尤其涉及一种基于深度学习的3d目标检测办法。

技术介绍

[0002]环境感知是自动驾驶中的重要任务,准确的感知直接影响到车辆的规划和控制,在环境感知中有基于激光雷达,单目摄像头,多目摄像头;摄像头由于成本低廉,成像稳定被大量使用。但是图像有其先天缺陷,缺乏目标的距离信息。近年来,2d检测技术不断完善成熟,为3d检测提供了有效的参考。
[0003]因此,本专利技术提出一种基于深度学习的3d目标检测办法。

技术实现思路

[0004]为解决现有技术中存在的不足,本专利技术的目的在于,提供一种基于深度学习的3d目标检测办法。
[0005]为实现本专利技术的目的,本专利技术所采用的技术方案是:
[0006]一种基于深度学习的3d目标检测办法,包括步骤:
[0007](1)加载kitti数据集作为训练样本图像,对加载的训练样本图像进行预处理,计算目标的3d中心点,3d中心点在图像上的投影点,八个角点位置,目标中心点的高斯分布;
[0008](2)构建深度学习卷积神经网络,包括主干网络和两个分支网络;
[0009](3)加载数据集作为训练集,数据经过前向传播得到深度学习卷积神经网络的输出,计算损失度,反向传播,更新网络参数,得到训练好的神经网络模型;
[0010](4)使用阶段,接收测试集图像数据,将图像送入预训练好的神经网络模型,得到输出相应的目标,计算每一个目标的3d位置及类别。
[0011]进一步地,步骤(1)中,训练样本图像中的目标对象均已进行标注,kitti数据集的标签文件包含目标对象的标注信息有:目标维度长宽高l,w,h,目标在地面中心点的坐标x,y,z,偏转角yaw,相机的内参矩阵K。
[0012]进一步地,步骤(1)中,目标中心点的高斯分布:
[0013]设置一个iou阈值,假设一个目标在图像上的尺寸为(h,w),求使得预测框和真实框的iou值大于thre_iou的圆圈的半径,记为r;根据r计算得出目标中心点的高斯分布,表达这个位置有目标的概率;
[0014]设目标的中心为A,点B在水平方向距离A的距离为x,在垂直方向距离A的距离为y,则可以用表示点B是目标中心的概率,其中,θ=r/3,x,y的范围为(

r,r)。
[0015]进一步地,步骤(2)中,主干网络采用多个残差结构,残差块内部的结构为1*1卷积层,批量归一化层,激活函数层,3*3卷积层,批量归一化层,激活函数层,1*1卷积层,批量归一化层,激活函数层;输入经过前八层后得到输出,与输入相加,再经过激活函数层得到输出;
[0016]残差块之间的连接关系为上一个残差块的输出为下一个残差块的输入,上一个残
差块得到的特征图输入到当前残差块,经过卷积后得到新的特征图,和输入的特征图相加完成特征的融合,输入到下一个残差块,以此类推。
[0017]进一步地,步骤(2)中,包括分类分支和回归分支;
[0018]分类分支,结构为3*3卷积层,批量归一化层,激活层,1*1卷积层,其输出为概率矩阵,通道数量为待识别的类别数量,矩阵内的值为该位置出现目标的概率;
[0019]回归分支,结构为3*3卷积层,批量归一化层,激活层,1*1卷积层,其输出为七个,分别为距离偏移z
o
,目标中心在图像投影点的偏移x
o
,y
o
,目标的三围尺寸的偏移h
o
,w
o
,l
o
,以及偏转角yaw的偏移yaw
o

[0020]进一步地,步骤(3)中,损失度计算为,l=αl
c
+βl
r
,其中,α=1,β=1,分类分支损失度l
c
,回归分支损失度l
r

[0021]分类分支损失度l
c
=l1+l2/n,其中,对特征值的真值为1的位置,损失度l1=

log
p*
*(1

p)
a
,对特征值的真值不为1的位置,损失度l2=w*

log1‑
p
*(p)
a
,其中,p为预测值,a=2,权重w=(1

p
t
)
b
,b=4,p
t
为真值,n为真值为1的特征值个数;
[0022]回归分支损失度l
r
,使用损失函数L1 loss,l
r
=loss(z,z
gt
)+loss(h,w,l,h
gt,
w
gt
,l
gt
)+loss(corner,corner
gt
);其中,预测目标距离z=z
scale
*z
o
+z
init
,其中,z
scale
,z
init
为预先定义的尺度变化和偏移参数,距离偏移z
o
,z
gt
为相机坐标系下的目标3d框的底面中心坐标;预测目标的三围尺寸其中,h,w,l由训练数据集中相应类别目标的尺寸求平均得到;根据距离偏移z
o
和目标中心点在特征图上投影点的偏移x
o
,y
o
以及相机的内参矩阵K,计算目标中心点在相机坐标系下的坐标x,y,z;其中,h
gt
,w
gt
,l
gt
是目标的真实的长宽高;计算偏移角yaw=yaw
gt
+yaw
o
,其中,yaw
gt
为训练集中相应目标的平均偏移角,从而计算八个角点位置corner;corner
gt
为目标的真实的八个角点的位置。
[0023]进一步地,步骤(4)中,具体计算过程为,
[0024]对分类分支的输出,取特征值按从大到小排序的前k个值,且特征值大于某个阈值,记录下特征值在特征图中的位置及相应类别;对回归分支,根据分类分支得到的特征值的位置,取得回归分支输出的特征图在相应位置的通道维度的特征值,分别为z
o
,h
o
,w
o
,l
o
,x
o
,y
o
,yaw
o

[0025]首先根据3d中心点在特征图像上的投影点的位置x
o
,y
o
以及主干网络的下采样倍率,还原得到其在原始图像上的位置u,v;根据距离偏移z
o
得到预测目标距离z,进而根据u,v,z以及相机的内参矩阵K,计算得到目标中心点在相机坐标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的3d目标检测办法,其特征在于,包括步骤:(1)加载kitti数据集作为训练样本图像,对加载的训练样本图像进行预处理,计算目标的3d中心点,3d中心点在图像上的投影点,八个角点位置,目标中心点的高斯分布;(2)构建深度学习卷积神经网络,包括主干网络和两个分支网络;(3)加载数据集作为训练集,数据经过前向传播得到深度学习卷积神经网络的输出,计算损失度,反向传播,更新网络参数,得到训练好的神经网络模型;(4)使用阶段,接收测试集图像数据,将图像送入预训练好的神经网络模型,得到输出相应的目标,计算每一个目标的3d位置及类别。2.根据权利要求1所述的基于深度学习的3d目标检测办法,其特征在于,步骤(1)中,训练样本图像中的目标对象均己进行标注,kitti数据集的标签文件包含目标对象的标注信息有:目标维度长宽高l,w,h,目标在地面中心点的坐标x,y,z,偏转角yaw,相机的内参矩阵K。3.根据权利要求2所述的基于深度学习的3d目标检测办法,其特征在于,步骤(1)中,目标中心点的高斯分布:设置一个iou阈值,假设一个目标在图像上的尺寸为(h,w),求使得预测框和真实框的iou值大于thre_iou的圆圈的半径,记为r;根据r计算得出目标中心点的高斯分布,表达这个位置有目标的概率;设目标的中心为A,点B在水平方向距离A的距离为x,在垂直方向距离A的距离为y,则可以用表示点B是目标中心的概率,其中,θ=r/3,x,y的范围为(

r,r)。4.根据权利要求1所述的基于深度学习的3d目标检测办法,其特征在于,步骤(2)中,主干网络采用多个残差结构,残差块内部的结构为1*1卷积层,批量归一化层,激活函数层,3*3卷积层,批量归一化层,激活函数层,1*1卷积层,批量归一化层,激活函数层;输入经过前八层后得到输出,与输入相加,再经过激活函数层得到输出;残差块之间的连接关系为上一个残差块的输出为下一个残差块的输入,上一个残差块得到的特征图输入到当前残差块,经过卷积后得到新的特征图,和输入的特征图相加完成特征的融合,输入到下一个残差块,以此类推。5.根据权利要求1所述的基于深度学习的3d目标检测办法,其特征在于,步骤(2)中,包括分类分支和回归分支;分类分支,结构为3*3卷积层,批量归一化层,激活层,1*1卷积层,其输出为概率矩阵,通道数量为待识别的类别数量,矩阵内的值为该位置出现目标的概率;回归分支,结构为3*3卷积层,批量归一化层,激活层,1*1卷积层,其输出为七个,分别为距离偏移z
o
,目标中心在图像投影点的偏移x
o
,y
o
,目标的三围尺寸的偏移h
o
,w
o
,l
o
,以及偏转角yaw的偏移yaw
o
。6.根据权利要求5所述的基于深度学习的3d目标检测办法,其特征在于,步骤(3)中,损失度计算为,l=αl
c
+βl
r
,其中,α=1,β=1,分类分支损失度l
c
,回归分支损失度l
r
;分类分支损失度l
c
=l1+l2/n,其中,对特征值的真值为1的位置,损失度l1=

log
p
**(1

【专利技术属性】
技术研发人员:苏畅陈诚张旸
申请(专利权)人:奥特酷智能科技南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1