【技术实现步骤摘要】
基于自适应深度修正的纯视觉三维目标检测方法和系统
[0001]本专利技术属于计算机视觉和自动驾驶
,更具体地,涉及一种基于自适应深度修正的纯视觉三维目标检测方法和系统。
技术介绍
[0002]三维目标检测在自动驾驶感知层上的具体实现主要分为单模态和多模态。单模态指只利用相机或者激光雷达的数据进行检测,虽然单一数据可以使模型建模简单,但是两种单模态的感知算法都存在一定的固有缺陷。目前基于激光点云和基于多模态融合的三维目标检测算法经过不断地发展,已经达到了很高的准确度,而基于纯视觉的方法的效果与前者的对比依然存在比较大的差距,但是由于很多现实原因寻找能够替代激光雷达进行准确的三维目标检测的方法依然是非常必要的。第一,目前激光雷达的造价非常昂贵,市面上供汽车使用的激光雷达传感器基本都在万元以上,无论是对车企的成本,还是用户后期的维修代价都非常大,这必然会影响自动驾驶技术在现实生活中的普及;第二,激光雷达一般要放置在车身顶部,这也会影响自动驾驶车辆本身设计的美观性,从而影响其销量。而对于相机来说,目前供汽车使用的相机传感器只需 ...
【技术保护点】
【技术特征摘要】
1.一种基于自适应深度修正的纯视觉三维目标检测方法,其特征在于,包括以下步骤:(1)获取图像并将该图像输入训练好的深度预测模型DORN中,以实时生成深度图其中图像的大小为深度图的大小为(2)利用双线性差值方法对步骤(1)得到的深度图进行4倍的下采样处理,以得到下采样后的深度图大小为W
×
H,其中H,其中(3)将步骤(2)得到的下采样后的深度图和步骤(1)获取的图像一起输入预先训练好的三维目标检测模型中,以得到最终的三维目标检测结果。2.根据权利要求1所述的基于自适应深度修正的纯视觉三维目标检测方法,其特征在于,三维目标检测模型包括依次相连的图像特征编码网络、自适应深度修正网络、自适应视角转换网络、以及鸟瞰特征解码网络四个部分。3.根据权利要求1或2所述的基于自适应深度修正的纯视觉三维目标检测方法,其特征在于,对于图像特征编码网络而言,其具体结构为:第一层是特征抽取层,其从骨干网络提取下采样4倍的图像特征;具体而言,是从ResNet
‑
101的block1阶段获取下采样四倍的图像特征大小为W
×
H
×
C,其中(W,H)代表图像特征的分辨率,C代表通道数。第二层为采样层,对第一层中得到的下采样4倍的图像特征进行1
×
1的卷积操作,使该图像特征的通道维度从C=256降到C=64,从而得到最终的图像特征F,其大小也为W
×
H
×
C。4.根据权利要求1至3中任意一项所述的基于自适应深度修正的纯视觉三维目标检测方法,其特征在于,自适应深度修正网络的具体结构为:第一层是Sigmoid层,其输入为深度图,利用Sigmoid函数对深度图进行归一化,以得到归一化后的深度图,大小为W
×
H。第二层是BroadcastAdd层,其输入是第一层得到的大小为W
×
H的归一化后的深度图和大小为W
×
H
×
C的图像特征F,对深度图和图像特征F进行广播式相加,以得到初步的深度融合特征,大小为W
×
H
×
C。第三层为卷积层,其对第二层得到的初步的融合特征进行3
×
3的卷积操作,之后接上BatchNorm层进行归一化,然后再经过ReLU激活函数,得到图像与深度图最终的融合特征,大小为W
×
H
×
C。第四层为深度偏差感知层,其利用1
×
1的卷积操作对第三层得到的融合特征进行卷积,以得到大小为W
×
H的深度偏差∈。第五层为深度偏差修正层,其将步骤(2)得到的深度图与第四层得到的深度偏差∈进行逐像素相加,得到修正后的深度图,大小为W
×
H。5.根据权利要求4所述的基于自适应深度修正的纯视觉三维目标检测方法,其特征在于,自适应视角转换网络的具体结构为:第一层为深度分布参数图生成网络,其输入是自适应深度修正网络中第三层得到的融合特征,大小为W
×
H
×
C,利用1
×
1的卷积操作对其进行卷积,得到大小为W
×
H深度分布参
数图,深度分布参数图中的每一个像素值代表这个像素对应的高斯分布标准差;第二层为高斯深度分布生成网络,输入是自适应深度修正网络中的第五层得到的修正后的深度图,以及第一层得到的大小为W
×
H的深度分布参数图,输出是W
×
H
×
D的高斯深度分布。第三层为特征视角转换层,输入是大小为W
×
H
×
C的图像特征和第二层得到的大小为W
×
H
×
D的高斯深度分布,经过相机转换矩阵与求和池化操作得到鸟瞰特征,大小为X
×
Y
×
C,通道数C=256。6.根据权利要求5所述的基于自适应深度修正的纯视觉三维目标检测方法,其特征在于,鸟瞰特征解码网络的具体结构为:第一层为鸟瞰特征抽取网络,输入是大小为X
×
Y
×
C的图像特征,经过三层卷积进行特征抽取得到最终的鸟瞰特征,形状为X
×
Y
×
C。第二层为检测网络,输入是第一层得到的鸟瞰特征,形状为Y
×
Y
×
C,将鸟瞰特征输入PointPillar的检测头,输出最终的三维目标的类别、长、宽、高、旋转角等结果。7.根据权利要求6所述的基于自适应深度修正的纯视觉三维目标检测方法,其特征在于,三维目标检测模型是通过以下步骤训练得到的:(3
‑
1)获取图像将图像输入训练好的深度预测模型,以得到该图像对应的深度图并对该深度图进行下采样,以得到下采样后的深度图(3
‑
2)将步骤(3
‑
1)得到的图像输入图像特征编码网络的第一层,提取抽象的图像特征大小为W
×
H
×
C,(W
×
H)代表图像特征的分辨率,C代表通道数;(3
‑
3)将步骤(3
‑
2)得到的图像特征输入到图像特征编码网络的第二层中对其进行维度缩减,通道维度从C=256降到C=64,以得到最终的图像特征F,大小为W
×
H
×
C。(3
‑
4)将步骤(3
‑
1)得到的深度图D输入到自适应深度修正网络的第一层Sigmoid层进行归一化,并后将归一化后的深度图与步骤(3
‑
3)中得到的图像特征F的每个通道进行逐像素的相加,以得到初步的深度图与图像的融合特征F
init
。(3
‑
5)将步骤(3
‑
4)得到初步的融合特征F
init
输入到自适应深度修正网络的第三层进行3
×
3的卷积操作,之后接上BatchNorm层进行归一化,然后再经过ReLU激活函数,得到最终的图像与深度图的融合特征F
fus
,大小为W
×
H
×
C。(3
‑
6)将步骤(3
‑...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。