【技术实现步骤摘要】
一种基于深度区间估计的无监督单目深度估计方法
[0001]本专利技术涉及深度学习
技术介绍
[0002]场景的深度估计是计算机视觉中的经典问题,对很多问题有重要作用,包括三维场景的理解和重建。真实世界的稠密深度图能够帮助很多应用获得显著的进步,比如车辆的无人驾驶、无人机的自主避障、场景的感知、增强现实和图像的语义分割等。
[0003]传统的获取高精度的目标深度信息通常是采用深度传感器实现,包括激光雷达、基于结构光的深度传感器和立体相机等,然而通过这些设备获取的深度图成本较高,受环境变化影响较大,且多用于技术研发和测试阶段,尚未能大规模应用。相比之下,基于图像进行深度估计的方法成本低,并可以有效克服上述传感器的不足可应用的范围更广。
[0004]通过普通的二维图像恢复场景深度,立体视觉方法也是解决这一问题的常用手段之一。使用两个摄像头观测同一个场景获得两幅图像,利用三角测量法从两幅图像间的视差得到深度信息。毫无疑问,立体视觉方法需要至少两个相机,且它们的相对位置关系必须保持固定,这限制了其应用范围。对 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度区间估计的无监督单目深度估计方法,其特征在于,该方法为:构建深度估计模型,并对深度估计模型进行训练,训练好的深度估计模型对视频帧序列进行如下处理:步骤1:将视频帧序列中的第t帧图像帧作为当前帧I
t
,卷积神经网络提取当前帧的特征图像F;F的长度为H,宽度为W,通道数为C;步骤2:将F输入至Transform模块中,Embedding卷积层输出与F对应的空间张量,然后对该空间张量进行空间重构,得到一维向量x
p
;步骤3:随机产生一个与一维向量x
p
等长的向量,并将x
p
与该随机产生的向量相加,得到编码序列;步骤4:将编码序列馈入Transform模块中,Transform模块输出深度子区间分布b和范围注意力图P;步骤5:根据范围注意力图P和N维的深度子区间分布b计算得到当前帧的深度估计值2.根据权利要求1所述的一种基于深度区间估计的无监督单目深度估计方法,其特征在于,所述步骤5具体为:根据如下公式计算当前帧中第x个像素的深度估计值在于,所述步骤5具体为:根据如下公式计算当前帧中第x个像素的深度估计值其中,P[x]表示范围注意力图P的第x个向量,S(b
k
)表示深度子区间分布b的统计结果,表达式如下所述:其中,k=1,
…
,N,b
k
是N维向量形式的深度子区间b的第k维数值,d
min
表示预设的最小深度值,d
max
表示预设的最大深度值。3.根据权利要求2所述一种基于深度区间估计的无监督单目深度估计方法,其特征在于,在对深度估计模型进行训练时引用位姿估计网络以及编解码网络;所述位姿估计网络用于估计相邻两帧之间的位姿变化估计矩阵t
’
表示与当前帧相邻的帧;所述编解码网络用于构建移动物体遮罩模块Mask;具体构建移动物体遮罩模块Mask为:根据如下公式计算光测度误差信息结构体Cost
–
Volume:其中,C
t'
[x,d]表示在随机深度d下当前帧与重建帧之间第x个像素的光度误差;d的取值范围为[d
min
,d
max
]之间的所有整数深度值;将当前帧与根据每个相邻帧得到的重建帧之间所有像素的光度误差作为集合C
t
’
(d),将所有的光度误差集合C
t
’<...
【专利技术属性】
技术研发人员:唐晨啸,方效林,杨明,吴文甲,罗军舟,
申请(专利权)人:南京逸智网络空间技术创新研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。