自监督深度网络的训练方法、图像深度的获取方法和装置制造方法及图纸

技术编号:31760340 阅读:27 留言:0更新日期:2022-01-05 16:44
本发明专利技术提供一种自监督深度网络的训练方法、图像深度的获取方法和装置,在基于自监督的深度网络的训练过程中,引入了深度特征对齐损失和体素密度对齐损失,深度特征对齐损失能够提高光照变化区域、反射表面和无纹理区域等场景下网络模型的光度一致性的鲁棒性,体素密度对齐损失能够提高移动物体场景下网络模型的光度一致性的鲁棒性,并通过光度一致性损失、时空一致性损失、平滑损失、深度特征对齐损失和体素密度对齐损失确定总损失,使用该总损失作为网络训练的监督信号,从而能够更加鲁棒地约束跨图一致性,学习到更鲁棒的深度网络。学习到更鲁棒的深度网络。学习到更鲁棒的深度网络。

【技术实现步骤摘要】
自监督深度网络的训练方法、图像深度的获取方法和装置


[0001]本专利技术涉及图像处理
,尤其涉及一种自监督深度网络的训练方法、图像深度的获取方法和装置。

技术介绍

[0002]图像的深度估计能够通过二维图像获取到三维图像,目前广泛应用在自动驾驶、机器人视觉、无人机、三维场景重建、虚拟现实(Virtual Reality,简称VR)或者增强现实(Augmented Reality,简称AR)等应用场景中。
[0003]单目图像深度估计是指从单目相机捕捉的二维图像中获取每个像素的深度信息,为了提高深度估计的准确性,可以通过单目相机捕捉的多张连续图像联合进行深度估计。目前单目图像深度估计主要采用有监督和自监督(也称为无监督)两种方法,二者的区别在于网络训练采用的图像是否需要进行深度标记,采用有监督方法训练网络时图像需要进行深度标记,采用自监督方法训练网络时图像不需要进行深度标记。现有的自监督学习方法通过利用连续帧之间的跨视图一致性预测图像深度,通常由两个网络分别预测深度(depth)和相机姿态(pose),然后共同利用它们将源帧(source frame)扭曲为参考帧(reference frame),从而将深度估计问题转换为光度误差最小化过程。
[0004]基于自监督的图像深度估计已经证明了连续帧之间光度一致性损失的有效性,一方面光度一致性很容易受到光照变化、反射表面和无纹理区域的破坏,另一方面,自然场景中总会有一些移动物体从而产生遮挡区域,也影响了光度一致性的成功,从而导致基于光度一致性损失进行的图像深度估计方法的鲁棒性低。

技术实现思路

[0005]本专利技术提供一种自监督深度网络的训练方法、图像深度的获取方法和装置,提高了基于光度一致性损失进行的图像深度估计方法的鲁棒性。
[0006]第一方面,本专利技术提供一种自监督深度网络的训练方法,包括:
[0007]将训练图像对输入到位姿网络中,得到所述训练图像对的位姿偏移,所述训练图像对包括图像t和图像t+m;
[0008]将所述训练图像对输入到偏移网络中,得到所述训练图像对的特征对齐偏移和所述图像t+m的对齐特征;
[0009]将所述训练图像对输入到深度网络中,得到所述图像t的深度图和所述图像t+m的深度图;
[0010]获取所述图像t和所述图像t+m的光度一致性损失、时空一致性损失和平滑损失;
[0011]根据所述图像t+m的对齐特征重建所述图像t对应的重建图像,计算所述重建图像和所述图像t的重建损失;
[0012]根据所述训练图像对的特征对齐偏移和所述图像t+m的深度特征,计算得到所述图像t+m的对齐深度特征,根据图像t+m的对齐深度特征和所述图像t的深度特征,计算得到
深度特征损失;
[0013]将所述深度特征损失和所述重建损失之和确定为深度特征对齐损失;
[0014]计算所述图像t和所述图像t+m的体素密度对齐损失;
[0015]根据所述光度一致性损失、所述时空一致性损失、所述平滑损失、所述深度特征对齐损失和所述体素密度对齐损失确定总损失;
[0016]对所述总损失进行优化得到所述位姿网络、偏移网络和所述深度网络的参数。
[0017]可选的,所述计算所述图像t和所述图像t+m的体素密度对齐损失,包括:
[0018]根据所述图像t+m的深度图得到所述图像t+m对应的点云,根据所述图像t的深度图得到所述图像t对应的点云;
[0019]根据所述图像t+m对应的点云以及所述位姿偏移,得到所述图像t+m转换后的点云;
[0020]根据所述图像t对应的点云计算得到所述图像t的体素密度,根据所述图像t+m转换后的点云计算得到所述图像t+m的转换体素密度;
[0021]根据所述图像t的体素密度和所述图像t+m的转换体素密度计算体素密度对齐损失,所述体素密度对齐损失要求所述图像t和所述图像t+m中相同位置处的体素中的三维点的数量相同。
[0022]第二方面,本专利技术提供一种图像深度的获取方法,包括:
[0023]将待确定图像输入至深度网络中,得到所述待确定图像的深度数据,所述深度网络是通过本专利技术第一方面所述方法训练得到的深度网络。
[0024]第三方面,本专利技术提供一种自监督深度网络的训练装置,包括:
[0025]位姿偏移训练模块,用于将训练图像对输入到位姿网络中,得到所述训练图像对的位姿偏移,所述训练图像对包括图像t和图像t+m;
[0026]特征偏移训练模块,用于将所述训练图像对输入到偏移网络中,得到所述训练图像对的特征对齐偏移和所述图像t+m的对齐特征;
[0027]深度网络训练模块,用于将所述训练图像对输入到深度网络中,得到所述图像t的深度图和所述图像t+m的深度图;
[0028]损失计算模块,用于获取所述图像t和所述图像t+m的光度一致性损失、时空一致性损失和平滑损失;
[0029]所述损失计算模块,还用于:
[0030]根据所述图像t+m的对齐特征重建所述图像t对应的重建图像,计算所述重建图像和所述图像t的重建损失;
[0031]根据所述训练图像对的特征对齐偏移和所述图像t+m的深度特征,计算得到所述图像t+m的对齐深度特征,根据图像t+m的对齐深度特征和所述图像t的深度特征,计算得到深度特征损失;
[0032]将所述深度特征损失和所述重建损失之和确定为深度特征对齐损失;
[0033]计算所述图像t和所述图像t+m的体素密度对齐损失;
[0034]根据所述光度一致性损失、所述时空一致性损失、所述平滑损失、所述深度特征对齐损失和所述体素密度对齐损失确定总损失;
[0035]优化模块,用于对所述总损失进行优化得到所述位姿网络、偏移网络和所述深度
网络的参数。
[0036]可选的,所述损失计算模块具体用于:
[0037]根据所述图像t+m的深度图得到所述图像t+m对应的点云,根据所述图像t的深度图得到所述图像t对应的点云;
[0038]根据所述图像t+m对应的点云以及所述位姿偏移,得到所述图像t+m转换后的点云;
[0039]根据所述图像t对应的点云计算得到所述图像t的体素密度,根据所述图像t+m转换后的点云计算得到所述图像t+m的体素密度;
[0040]根据所述图像t的体素密度和所述图像t+m的体素密度计算体素密度对齐损失,所述体素密度对齐损失要求所述图像t和所述图像t+m中相同位置处的体素中的三维点的数量相同。
[0041]第四方面,本专利技术提供一种电子设备,包括:至少一个处理器和存储器;
[0042]所述存储器存储计算机执行指令;
[0043]所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如本专利技术第一方面或第二方面所述的方法。
[0044]第五方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自监督深度网络的训练方法,其特征在于,包括:将训练图像对输入到位姿网络中,得到所述训练图像对的位姿偏移,所述训练图像对包括图像t和图像t+m;将所述训练图像对输入到偏移网络中,得到所述训练图像对的特征对齐偏移和所述图像t+m的对齐特征;将所述训练图像对输入到深度网络中,得到所述图像t的深度图和所述图像t+m的深度图;获取所述图像t和所述图像t+m的光度一致性损失、时空一致性损失和平滑损失;根据所述图像t+m的对齐特征重建所述图像t对应的重建图像,计算所述重建图像和所述图像t的重建损失;根据所述训练图像对的特征对齐偏移和所述图像t+m的深度特征,计算得到所述图像t+m的对齐深度特征,根据图像t+m的对齐深度特征和所述图像t的深度特征,计算得到深度特征损失;将所述深度特征损失和所述重建损失之和确定为深度特征对齐损失;计算所述图像t和所述图像t+m的体素密度对齐损失;根据所述光度一致性损失、所述时空一致性损失、所述平滑损失、所述深度特征对齐损失和所述体素密度对齐损失确定总损失;对所述总损失进行优化得到所述位姿网络、偏移网络和所述深度网络的参数。2.根据权利要求1所述的方法,其特征在于,将所述训练图像对输入到偏移网络中,得到所述训练图像对的特征对齐偏移和所述图像t+m的对齐特征,包括:提取所述图像t和所述图像t+m的特征;将所述图像t和所述图像t+m的特征输入到可变形卷积网络中:其中,f
dc
表示所述可变形卷积网络,F
t+m
表示所述图像t+m的特征,θ
t+m

t
表示所述训练图像对的特征对齐偏移,表示所述图像t+m的对齐特征;其中,f
dc
的计算过程表示为:p
k
是一个核大小为n
×
n的标准卷积的第k个采样偏移,p+p
k
+Δp
k
是可变形卷积在某个位置p处学到的第k个偏移;通过所述变形卷积网络的学习得到所述特征对齐偏移和所述图像t+m的对齐特征。3.根据权利要求2所述的方法,其特征在于,计算所述重建图像和所述图像t的重建损失,包括:通过如下公式计算所述重建损失:其中,表示所述重建图像,I
t
表示所述图像t,L
RE
表示所述重建损失。4.根据权利要求2所述的方法,其特征在于,根据所述训练图像对的特征对齐偏移和所
述图像t+m的深度特征,计算得到所述图像t+m的对齐深度特征,根据图像t+m的对齐深度特征和所述图像t的深度特征,计算得到深度特征损失,包括:通过如下公式计算所述图像t+m的对齐深度特征:其中,表示所述图像t+m的深度特征,θ
t+m

t
表示所述训练图像对的特征对齐偏移,f
dc
表示所述可变形卷积网络,表示所述图像t+m的对齐深度特征;通过如下公式计算所述深度特征损失:其中,L
DF
表示所述深度特征损失,表示所述图像t的深度特征。5.根据权利要求1

4任一项所述的方法,其特征在于,所述计算所述图像t和所述图像t+m的体素密度对齐损失,包括:根据所述图像t+m的深度图得到所述图像t+m对应的点云,根据所述图像t的深度图得到所述图像t对应的点云;根据所述图像t+m对应的点云以及所述位姿偏移,得到所述图像t+m转换后的点云;根据所述图像t对应的点云计算得到所述图像t的体素密度,根据所述图像t+m转换后的点云计算得到所述图像t+m的体素密度;根据所述图像t的体素密度和所述图像t+m的体素密度计算体素密度对齐损失,所述体素密度对齐损失要求所述图像t和所述图像t+m中相同位置处的体素中的三维点的数量相同。6.根据权利要求5所述的方法,其特征在于,根据所述图像t对应的点云计算得到所述图像t的体素密度,根据所述图像t+m转换后的点云计算得到所述图像t+m...

【专利技术属性】
技术研发人员:沈力陈卓陶大程
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1