基于遮挡区域迭代优化的光场深度自监督学习方法技术

技术编号:27203204 阅读:20 留言:0更新日期:2021-01-31 12:18
本发明专利技术公开了一种基于遮挡区域迭代优化的光场深度自监督学习方法。本发明专利技术步骤如下:S1:从光场图像中提取网络输入;S2:搭建自监督光场深度估计网络,网络输出为中心子光圈图像的视差图。S3:设计基于遮挡掩模的自监督学习损失函数,设定初始遮挡掩模为无遮挡情况。S4:优化基于遮挡掩模的自监督学习损失函数,训练自监督光场深度估计网络。S5:利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图,计算中心子光圈图像的遮挡区域,更新遮挡掩模。S6:若更新前和更新后遮挡掩模的差异小于设定阈值,则退出迭代优化;否则返回步骤S4。本发明专利技术实现遮挡区域的迭代优化,同时优化光场深度估计结果。同时优化光场深度估计结果。同时优化光场深度估计结果。

【技术实现步骤摘要】
基于遮挡区域迭代优化的光场深度自监督学习方法


[0001]本专利技术是关于计算摄影学和计算机视觉
,尤其涉及到了一种基于遮挡区域迭代优化的光场深度自监督学习方法。

技术介绍

[0002]光场相机通过在传统相机的图像传感器和主镜头间增加一个微透镜阵列,从而可以记录下入射光线的四维光场图像(二维空间信息和二维角度信息)。经过维度重排列后,四维光场图像可看作为一组多视点的子光圈图像阵列。由于光场图像中包含了丰富的光线信息,以及具有数字重对焦等特性,近年来基于光场图像的场景深度估计研究获得了越来越多的关注。
[0003]从光场图像中估计场景深度主要可分为两类:传统方法和基于深度学习的方法。传统方法通常都是利用光场图像中的几何一致性、光度一致性、深度线索、散焦线索等光场成像几何特性或假定,将深度估计问题转换为某个目标函数的最优问题,然后采用传统优化算法估计出光场深度。基于深度学习的光场深度估计方法是通过设计一个从端到端的深度神经网络,并采用卷积操作从光场图像中提取深层语义特征,然后设定一组有监督或无监督损失函数,进而预测出光场深度信息。近年来,基于有监督深度学习的光场深度估计方法已取得了显著成功,但这些方法的性能往往依赖于具有真实场景深度信息的光场数据集的质量和数量。由于获取具有真实场景深度信息的光场数据集非常困难,因此基于自监督学习的光场深度估计方法越来越受关注。自监督学习方法的主要优点在于它能在缺少真实场景深度信息的情况下,利用光场几何特性和约束实现自监督学习,可有效克服训练数据集不足的问题。
[0004]现有自监督学习方法中的损失函数设计通常都是基于光场图像的几何特性和约束,缺少对深度不连续和遮挡区域的考虑。本专利技术根据光场子光圈图像排列的对称性,利用光场子光圈之间的遮挡区域互补特性,提出了基于遮挡区域迭代优化的光场深度自监督学习方法。该方法先采用自监督深度学习网络进行一次预训练,计算出遮挡区域掩模;然后在下一次训练过程中加入上一次的遮挡区域掩模,以优化光场深度估计结果,更新遮挡区域并送入下一次训练过程;进而实现遮挡区域的迭代优化,同时优化光场深度估计结果。

技术实现思路

[0005]本专利技术的目的是为克服上述现有自监督学习方法存在的不足,利用子光圈图像之间的遮挡区域互补特性,提供一种基于遮挡区域迭代优化的光场深度自监督学习方法。
[0006]本专利技术所采用的技术步骤如下:
[0007]步骤S1:从光场图像中提取网络输入。
[0008]步骤S2:搭建自监督光场深度估计网络,网络输出为中心子光圈图像的视差图。
[0009]步骤S3:设计基于遮挡掩模的自监督学习损失函数,设定初始遮挡掩模为无遮挡情况。
[0010]步骤S4:优化基于遮挡掩模的自监督学习损失函数,训练自监督光场深度估计网络。
[0011]步骤S5:利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图,计算中心子光圈图像的遮挡区域,更新遮挡掩模。
[0012]步骤S6:若更新前和更新后遮挡掩模的差异小于设定阈值,则退出迭代优化;否则返回步骤S4。
[0013]所述步骤S1具体包括:
[0014]步骤S1-1:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景,并提供了中心子光圈图像的高精度视差图,以及视差估计的性能评估指标。采用光场双平面表示方法,将光场图像定义为LF(u,v,x,y,c),其中(u,v)为光场角度坐标,(x,y)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],x的取值范围为[0,W-1],y的取值范围为[0,H-1],则光场图像包含了一组(2U+1)
×
(2V+1)的子光圈图像阵列;中心子光圈图像I0(x,y,c)表示为光场角度坐标为(0,0)的子光圈图像LF(0,0,x,y,c);光场角度坐标为(u
i
,v
i
)的子光圈图像记作为I
(ui,vi)
(x,y,c)=LF(u
i
,v
i
,x,y,c),每个子光圈图像大小为W
×
H;通常U=V=3,W=H=512。
[0015]步骤S1-2:以光场图像的中心子光圈图像为中心,提取一个米字型子光圈图像阵列作为自监督光场深度估计网络的输入,所提取的米字型子光圈图像阵列包含了子光圈图像为:水平方向子光圈图像I
(u,0)
(x,y,c)、垂直方向子光圈图像I
(0,v)
(x,y,c)、45度方向子光圈图像I
(u,u)
(x,y,c)和135度方向子光圈图像I
(u,-u)
(x,y,c),其中u的取值范围为[-U,U],v的取值范围为[-V,V],具体如图1所示。
[0016]步骤S1-3:对N
×
N的米字型子光圈图像阵列中的子光圈图像做归一化处理,并做随机数据增强,包括子光圈图像的左右翻转、上下翻转、亮度值改变。所述的归一化处理和随机数据增强为成熟技术。
[0017]所述步骤S2具体包括:
[0018]所述的自监督光场深度估计网络为一个包含了编码子网和解码子网的U型网络。编码子网通过卷积和下采样提取光场的深层特征信息,解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸,并得到中心子光圈图像的视差图。
[0019]所述步骤S3具体包括:
[0020]步骤S3-1:根据自监督光场深度估计网络输出的中心子光圈视差图d,将步骤S1-2中米字型子光圈图像阵列中每个子光圈图像投影到中心子光圈图像,组成一组中心子光圈投影图像。所述的投影过程具体为:
[0021]对于米字型子光圈图像阵列中水平方向子光圈图像I
(u,0)
(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出水平方向的中心子光圈投影图像I

(u,0)
(x,y,c):
[0022]I

(u,0)
(x,y,c)=I
(u,0)
(x-u
·
d,y,c)
ꢀꢀꢀ
(1)
[0023]对于米字型子光圈图像阵列中垂直方向子光圈图像I
(0,v)
(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出垂直方向的中心子光圈投影图像I

(0,v)
(x,y,c):
[0024]I

(0,v)
(x,y,c)=I
(0,v)
(x,y-v
·
d,c)
ꢀꢀꢀ
(2)
[0025]对于米字型子光圈图像阵列中45度方向子光圈图像I
(u,u)
(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出45度方向的中心子光圈本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于包括如下步骤:步骤S1:从光场图像中提取网络输入;步骤S2:搭建自监督光场深度估计网络,网络输出为中心子光圈图像的视差图;步骤S3:设计基于遮挡掩模的自监督学习损失函数,设定初始遮挡掩模为无遮挡情况;步骤S4:优化基于遮挡掩模的自监督学习损失函数,训练自监督光场深度估计网络;步骤S5:利用步骤S4中训练完成的自监督光场深度估计网络预测得到中心子光圈图像的视差图,计算中心子光圈图像的遮挡区域,更新遮挡掩模;步骤S6:若更新前和更新后遮挡掩模的差异小于设定阈值,则退出迭代优化;否则返回步骤S4。2.根据权利要求1所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述步骤S1具体包括:步骤S1-1:使用海德堡图像处理实验室提供的4D光场数据集作为实验数据集,该数据集包含28个场景,并提供了中心子光圈图像的高精度视差图,以及视差估计的性能评估指标;采用光场双平面表示方法,将光场图像定义为LF(u,v,x,y,c),其中(u,v)为光场角度坐标,(x,y)是光场空间坐标,c为颜色通道,u的取值范围为[-U,U],v的取值范围为[-V,V],x的取值范围为[0,W-1],y的取值范围为[0,H-1],则光场图像包含了一组(2U+1)
×
(2V+1)的子光圈图像阵列;中心子光圈图像I0(x,y,c)表示为光场角度坐标为(0,0)的子光圈图像LF(0,0,x,y,c);光场角度坐标为(u
i
,v
i
)的子光圈图像记作为每个子光圈图像大小为W
×
H;通常U=V=3,W=H=512;步骤S1-2:以光场图像的中心子光圈图像为中心,提取一个米字型子光圈图像阵列作为自监督光场深度估计网络的输入,所提取的米字型子光圈图像阵列包含了子光圈图像为:水平方向子光圈图像I
(u,0)
(x,y,c)、垂直方向子光圈图像I
(0,v)
(x,y,c)、45度方向子光圈图像I
(u,u)
(x,y,c)和135度方向子光圈图像I
(u,-u)
(x,y,c),其中u的取值范围为[-U,U],v的取值范围为[-V,V];步骤S1-3:对N
×
N的米字型子光圈图像阵列中的子光圈图像做归一化处理,并做随机数据增强,包括子光圈图像的左右翻转、上下翻转、亮度值改变。3.根据权利要求1所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于步骤S2所述的自监督光场深度估计网络包含了编码子网和解码子网的U型网络。4.根据权利要求1或2或3所述的基于遮挡区域迭代优化的光场深度自监督学习方法,其特征在于所述步骤S3具体包括:步骤S3-1:根据自监督光场深度估计网络输出的中心子光圈视差图d,将步骤S1-2中米字型子光圈图像阵列中每个子光圈图像投影到中心子光圈图像,组成一组中心子光圈投影图像;所述的投影过程具体为:对于米字型子光圈图像阵列中水平方向子光圈图像I
(u,0)
(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出水平方向的中心子光圈投影图像I

(u,0)
(x,y,c):I

(u,0)
(x,y,c)=I
(u,0)
(x-u
·
d,y,c)
ꢀꢀꢀꢀꢀꢀ
(1)对于米字型子光圈图像阵列中垂直方向子光圈图像I
(0,v)
(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出垂直方向的中心子光圈投影图像I

(0,v)
(x,y,c):
I

(0,v)
(x,y,c)=I
(0,v)
(x,y-v
·
d,c)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)对于米字型子光圈图像阵列中45度方向子光圈图像I
(u,u)
(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出45度方向的中心子光圈投影图像I

(u,u)
(x,y,c):I

(u,u)
(x,y,c)=I
(u,u)
(x-u
·
d,y-u
·
d,c)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)对于米字型子光圈图像阵列中135度方向子光圈图像I
(u,-u)
(x,y,c),根据中心子光圈视差图d,采用双线性插值方法生成出135度方向的中心子光圈投影图像I

(u,-u)
(x,y,c):I

(u,-u)
(x,y,c)=I
(u,-u)
(x-u
·
d,y+u
·
d,c)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)步骤S3-2:根据步骤S3-1中得到的中心子光圈投影图像和中心子光圈图像,计算光度一致性损失L
p
,具体公式为:其中L
...

【专利技术属性】
技术研发人员:周文晖洪勇杰莫良言张桦戴国骏
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利