一种基于自蒸馏和偏移映射的自监督室内深度估算方法技术

技术编号:37196585 阅读:13 留言:0更新日期:2023-04-20 22:54
本发明专利技术公开了一种基于自蒸馏和偏移映射的自监督室内深度估算方法,包括:搭建基于自蒸馏和偏移映射的自监督室内深度估算模型;以数据集FlyingThings3D中的各训练图片为输入,以训练图片对应的的深度图为输出,对所述基于自蒸馏和偏移映射的自监督室内深度估算模型进行训练,得到基于自蒸馏和偏移映射的自监督室内深度估算系统;将数据集FlyingThings3D中的测试图片集输入所述于自蒸馏和偏移映射的自监督室内深度估算系统,并输出所述测试图片集的深度图,即为最终的深度估算结果。本发明专利技术同时聚合一对低尺度和高尺度特征,并保持它们的上下文一致性,解决对于遮挡部分深度估计错误的问题,使得深度估计精度更高。使得深度估计精度更高。使得深度估计精度更高。

【技术实现步骤摘要】
一种基于自蒸馏和偏移映射的自监督室内深度估算方法


[0001]本专利技术涉及图像处理
,尤其涉及一种基于自蒸馏和偏移映射的自监督室内深度估算方法。

技术介绍

[0002]单目深度估计是计算机视觉中一个具有挑战性的课题,其目的是从单幅图像中预测像素级的场景深度。近年来,自监督方法[1,2,3]由于可以在没有地面真相深度标签的情况下进行训练而受到了广泛关注。
[0003]现有的自监督单眼深度估计方法根据训练数据的类型大致可分为两类:用单目视频序列训练的方法[4,5,6]和用立体对训练的方法[1,2,3]。以单目视频序列训练的方法旨在同时估计摄像机姿态和预测场景深度。Zhou等人[6]提出了一种端到端方法,该方法由两个独立的网络组成,用于预测深度和摄像机姿态。Guizilini等人[7]提出了PackNet,其中向上采样和向下采样操作通过3D卷积重新实现。Godard等人[8]在Monodepth2中引入了逐个像素最小重投影损失、自动掩模损失和全分辨率采样。Shu等人[49]设计了在特征图上定义的特征

度量损失,用于处理图像中差异性较小的区域。此外,一些学者研究了联合使用单目视频和额外语义信息学习深度的框架。还有一些学者研究了联合学习光流、深度和相机姿势,设计了可以处理具有挑战性的环境下的自监督单眼深度估计算法框架,如针对室内环境和夜间环境。
[0004]用立体图像对训练的方法一般通过预测输入立体图像对之间的视差来估计场景深度。Garg等人提出了一项开创性的工作,在训练阶段使用预测的视差和一个立体对的图像合成另一个图像。Godard等提出了左右视差一致性损失来提高单眼深度估计的鲁棒性。Tosi等提出了monoResMatch算法,该算法使用三种沙漏结构网络分别提取特征、预测原始差异和细化差异。FAL

Net间接深度学习方法,将视差用一组离散视差的加权和表示,网络预测每个离散视差的概率图。Gonzalez和Kim提出了模糊增强算法,提高了深度预测的准确性和一致性。此外,为了进一步提高自监督单眼深度估计的性能,一些方法使用了一些额外的信息(例如,由传统算法或额外网络产生的差异,以及语义分割标签)。例如,Watson等提出了深度提示,用半全局匹配计算,并用于指导网络学习准确的深度。其他方法则采用知识蒸馏进行自监督深度估计。Peng等人从一个网络的多尺度输出中生成了一个最佳深度图,并用该深度图对同一网络进行训练。
[0005]无论训练数据的类型如何,许多现有的方法都在使用编码器

解码器架构进行深度预测,深度估计形成了一个依次学习多尺度特征并预测场景深度的统一框架。这些工作中的大多数使用编码器从输入图像中提取多尺度特征,使用解码器通过直接的拼接或元素相加方法逐步聚合提取多尺度特征。尽管这种特征聚合操作已经在一定程度上被证明了其有效性,但它们通常忽略了多尺度特征之间的上下文一致性,即不同尺度特征的对应区域应包含相似场景的上下文信息。特别是针对室内深度估计,由于室内环境物体重叠情况严重,现有的特征聚合方法无法获取这些物体的不同尺度特征的上下文一致性,导致现有算
法对于室内深度估计精度较低。

技术实现思路

[0006]针对以上问题,本专利技术提出一种基于自蒸馏和偏移映射的自监督室内深度估算方法。
[0007]为实现本专利技术的目的,提供一种基于自蒸馏和偏移映射的自监督室内深度估算方法,包括如下步骤:
[0008]S1:搭建基于自蒸馏和偏移映射的自监督室内深度估算模型;
[0009]S2:以数据集FlyingThings3D中的各训练图片为输入,以训练图片对应的的深度图为输出,对所述基于自蒸馏和偏移映射的自监督室内深度估算模型进行训练,得到基于自蒸馏和偏移映射的自监督室内深度估算系统;
[0010]S3:将数据集FlyingThings3D中的测试图片集输入所述于自蒸馏和偏移映射的自监督室内深度估算系统,并输出所述测试图片集的深度图,即为最终的深度估算结果。
[0011]进一步地,所述基于自蒸馏和偏移映射的自监督室内深度估算模型包括:编码器模块和解码器模块;
[0012]所述编码器模块包括:patch embedding层和四个相同的transformer层;所述四个相同的transformer层为:transformer

1、transformer

2、transformer

3和transformer

4;
[0013]所述解码器模块包括:三个相同的SDFA模块、一个卷积层和两个并列的3*3卷积层;所述三个相同的SDFA模块为:SDFA

1、SDFA

2和SDFA

3;
[0014]所述patch embedding层、transformer

1、transformer

2、transformer

3和transformer

4、SDFA

3、SDFA

2、SDFA

1、一个卷积层、两个并列的3*3卷积层按顺序串联;
[0015]所述patch embedding层:用于对图像进行降维操作;
[0016]所述transformer层:用于提取图像的多尺度特征;
[0017]所述SDFA模块:用于自适应聚合多尺度特征与可学习偏移映射;
[0018]所述卷积层:用于将聚合特征的空间分辨率恢复到输入图像的大小;
[0019]所述的3*3卷积层:用于输出原始深度和蒸馏深度两种深度表示。
[0020]进一步地,所述SDFA模块用于自适应聚合多尺度特征与可学习偏移映射的具体过程包括:
[0021]所述SDFA模块同时接受来自前一层的低尺度解码特征和来自所述编码器模块中对应的所述transformer层的图像多尺度特征,接着该所述SDFA模块对两者进行聚合操作,并输出聚合的特征。
[0022]进一步地,所述SDFA模块包括:编码器同层特征提取模块、解码器上层特征提取模块、三个并联的网络中间层、一个3*3卷积层和一个ELU激活函数;所述编码器同层特征提取模块包括:按顺序串联的一个3*3卷积层、一个BN层和一个ELU激活函数;所述解码器上层特征提取模块包括:按顺序串联的一个3*3卷积层、一个BN层、一个ELU激活函数和上采样层;所述网络中间层包括:按顺序串联的一个1*1卷积层、一个BN层、一个ELU激活函数和一个3*3卷积;
[0023]所述编码器同层特征提取模块和解码器上层特征提取模块并联后,依次跟所述三
个并联的网络中间层、一个3*3卷积层和一个ELU激活函数串联;
[0024]三个所述SDFA模块记为SADF

i(i=1,2,3)模块;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自蒸馏和偏移映射的自监督室内深度估算方法,其特征在于,包括如下步骤:S1:搭建基于自蒸馏和偏移映射的自监督室内深度估算模型;S2:以数据集FlyingThings3D中的各训练图片为输入,以训练图片对应的的深度图为输出,对所述基于自蒸馏和偏移映射的自监督室内深度估算模型进行训练,得到基于自蒸馏和偏移映射的自监督室内深度估算系统;S3:将数据集FlyingThings3D中的测试图片集输入所述于自蒸馏和偏移映射的自监督室内深度估算系统,并输出所述测试图片集的深度图,即为最终的深度估算结果。2.根据权利要求1所述的一种基于自蒸馏和偏移映射的自监督室内深度估算方法,其特征在于,所述基于自蒸馏和偏移映射的自监督室内深度估算模型包括:编码器模块和解码器模块;所述编码器模块包括:patch embedding层和四个相同的transformer层;所述四个相同的transformer层为:transformer

1、transformer

2、transformer

3和transformer

4;所述解码器模块包括:三个相同的SDFA模块、一个卷积层和两个并列的3*3卷积层;所述三个相同的SDFA模块为:SDFA

1、SDFA

2和SDFA

3;所述patch embedding层、transformer

1、transformer

2、transformer

3和transformer

4、SDFA

3、SDFA

2、SDFA

1、一个卷积层、两个并列的3*3卷积层按顺序串联;所述patch embedding层:用于对图像进行降维操作;所述transformer层:用于提取图像的多尺度特征;所述SDFA模块:用于自适应聚合多尺度特征与可学习偏移映射;所述卷积层:用于将聚合特征的空间分辨率恢复到输入图像的大小;所述的3*3卷积层:用于输出原始深度和蒸馏深度两种深度表示。3.根据权利要求2所述的一种基于自蒸馏和偏移映射的自监督室内深度估算方法,其特征在于,所述SDFA模块用于自适应聚合多尺度特征与可学习偏移映射的具体过程包括:所述SDFA模块同时接受来自前一层的低尺度解码特征和来自所述编码器模块中对应的所述transformer层的图像多尺度特征,接着该所述SDFA模块对两者进行聚合操作,并输出聚合的特征。4.根据权利要求3所述的一种基于自蒸馏和偏移映射的自监督室内深度估算方法,其特征在于,所述SDFA模块包括:编码器同层特征提取模块、解码器上层特征提取模块、三个并联的网络中间层、一个3*3卷积层和一个ELU激活函数;所述编码器同层特征提取模块包括:按顺序串联的一个3*3卷积层、一个BN层和一个ELU激活函数;所述解码器上层特征提取模块包括:按顺序串联的一个3*3卷积层、一个BN层、一个ELU激活函数和上采样层;所述网络中间层包括:按顺序串联的一个1*1卷积层、一个BN层、一个ELU激活函数和一个3*3卷积;所述编码器同层特征提取模块和解码器上层特征提取模块并联后,依次跟所述三个并联的网络中间层、一个3*3卷积层和一个ELU激活函数串联;三个所述SDFA模块记为SADF

i(i=1,2,3)模块;所述SADF

i(i=1,2,3)模块接受来自前一层的低尺度解码特征F
i+1
,然后所述低尺度解码特征F
i+1
按顺序依次经过一个3*3卷积
层、一个BN层和一个ELU激活函数,接着经过所述上采...

【专利技术属性】
技术研发人员:康亚飞赵金升王猛
申请(专利权)人:徐州华讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1