三维场景重建中低分辨率图像单目深度估计系统及方法技术方案

技术编号:30701885 阅读:51 留言:0更新日期:2021-11-06 09:39
本发明专利技术是一种三维场景重建中低分辨率图像单目深度估计系统及方法,方法包括:步骤1、构建适合EDSR训练的数据库K

【技术实现步骤摘要】
三维场景重建中低分辨率图像单目深度估计系统及方法


[0001]本专利技术涉及一种图像处理技术,具体的说是一种三维场景重建中低分辨率图像单目深度估计系统及方法。

技术介绍

[0002]像素级的深度信息往往采用深度传感器等代价昂贵的仪器来获得。随着计算机算力的不断发展,基于大数据驱动的深度学习算法的信息挖掘能力不断的增强。使得单目自监督算法在深度估计上的部署成为一种可能。在计算机视觉领域,随着各种特征提取网络的深度和宽度不断的提升,使得研究人员可以不断的得到图像的高维信息。单幅图像的深度估计本质上是建立一个图像的像素值和实际场景的深度值之间的一个映射关系。其本身上是一个不适定问题,即我们无法像深度传感器一样得到物体间的绝对深度关系,只能得到视野中各物体的相对位置关系。而在实际应用中,得到物体之间的相对深度就足够计算出场景中各个物体的相对位置关系,从而满足视频三维重建的任务要求。而部署价格昂贵的深度传感器得到的绝对深度的性价比比只部署单目摄像头的性价比要低得多。所以单目深度估计依然在场景重建,三维物体检测,机器人视觉和自动驾驶中发挥着巨大的作用。
[0003]深度估计方向整体分为单目深度估计和双目深度估计两个方面,早期的深度估计采用传统方法通过立体匹配算法和运动恢复结构从立体图像或者图像序列中来推算深度信息,但是这些方法严重的依赖于输入的多视图几何图像,双目深度估计或者多视点方法大多数都可以得到相当精准的深度信息,这是因为在多个视角中确定三维空间某一点在二维平面上的投影,在已知相机内参和视角之间的位置关系后,这个问题就转变成了一个数学计算问题,所以目前双目深度估计的主要困难在于计算时间和内存需求方面。而单目深度估计的发展主要依赖于卷积神经网络强大的特征提取能力,单目深度估计根据运动恢复结构原理,在单目视频上首次采用前后帧作为自监督方法来处理训练视频中帧间运动过小的问题。SGDepth采用提前训练好的语义分割框架来对深度估计进行指导,从而改善视频中运动物体的深度估计问题。Hanhan Li等提出了一种1/2范数的剩余平移场正则化方法来作为约束方法,通过对视频中运动物体进行筛选来提升单目深度估计的性能。但是上述的这些方法都是在中等分辨率下进行实验,而当图像输入的分辨率降低后,图像估计的性能会得到明显的下降。
[0004]现有的深度信息恢复方法还存在如下缺陷:
[0005]第一、低分辨率图像由于图像尺寸较小,缺乏物体信息,相比于中等分辨率或高分辨的图像,在进行深度估计时会出现明显的效果降低现象,而传统的双线性插值等放大方法并不能有效的提升低分辨率图像的深度估计性能。
[0006]第二、由于双线性采样器的梯度局限性,为了防止训练目标陷入局部极小值,现有的单目深度模型采用多尺度深度预测的方法,但由于低分辨率图像尺寸较小,在进行尺度缩放时出现的最低尺度可能只包含几十个像素点,而这样的图片缺乏物体之间的位置关系从而不再具有训练的意义。
[0007]第三、原来的下采样和池化层会导致内部数据结构丢失,空间层化信息模糊,并且在处理小物体信息时会因为图像尺寸过小而丢失物体的语义信息。

技术实现思路

[0008]为了解决上述技术问题,本专利技术提出了一种基于超分辨EDSR的低分辨率图像单目深度估计方法,通过采用预训练的EDSR模型来代替原本算法中的插值放大模块,提升图像的细节特征,将原本算法中多尺度预测部分的4尺度改为9尺度,采用空洞卷积完成采样操作,在不减少感受野的前提下降低空间特征的损失,增加模型的特征提取能力。
[0009]为了达到上述目的,本专利技术是通过以下技术方案实现的:
[0010]本专利技术是一种三维场景重建中低分辨率图像单目深度估计系统及方法,包括如下步骤:
[0011]步骤1、构建适合EDSR训练的数据库K

DIV2K数据集,所述K

DIV2K数据集由部分DIV2K数据集与KITTI数据集共同构成,在训练时将KITTI图片和EDSR原本的图片进行交替输入,提升EDSR模型的泛化能力,使其能在KITTI数据集上得到较好的超分放大效果。
[0012]步骤2、采用K

DIV2K数据集分别训练EDSR放大2倍、放大3倍和放大4倍模型,得到具有不同放大能力的超分辨率放大模块;
[0013]步骤3、将步骤2中得到的三种不同放大能力的超分辨率放大模块进行多尺度深度预测,得到12个输入图片,多尺度深度预测是通过增加输入图片的尺寸来增强模型的泛化能力,首先从磁盘读入原始图片,然后通过插值放大模块改变图片的尺寸,最后输入图片进行训练,目的是防止模型在训练过程中出现局部极小值,而本专利技术所采用的九尺度深度预测。
[0014]步骤4、将步骤3中其中九个尺度的输入图片送到单目深度估计网络架构中,采用空洞卷积提取图像中的特征图,最终恢复出深度信息图。
[0015]本专利技术的进一步改进在于:在所述步骤1中,由于KITTI数据集和DIV2K数据集本身是两个领域的不同数据集,为了使KITTI数据集能在EDSR模型上运行,本专利通过python脚本构建了一个K

DIV2K数据集,所述K

DIV2K数据集的构建包括如下步骤:
[0016]步骤1

1、将KITTI数据集中的图片统一缩放到1200
×
300大小;由于KITTI数据集本身大小就在1200
×
300左右,所以缩放不会导致图片丢失太多的场景信息,而图片的形变和扭曲对于信息的影响可以忽略不计
[0017]步骤1

2:缩放后对KITTI数据集进行等比例缩小两倍、缩小三倍和缩小四倍并在保存时打上标签以便于一一对应;
[0018]步骤1

3:将原本的DIV2K数据集提取一部分与KITTI数据集共同构成K

DIV2K数据集。
[0019]本专利技术的进一步改进在于:在所述步骤4中,所述单目深度估计网络架构由深度预测网络和位姿预测网络构成,所述深度预测网络是一个完全卷积的U

Net网络,通过编码器提取输入图像的多维特征,然后通过解码器恢复出原图的深度图,采用的原理是通过位姿网络得到俩帧之间的时差,而深度即为视差的倒数。
[0020]本专利技术的进一步改进在于:所述低分辨率图像单目深度估计方法采用重投影损失函数和光滑损失函数来作为训练过程的无监督约束。
[0021]重投影损失L
p
由光度误差函数在Pe在t

时刻投影到t时刻的最小值,计算式如下:
[0022]L
p
=min
t

Pe(I
t
,I
t
′→
t
);
[0023]所述光度误差函数由SSIM结构相似一致性和L1范数共同组成,表示为:
[0024][0025]SSIM来比较两张本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种三维场景重建中低分辨率图像单目深度估计方法,其特征在于:所述低分辨率图像单目深度估计方法包括如下步骤:步骤1、构建适合EDSR训练的数据库K

DIV2K数据集,所述K

DIV2K数据集由部分DIV2K数据集与KITTI数据集共同构成;步骤2、采用K

DIV2K数据集分别训练EDSR放大2倍、放大3倍和放大4倍模型,得到具有不同放大能力的超分辨率放大模块,在训练时将KITTI图片和EDSR原本的图片进行交替输入;步骤3、将步骤2中得到的三种不同放大能力的超分辨率放大模块进行多尺度深度预测,得到12个尺度的输入图片;步骤4、将步骤3中其中九个尺度的输入图片送到单目深度估计网络架构中,采用空洞卷积提取图像中的特征图,最终恢复出深度信息图。2.根据权利要求1所述三维场景重建中低分辨率图像单目深度估计方法,其特征在于:在所述步骤1中,所述K

DIV2K数据集的构建包括如下步骤:步骤1

1、将KITTI数据集中的图片统一缩放到1200
×
300大小;步骤1

2:缩放后对KITTI数据集进行等比例缩小两倍、缩小三倍和缩小四倍并在保存时打上标签;步骤1

3:将原本的DIV2K数据集提取一部分与KITTI数据集共同构成K

DIV2K数据集。3.根据权利要求1所述三维场景重建中低分辨率图像单目深度估计方法,其特征在于:在所述步骤3中,所述多尺度深度预测为九尺度深度预测。4.根据权利要求1所述三维场景重建中低分辨率图像单目深度估计方法,其特征在于:在所述步骤4中,所述单目深度估计网络架构由深度预测网络和位姿预测网络构成。5.根据权利要求4所述三维场景重建中低分辨率图像单目深度估计方法,其特征在于:所述深度预测网络是一个完全卷积的U

Net网络,通过编码器提取输入图像的多维特征,然后通过解码器恢复出原图的深度图,采用的原理是通过位姿网络得到俩帧之间的时差,而深度即为视差的倒数。6.根据权利要求1所述三维场景重建中低分辨率图像单目深度估计方法,其特征在于:所述低分辨率图像单目深度估计方法采用重投影损失函数和光滑损失函数来作为训练过程的无监督约束。7.根据权利要求6所述三维场景重建中低分辨率图像单目深度估计方法,其特征在于:所述步骤6中的重投影损失L
p
由光度误差函数在Pe在t

...

【专利技术属性】
技术研发人员:程德强韩成功赵佳敏寇旗旗陈亮亮赵凯
申请(专利权)人:江苏华图矿业科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1