一种基于图像的深度信息估计方法技术

技术编号:38265748 阅读:9 留言:0更新日期:2023-07-27 10:23
本发明专利技术提供了一种基于图像的深度信息估计方法,包括:将同一场景的无标注图像序列输入至深度神经网络,提取图像特征;依次利用通道注意力机制和空间注意力机制对图像特征进行自适应特征优化;利用双线性差值进行上采样恢复图像分辨率;对恢复后的特征图像作为目标图像进行深度信息预测,根据预测的深度信息和相邻帧重建目标图像;计算目标图像与重建图像在多尺度下的光度误差和平滑误差,获得损失函数;进行无监督模型训练,根据损失函数更新模型参数,得到训练后的模型;利用训练后的模型对输入的场景图像进行深度信息预测。本发明专利技术可以充分利用输入图像的局部相关性和远程关系依赖提升低纹理区域的预测效果。依赖提升低纹理区域的预测效果。依赖提升低纹理区域的预测效果。

【技术实现步骤摘要】
一种基于图像的深度信息估计方法


[0001]本专利技术属于智能深度估计
,涉及一种根据图像预测对应深度信息的方法。

技术介绍

[0002]普通的摄像机在拍摄图片时,只能记录下场景的颜色信息,在三维空间投射到二维图片时丢失了场景到摄像机的距离即深度信息。场景的深度信息获取是计算机视觉的重要分支,也是三维重建、自动驾驶和机器人定位等应用中的重要环节。更具体地说,对于给定的RGB图像中的每个像素,我们需要估计一个度量的深度值。传统的深度信息获取方法是通过硬件设备进行。最为常见的设备是激光雷达,激光雷达通过测量激光在物体表面反射时间来预估深度信息,但是激光雷达设备价格较为昂贵,并且需要较高的人力成本去获取去高精度稠密的深度信息。难以在生活场景中进行大量的应用。另一种常见的硬件设备是深度相机,深度相机基于TOF(time offlight)技术获得场景的深度信息,通过给目标连续发送光脉冲,然后用传感器接收从物体返回的光,通过探测这些发射和接收光脉冲的飞行(往返)时间来得到目标物距离。传感器通过计算光线发射和反射时间差或相位差,来换算被拍摄景物的距离,以产生深度信息,此外再结合传统的相机拍摄,就能将物体的三维轮廓以不同颜色代表不同距离的地形图方式呈现出来,但是由于其测距传感器量程较短,且对场景环境要求较高,限制了其在室外环境的使用范围。
[0003]相较于传统硬件度量方法,基于图像的深度估计方法只需要拍摄图像,对硬件的要求不高,因此在实际场景中有着更高的应用价值。基于图像的深度估计方法可以分为单目深度估计和多目深度估计,多目深度估计通常需要两个摄像头拍摄的同一个场景的两张图像,通过一致的相机参数

基线和焦距,基于立体视觉技术对两幅图像进行匹配从而获取深度信息,但是当场景中的纹理较少或没有时,很难在图像中捕捉到足够的特征来进行匹配,所以局限性较大。而单目深度估计只使用一个摄像机来获得图像或视频序列,这不需要额外的复杂设备和专业技术。在大多数情况下只需一台摄像机就能实现深度估计,因此具由广泛的应用价值和重要研究意义。
[0004]因此,如何提供一种基于单目拍摄图像的深度信息估计方法是本领域技术人员亟需解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术提出了一种基于图像的深度信息估计方法,解决现有技术中的技术问题。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]本专利技术公开了一种基于图像的深度信息估计方法,包括构建模型步骤和预测深度信息步骤:
[0008]所述构建模型步骤包括:
[0009]S1:将同一场景的无标注图像序列输入至深度神经网络,提取图像特征,包括局部特征和全局特征。
[0010]S2:依次利用通道注意力机制和空间注意力机制对所述图像特征进行自适应特征优化。
[0011]S3:将优化后的图像特征利用双线性差值进行上采样恢复图像分辨率。
[0012]S4:对S3恢复后的特征图像作为目标图像进行深度信息预测,计算当前特征图像的相对位姿变化;利用所述深度信息和所述相对位姿变化重建目标图像,即重建图像。
[0013]S5:计算目标图像与重建图像在多尺度下的光度误差和平滑误差,进一步获得损失函数;
[0014]S6:重复S2

S6进行无监督模型训练,根据损失函数更新模型参数,得到训练后的模型;
[0015]所述预测深度信息步骤包括:
[0016]S7:利用训练后的模型对输入的场景图像进行深度信息预测。
[0017]优选的,所述S1包括:
[0018]S11:将同一场景的无标注图像序列输入到深度网络,将图像划分成相同大小的patch;
[0019]S12:利用CNN提取局部特征,利用Transformer提取全局特征;
[0020]S13:将所述局部特征和所述全局特征通过级联拼接在一起,再通过卷积进行输出。
[0021]优选的,所述S2包括:
[0022]S21:对所述图像特征利用通道注意力机制计算不同通道之间的依赖关系并得到对应的注意力权值,输出通道注意力图;
[0023]S22:利用空间注意力机制增强对将所述通道注意力图关键区域的关注度并提取关键信息,得到优化后的图像特征。
[0024]优选的,所述S2具体执行步骤包括:
[0025]将所述图像特征通过最大池化层和平均池化层进行空间压缩得到两个张量一;
[0026]将所述张量一分别送入多层感知机输出中间特征;
[0027]将所述中间特征进行相加并通过sigmoid得到通道注意力图;
[0028]将所述通道注意力图依次经过最大池化层和平均池化层得到一个张量二;
[0029]将所述张量二通过卷积层和sigmoid计算空间注意力,得到优化后的图像特征。
[0030]优选的,所述S3包括:
[0031]将所述优化后的图像特征在x方向和y方向依次进行线性插值,通过上采样进行尺度恢复。
[0032]优选的,所述S4包括:
[0033]S41:深度网络接受目标视图I
t
作为输入,并预测出对应n个尺度的深度图d,n≥4;
[0034]S42:姿态网络将目标视图I
t
和相邻帧源视图I
t
‑1,I
t+1
作为输入,并输出相对位姿变化T
t

t'
t'∈{t

1,t+1};
[0035]S43:基于拍摄场景是静止的并且视图的变化只由移动相机引起的假设,则可以利用相邻帧源视图、深度图与位姿变化重建目标图像。
[0036]优选的,所述S41的具体执行步骤包括:
[0037]利用深度网络对预测深度图,深度网络包括编码器和解码器;
[0038]编码器用于对输入图像进行特征提取,包括多个编码器块,每经历一个编码器块,图像的大小降为输入的一半;
[0039]解码器用于对提取的特征进行尺度恢复并输出不同尺寸的深度图,构建多尺度特征;解码器块使用上采样恢复尺寸,每个解码器块的输出为输入的两倍,解码器的输入包括两部分,第一部分来自于上一阶段的解码器的输出,第二部分来对应编码器块的输出。
[0040]优选的,所述S43的具体执行步骤包括:
[0041]I
t'

t
=I
t'
[proj(reproj(I
t
,d,T
t

t'
),K)][0042]T
t

t'
=Θ
pose
(I
t
,I
t'
),t∈{t

1,t+1}
[0043]其中,I
t'

t
为重建图像,K是已知的相机内在参数,[]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图像的深度信息估计方法,其特征在于,包括构建模型步骤和预测深度信息步骤:所述构建模型步骤包括:S1:将同一场景的无标注图像序列输入至深度神经网络,提取图像特征,包括局部特征和全局特征;S2:依次利用通道注意力机制和空间注意力机制对所述图像特征进行自适应特征优化;S3:将优化后的图像特征利用双线性差值进行上采样恢复图像分辨率;S4:对S3恢复后的特征图像作为目标图像进行深度信息预测,计算当前特征图像的相对位姿变化;利用所述深度信息和所述相对位姿变化重建目标图像,即重建图像;S5:计算目标图像与重建图像在多尺度下的光度误差和平滑误差,进一步获得损失函数;S6:重复S2

S6进行无监督模型训练,根据损失函数更新模型参数,得到训练后的模型;所述预测深度信息步骤包括:S7:利用训练后的模型对输入的场景图像进行深度信息预测。2.根据权利要求1所述的一种基于图像的深度信息估计方法,其特征在于,所述S1包括:S11:将同一场景的无标注图像序列输入到深度网络,将图像划分成相同大小的patch;S12:利用CNN提取局部特征,利用Transformer提取全局特征;S13:将所述局部特征和所述全局特征通过级联拼接在一起,再通过卷积进行输出。3.根据权利要求1所述的一种基于图像的深度信息估计方法,其特征在于,所述S2包括:S21:对所述图像特征利用通道注意力机制计算不同通道之间的依赖关系并得到对应的注意力权值,输出通道注意力图;S22:利用空间注意力机制增强对将所述通道注意力图关键区域的关注度并提取关键信息,得到优化后的图像特征。4.根据权利要求1所述的一种基于图像的深度信息估计方法,其特征在于,所述S2具体执行步骤包括:将所述图像特征通过最大池化层和平均池化层进行空间压缩得到两个张量一;将所述张量一分别送入多层感知机输出中间特征;将所述中间特征进行相加并通过sigmoid得到通道注意力图;将所述通道注意力图依次经过最大池化层和平均池化层得到一个张量二;将所述张量二通过卷积层和sigmoid计算空间注意力,得到优化后的图像特征。5.根据权利要求1所述的一种基于图像的深度信息估计方法,其特征在于,所述S3包括:将所述优化后的图像特征在x方向和y方向依次进行线性插值,通过上采样进行尺度恢复。6.根据权利要求1所述的一种基于图像的深度信息估计方法,其特征在于,所述S4包括:
S41:深度网络接受目标视图I
t
作为输入,并预测出对应n个尺度的深度图d,n≥4;S42:姿态网络将目标视图I
t
和相邻帧源视图I
t
‑1,I
t+1
作为输入,并输出相对位姿变化T
t

t'
t'∈{t

1,t+1};S43:利用相邻帧源视图、深度图与位姿变化重...

【专利技术属性】
技术研发人员:宛传兵金福生徐源袁野王国仁
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1