当前位置: 首页 > 专利查询>四川大学专利>正文

基于几何约束的深度学习单目深度估计方法技术

技术编号:39661504 阅读:6 留言:0更新日期:2023-12-11 18:23
本发明专利技术提出了一种基于几何约束的深度学习单目深度估计方法,在保证准确度和完整度的情况下,高效地对图像场景的深度信息进行估计

【技术实现步骤摘要】
基于几何约束的深度学习单目深度估计方法


[0001]本专利技术是一种基于几何约束的深度学习单目深度估计方法,属于三维立体视觉领域


技术介绍

[0002]单目深度估计是计算机视觉的一个重要研究方向,其目的是通过单张
RGB
场景图像估计对应图像的场景深度信息;单目深度估计在自动驾驶

机器人

三维建模等领域有着广泛的应用;基于几何约束的深度学习单目深度估计方法通过在深度学习过程中加入平面几何约束,通过学习几何参数的方法得到相应的特征图,并通过对这些特征图进行融合,最后得到对应图像每个像素的深度信息

[0003]虽然已有的多种算法取得较好的深度估计效果,但因在深度估计中采用的深度学习方法仅对图像数据进行学习,忽略了已有场景中的空间几何先验信息,导致已有方法的深度估计效果受限,并且存在深度学习网络难以收敛,学习速度慢,时间和资源消耗大的问题


技术实现思路

[0004]本专利技术的目的在于提出一种基于几何约束的深度学习单目深度估计方法,其可以在保证准确度和完整度的情况下,高效地对图像场景的深度信息进行估计

[0005]本专利技术通过在深度学习过程中引入平面几何约束的方式对图像场景深度进行估计;首先通过编码器对原始图像进行编码,然后通过引入了平面几何约束的解码器对编码得到的特征图进行解码,最后将解码得到的特征图传入自注意力模型生成对应的深度图

本专利技术通过在解码器中引入平面几何约束,解决了已有方法中忽略了空间几何先验信息的问题,在深度估计上的表现效果更佳

[0006]本专利技术的基于几何约束的深度学习单目深度估计方法包括以下内容:
[0007]1.
读取原始图像输入到编码器中,编码器对原始图像进行编码,编码器由
EfficientNet B5
骨干网络构成,编码器通过对原始图像编码生成特征图,特征图有4种大小,分别是原始图像的
1/2、1/4、1/8、1/16、1/32。
[0008]2.
解码器读取编码器生成的不同大小的特征图并对特征图进行解码,在解码过程中引入空间平面几何约束并生成解码后的特征图

在解码过程中依次进行上采样并在
1/4
特征图到
1/2
特征图阶段中引入平面几何约束生成
1/2
大小并包含几何信息的特征图

[0009]3.
将解码器解码得到的特征图输入自注意力模型中,通过自注意力模型学习场景中的深度分布信息,包括自适应深度分块向量及注意力分布特征

最后通过深度分块向量和注意力分布特征图结合生成最终深度图

附图说明
[0010]图1是基于几何约束的深度学习单目深度估计方法整体示意图

[0011]图2是基于几何约束的解码器结构示意图

具体实施方式
[0012]为了能够更清楚地描述本专利技术的
技术实现思路
,下面结合具体实施来进一步描述
技术实现思路


[0013]读取原始图像
(H
×
W
×
3)
,输入编码器网络
Efficient Net B5
,编码器包括九个卷积层,并生成4种大小的特征图,分别是原始图像的
1/2、1/4、1/8、1/16、1/32。
[0014]1/32
大小的特征图通过3×3卷积层并上采用后通过残差连接与
1/16
大小的特征图合并

[0015]合并后的特征图通过上采用后通过残差连接与
1/8
大小的特征图合并

[0016]合并后的特征图通过上采样后与
1/4
大小的特征图合并,然后通过残差连接与多个不同粒度的深度几何约束层合并,分别为1×1,2×2,4×4,8×8四种粒度

深度几何约束层为整体网络引入了空间几何先验信息,提高了深度估计效果

[0017]深度几何约束层的计算步骤如下:
[0018]1)
在空间中同一平面中的点
P
满足平面公式:
n
·
P+d
=0ꢀꢀꢀꢀ
(1)
其中
n

(a,b,c)
T
,d
为平面参数

[0019]2)
在针孔相机模型中,相机平面中的点
(u,v)
与空间中的点
P(X,Y,Z)
满足映射关系:
[0020]将空间中的点
P
坐标
(X,Y,Z)
代入到平面公式
(1)
中可得:
[0021]将
(3)
式整理后可得空间中一点的深度
Z
的计算公式为:
[0022]通过前一阶段的特征图可以学习到不同粒度平面深度的计算参数,从而在深度几何约束层中计算不同粒度平面的深度特征图

将深度几何约束层中的深度特征图与
1/4
大小的特征图合并

[0023]再上采样后与
1/2
大小的特征图进行合并

[0024]最后经过一个3×3的卷积层,得到相应的解码特征图

[0025]将解码特征图输入自注意力模型

[0026]通过
16
×
16
的卷积层将解码特征图进行卷积并生成分块图向量,将分块图向量送入自注意力模型编码器中,分别学习得到自适应深度分块向量
b
及深度分布概率
p。
[0027]应用如下公式将自适应深度分块向量
b
转换为深度分块中心向量
c

[0028]最后将深度分块中心向量
c
与深度分布概率
p
结合生成最终估计深度:
[0029]将估计的深度与真实深度计算损失,通过反向传播更新网络权重

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于几何约束的深度学习单目深度估计方法,可以在保证准确度和完整度的情况下,高效地对图像场景的深度信息进行估计,其特征在于提出了一套基于几何约束的深度学习单目深度估计方法,其特征主要包含如下步骤:
1)
读取原始图像
(H
×
W
×
3)
,输入编码器网络
Efficient Net B5
,编码器包括九个卷积层,并生成4种大小的特征图,分别是原始图像的
1/2、1/4、1/8、1/16、1/32

1/32
大小的特征图通过
3x3
卷积层并上采用后通过残差连接与
1/16
大小的特征图进行通道合并;
2)
合并后的特征图通过上采用后通过残差连接与
1/8
大小的特征图进行通道合并;
3)
合并后的特征图通过上采样后与
1/4
大小的特征图合并,然后通过残差连接与多个不同粒度的深度几何约束层进行通道合并,分别为1×1,2×2,4×4,8×8四种粒度;
4)
深度几何约束层的计算步骤如下:
5)
在空间中同一平面中的点
P
满足平面公式:
n
·
P+d

0#(1)
其中
n

(a,b,c)
T
,d
为平面参数;
6)
在针孔相机模型中,相机平面中的点
(u...

【专利技术属性】
技术研发人员:刘怡光李灿斌唐天航陈杰史雪蕾于智诚
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1