一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法制造技术

技术编号:37295566 阅读:6 留言:0更新日期:2023-04-21 22:42
本发明专利技术属于计算机视觉领域,主要是一种基于中心像素梯度融合和全局代价聚合的深度学习立体匹配算法。虽然目前主流基于深度学习的立体匹配算法精度较高,但是这些算法往往使用常规卷积提取特征,并且因为代价聚合的有限感受野,所以在左右光照不一致、大面积无纹理、弱纹理等病态区域效果较差。本发明专利技术提出了一种新的深度学习立体匹配算法,首先,设计了差分卷积残差组,显式编码结构信息提高特征表达。然后,设计了全局代价聚合模块,使得有效聚合代价体并捕获全局上下文,最后,采用加窗视差回归降低了视差标签不平衡的影响。本发明专利技术可以在提高模型在病态区域的性能的同时,约束模型的多峰分布,从而获得更加准确的视差估计。从而获得更加准确的视差估计。从而获得更加准确的视差估计。

【技术实现步骤摘要】
一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法


[0001]本专利技术属于计算机视觉领域,主要是一种基于中心像素梯度融合和全局代价聚合的深度学习立体匹配算法。

技术介绍

[0002]深度估计是计算机视觉中最基本的问题之一,在机器人、虚拟现实和自动驾驶等领域有着广泛的应用。常规的深度估计方式主要基于单目、双目深度估计以及RGBD相机三种。对于单目深度估计来说,因为其测量原理是通过物体尺寸进行估计,所以存在尺度模糊的致命缺陷,在实际使用中非常受限;而RGBD相机主要是通过物理方式进行测距,依据结构光,或使用发射器和接收器来进行飞行时间的测量等方法得到深度,虽然精度较高,但是光信号易受到物体反射性质的影响,所以其不适合室外使用。而对于双目深度估计来说,其固有的测量原理自然而然的避免了单目深度估计的尺度模糊问题,采用视觉被动测量的方式在户外也可以很好的工作,成本低、分辨率高、工作范围长等优点使其成为了目前深度测量的主流技术。
[0003]双目深度估计的核心是立体匹配技术,根据发展主要分为全局、半全局、局部和基于深度学习的立体匹配算法四种类型。虽然目前主流基于深度学习的立体匹配算法发展迅速、精度较高,但是这些算法往往使用常规卷积提取特征,并且因为代价聚合的有限感受野,现有基于深度学习的方法在左右光照不一致、大面积无纹理、弱纹理等病态区域效果较差,算法鲁棒性较低。并且现有深度学习方法主要基于视差空间建模,使用4D视差代价体,先将其视为一个分类问题,在通过类别期望进行回归得到视差,这样的方式往往会使得模型受到视差空间中多峰分布的影响。
[0004]针对上述问题,本专利技术提出了一种新的深度学习立体匹配算法,在提高模型在病态区域的性能的同时,约束模型的多峰分布。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种融合中心像素梯度和进行全局代价聚合的深度立体匹配算法,使得模型能够有效获取输入图像的结构信息,并且能在视差空间中充分融合不同视差之间的特征,建立鲁棒且全面的特征映射,并且通过回归约束降低视差代价体的多峰约束,从而获得更加准确的视差。
[0006]为了达到上述目的,本专利技术提供如下技术方案:
[0007]基于中心像素梯度融合和全局代价聚合的深度立体匹配算法,该算法具体包含以下步骤:
[0008]步骤1)提出一种对输入左右图像进行结构和强度信息有效融合提取的特征主干。引入中心差分卷积,结合残差网络形成像素差分卷积残差组对输入的左右图像结构信息和强度信息的进行提取,从而充分获得其的二维特征信息用于构建4D的视差代价体。
[0009]步骤2)提出一种新型的3DCNN代价聚合模块。引入Transfomer和动态位置编码,建立全视差空间的依赖关系,进行信息聚合,有效的为无纹理或弱纹理区域的像素提供信息支撑。
[0010]步骤3)提出一种加窗视差回归和交叉熵协同约束。对优选视差进行加窗,促进正确的视差的概率,降低错误视差的概率,约束了视差空间的多峰分布,获得更加准确的视差。
[0011]进一步,所述步骤1)具体包括以下步骤:
[0012]步骤1.1)数据预处理。导入两张已经进行对极约束的左右目图片X
i
∈R3×
H
×
W
,H和W分别表示图像的高和宽,使用ImgNet数据集的期望和方差数值对输出图片进行标准化,这使得所有输入都能基于此分布。
[0013]步骤1.2)将预处理后的左右目图像送入到特征提取网络进行特征提取。采用一种融合像素差分卷积的残差组构成特征提取部分的前段,每个差分卷积残差首先通过一个差分卷积,以此来充分提取对应图像的结构特征,像素差分卷积其对应的数学表述如下:
[0014][0015]公式中,y(p0)为对应像素的卷积输出;R为以像素p0为中心的3
×
3的像素范围;w(p
n
)为卷积对应的可学习权重;θ∈[0,1]为平衡梯度信息和强度信息的超参数,当为0时差分卷积退化为普通卷积,本专利技术设定其为0.7。而通过对强度信息的融合,在通过后面的残差结构后得到充分融合结构和强度混合编码的底层语义信息,构成图像的特征图。
[0016]步骤1.3)为了进一步获得较大的感受野而提取更丰富的特征信息,在特征提取后段,使用RFB模块进一步进行局部特征信息聚合。
[0017]步骤1.4)对左右图像都进行步骤1.1、1.2获得其对应的特征图,最后对左图特征f
l
∈R
32
×
H/4
×
W/4
和右图特征f
r
∈R
32
×
H/4
×
W/4
进行差分比较,组建成视差代价体C∈R
64
×
D/4
×
H/4
×
W/4
,其中D为设定的视差空间的最大视差值。
[0018]进一步,所述步骤2)具体包括以下步骤:
[0019]步骤2.1)对步骤1.3后的视差代价体进行3D卷积正则化。本专利技术采用类似Unet结构的3DCNN网络,对视差体进行下采样,不断编码浅层的局部信息,滤出冗余信息,最后得到C∈R
256
×
D/32
×
H/32
×
W/32
的代价体。
[0020]步骤2.2)动态位置编码。在将步骤2.1中的视差代价体送入到Transformer的模块进行全局建模之前需要对特征图的位置信息进行编码,为了充分利用卷积的旋转不变性以及适应图像数据的不固定尺寸,本专利技术使用条件位置编码的方式,使用一个三维卷积来进行隐式的地位置编码。其数据表达式为:
[0021]PE(X
in
)=3DWConv(X
in
)
[0022]公式中,X
in
∈R
d
×
N
是输入的Token序列;3DWConv是一个可学习的3
×3×
3深度3D卷积。
[0023]步骤2.3)将经过位置编码的4D代价体送入到Transfomer模块中,将其拉长并使用多头自注意力机制进行全局建模,随后通过全连接层输出最后的结果,经过维度变换后送入3D反卷积中不断的恢复代价体中的底层细节信息,对于步骤2.1、步骤2.2、步骤2.3三者可以用数学表述为:
[0024]X=PE(X
in
)+X
in
,
[0025]Y=MHA(Norm(X))+X,
[0026]Z=FFN(Norm(Y))+Y
[0027]公式中,X
in
∈R
d
×
N
,N=D
×
H
×
W表示输入的Token序列;Norm(g)表示层归一化,而FFN则由两个具有GELU激活函数的线性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法,其特征在于,该方法包括以下步骤:步骤1:结合中心差分卷积形成残差组对图像特征进行强度和结构信息融合提取,并建立4D代价体。步骤2:使用带有Transformer的3D CNN对代价体进行全局代价聚合,使其正则化。建立全视差空间的依赖关系,进行信息聚合,有效的为无纹理或弱纹理区域的像素提供信息支撑。步骤3:加窗视差回归和交叉熵进行协同约束。对优选视差进行加窗,促进正确的视差的概率,降低错误视差的概率,约束了视差空间的多峰分布,获得准确的视差。2.根据权利要求1所述的一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法,其特征在于,所述步骤1中,具体过程如下:步骤1.1:输入经过极线矫正后的左右图片,根据数据集场景设定最大视差。步骤1.2:将图片通过特征提取网络,前三层均采用3
×
3的CDC

Conv,设置其卷积步长分别为2,1,1而对原始图像进行下采样,然后跟随4个步长分别为1,2,1,1的卷积差分残差组,进一步提取原始图像信息并进行下采样,最后生成尺寸为原始输入图像1/4大小的特征图,本发明在每个残差组的初始阶段使用差分卷积,随后使用残差主干生成具有大范围和高密集采样的特征,从而增强特征提取。每个差分卷积的计算过程的数学表达如下:公式中,y(p0)为对应像素的卷积输出;R为以像素p0为中心的3
×
3的像素范围;w(p
n
)为卷积对应的可学习权重;θ∈[0,1]为平衡梯度信息和强度信息的超参数,当为0时差分卷积退化为普通卷积,本发明设定其为0.7。而通过对强度信息的融合,在通过后面的残差结构后得到充分融合结构和强度混合编码的底层语义信息,构成图像的特征图。为了进一步获得较大的感受野而提取更丰富的特征信息,在特征提取后段,使用RFB模块进一步进行局部特征信息聚合。步骤1.3:为了进一步获得较大的感受野从而获得更加丰富的特征信息,本发明将学习到的局部信息特征通过RBF模块来进行聚合,如图2使用4分支的轻量级RBF模块,每一个分支由一个1
×
1的卷积,S
×
S的等宽卷积和一个3
×
3而dilated为S的空洞卷积组成(这里S表示卷积核大小,本发明设定为3或者5两种,从图2中可以观察得到),进行一次局部信息扩展,最后将所有的分支进行拼接,通过RBF模块的每个分支输出的特征图尺寸和输入的相同。步骤1.4:使用带有视差维度的4D代价体对图像的视差空间进行建模形成4D代价体。其中对于对左图特征f
l
∈R
32
×
H/4
×
W/4
和右图特征f
r
∈R
32
×
H/4
×
W/4
,通过差分的方式构建代价体C∈R
64
×
D/4
×
H/4
×
W/4
,其对于视差等级为d
i
的代价体来说,具体建立过程可以用下式表达:C(d
i
,f
li
,f
ri
)=<f
l
(x
i
,y
i
)

f
r
(x
i
,y
i
)>公式中,(x
i
,y
i
)表示左图的像素坐标。
3.根据权利要求1所述的一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法,其特征在于,所述步骤2中,具体过程如下:步骤2.1:对步骤1.3后的视差代价体进行3D卷积正则化,采用类似Unet结构的3DCNN网络,对视差体进行下采样,不断编码浅层的局部信息,滤出冗余信息,最后得到C∈R
256
×
D/32
×
H/32
×
W/32
的代价体。步骤2.2:进行动态位置编码,具体来说:在将步骤2.1中的视差代价体送入到Transformer的模块进行全局建模之前需要对特征图的位置信息进行编码,为了充分利用卷积的旋转不变性以及适应图像数据的不固定尺寸,使用条件位置编码的方式,使用一个三维卷积来进行隐式的地位置编码。步骤2.3:将经过位置编码的4D代价体送入到Transfomer模块中,将其拉长并使用多头自注意力机制进行全局建模,随后通过全连接层输出最后的结果,经过维度变换后送入3D反卷积中不断的恢复代价体中的底层细节信息,对于步骤2.1、步骤2.2、步骤2.3三者可以用数学表述为:X=PE(X
in
)+X
in
,Y=MHA(Norm(X))+X,Z=FFN(Norm(Y))+Y公式中,X
in
∈R
d
×
N
,N=D

【专利技术属性】
技术研发人员:陶洋欧双江
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1