一种基于无监督的立体匹配方法组成比例

技术编号:36926148 阅读:13 留言:0更新日期:2023-03-22 18:49
本发明专利技术一种基于无监督的立体匹配方法,涉及计算机视觉领域、深度学习技术领域,其特征在于:该方法按照以下步骤进行:图像输入:输入两幅左右相机视图,两幅图像进行裁剪并在通道维度上合并;视差计算:视差计算采用的是自编码器模块,自编码器模块包含编码器,结构感知模块,解码器三部分组成;重建图像:得到的视差图和原图像通过扭曲操作计算重建图像;损失计算:计算图像重建损失、左右一致性损失以及视差图平滑度损失;训练模型:用图像重建损失、左右一致性损失以及视差图平滑度损失引导网络模型学习。本发明专利技术的目的是为了获得较多高精度的视差信息,提高无监督立体匹配的精度。提高无监督立体匹配的精度。提高无监督立体匹配的精度。

【技术实现步骤摘要】
一种基于无监督的立体匹配方法


[0001]本专利技术涉及计算机视觉领域、深度学习
,具体涉及一种基于无监督的立体匹配方法。

技术介绍

[0002]双目立体视觉是计算机视觉的重要组成部分,在自动驾驶、机器人等领域具有着重要意义。双目立体视觉系统基于左右两幅图像,通过模拟人眼的视觉方式,由两个不同的视点对同一个物体进行观察,具体是由两个参数相同的摄像机在不同位置进行拍摄,或由一台相机经过旋转和移动进行拍摄,并计算视差,根据视差来还原物体的深度信息,最终根据深度信息来进行三维重建。其中立体匹配是近些年来研究的热点问题。立体匹配算法可以实现两幅图像之间的像素匹配并计算视差。近年来由于深度学习的飞速发展,深度学习的方法广泛应用在立体匹配当中。深度学习能通过卷积、池化、全连接等操作,对图像进行非线性变换,可以提取图像的多层特征用于代价计算,对提取的图像特征进行上采样过程中设置代价聚合和图像增强方法,从而实现图像匹配。深度学习的方法通过训练获得模型参数,提高算法的鲁棒性。
[0003]目前卷积神经网络已经广泛应用于立体匹配中,与传统方法不同的是,卷积神经网络能够学习到更为复杂的非线性关系,同时卷积神经网络可以减少人为设计特征的工作量,并且对于立体匹配中存在的遮挡,反射和弱纹理等易发生误匹配的难点区域也有较好的效果。卷积神经网络已经展示了在立体匹配方面的能力。训练用于立体匹配的卷积神经网络往往使用大量带有标签的数据集进行参数学习。由于标注标签的工作非常困难,就导致了很难获取足够多的带有标签的数据,尤其是在室外的情况下,网络更加依赖于高精度且大量的数据,所以有监督学习很难应用于实际情况中,这样就导致了无法获得较多的高精度视差信息。

技术实现思路

[0004]专利技术目的:
[0005]为了获得较多高精度的视差信息,解决深度学习立体匹配方法需要大量带标签样本的问题,同时提高无监督立体匹配的精度。本专利技术提供了一种基于无监督的立体匹配方法。
[0006]技术方案:
[0007]一种基于无监督的立体匹配方法,其特征在于:该方法按照以下步骤进行:
[0008]步骤1:图像输入:输入两幅左右相机视图,两幅图像进行裁剪并在通道维度上合并,传入的两幅3通道的RGB彩色图像,合并之后输入变为6通道;
[0009]步骤2:视差计算:视差计算采用的是自编码器模块,自编码器模块包含编码器,结构感知模块,解码器三部分组成;
[0010]步骤3:重建图像:步骤2中得到的视差图和原图像通过扭曲操作计算重建图像;
[0011]步骤4:损失计算:计算图像重建损失、左右一致性损失以及视差图平滑度损失;
[0012]步骤5:训练模型:用图像重建损失、左右一致性损失以及视差图平滑度损失引导网络模型学习;
[0013]三种损失通过Adam优化方法进行梯度更新,从而引导整个网络模型的训练。
[0014]所述的步骤2视差计算中,按如下步骤进行:
[0015]步骤2.1:将处理好的图像输入到编码器当中进行特征提取;编码器有6层,编码器将6通道的输入进行下采样操作,从而得到通道数为2048的特征图;
[0016]步骤2.2:编码器6次下采样后得到的特征图输入到结构感知模块中,得到包含全局信息的特征图,结构感知模块通过计算通道间的相似度,对不同通道进行加权,并进行特征融合;
[0017]步骤2.3:解码器包含上采样和细节强调模块,下采样结束后得到的特征图进行上采样还原回原始图像分辨率,最终生成两幅通道数为1的视差图;
[0018]其中将来自跳跃连接包含丰富空间信息的特征和来自深层经过上采样得到的包含语义信息的特征输入到细节强调模块,细节强调模块采用通道注意力机制对不同通道标注重要程度并进行特征融合得到效果更好的特征图,最后输出视差图;
[0019]在步骤2.2中,对特征图的最深层的特征层F
C
×
H
×
W
通过转置相乘的方法变成C
×
C大小的相似度图S
C
×
C,再将相似性图S
C
×
C
通过使用m
a
x函数得到矩阵的最大值再相减的操作转变为区分性图D
C
×
C,此时区分性图D
C
×
C
反应的是两个通道之间的差异性,1≤i,j≤2048,表示的是第j个通道对第i个通道的影响程度,越不相似的两个通道得分越高,经过
so
ftm
a
x层之后转换为注意力图A
C
×
C
,注意力图A
C
×
C
与输入的特征图F
C
×
H
×
W
进行矩阵相乘变为C
×
H
×
W大小的特征图并与特征层F
C
×
H
×
W
通过矩阵相加的方法进行特征融合,得到输出的特征层E
C
×
H
×
W
,此时特征层大小没有变化,却融合到了更多其他区域的响应。
[0020]所述的步骤2中,编码器和解码器对应模块之间为跳跃连接,通过跳跃连接来实现特征找回,特征找回的方法是将编码器富含空间信息的低级特征和解码器富含上下文信息的高级特征在通道维度上进行拼接;拼接的方法是编码器的低级特征L
C
×
H
×
W
和解码器经过上采样的高级特征H
C
×
H
×
W
在通道维度上拼接得到特征层C
2C
×
H
×
W
,特征层C
2C
×
H
×
W
经过3x3的卷积对特征进行归一化得到U
2C
×
H
×
W
,接下来U
2C
×
H
×
W
通过全局平均池化、1
×
1卷积、R
e
L
u
激活函数、1
×
1卷积和sigmoid激活函数压缩到一维向量得到V
2C
×1×1,V
2C
×1×1得到全局上下文信息并计算权重向量;此时V
2C
×1×1中的权重分数表示对应通道的重要性,包含关键信息的通道将获得更高的分数;V
2C
×1×1与U
2C
×
H
×
W
通过逐个元素乘法得到加权的特征层D 2C
×
H
×
W
;特征层U
2C
×
H
×
W
和特征层D 2C
×...

【技术保护点】

【技术特征摘要】
1.一种基于无监督的立体匹配方法,其特征在于:该方法按照以下步骤进行:步骤1:图像输入:输入两幅左右相机视图,两幅图像进行裁剪并在通道维度上合并,传入的两幅3通道的RGB彩色图像,合并之后输入变为6通道;步骤2:视差计算:视差计算采用的是自编码器模块,自编码器模块包含编码器,结构感知模块,解码器三部分组成;步骤3:重建图像:步骤2中得到的视差图和原图像通过扭曲操作计算重建图像;步骤4:损失计算:计算图像重建损失、左右一致性损失以及视差图平滑度损失;步骤5:训练模型:用图像重建损失、左右一致性损失以及视差图平滑度损失引导网络模型学习;三种损失通过Adam优化方法进行梯度更新,从而引导整个网络模型的训练。2.根据权利要求1所述的一种基于无监督的立体匹配方法,其特征在于:所述的步骤2视差计算中,按如下步骤进行:步骤2.1:将处理好的图像输入到编码器当中进行特征提取;编码器有6层,编码器将6通道的输入进行下采样操作,从而得到通道数为2048的特征图;步骤2.2:编码器6次下采样后得到的特征图输入到结构感知模块中,得到包含全局信息的特征图,结构感知模块通过计算通道间的相似度,对不同通道进行加权,并进行特征融合;步骤2.3:解码器包含上采样和细节强调模块,下采样结束后得到的特征图进行上采样还原回原始图像分辨率,最终生成两幅通道数为1的视差图;其中将来自跳跃连接包含丰富空间信息的特征和来自深层经过上采样得到的包含语义信息的特征输入到细节强调模块,细节强调模块采用通道注意力机制对不同通道标注重要程度并进行特征融合得到效果更好的特征图,最后输出视差图。3.根据权利要求2所述的一种基于无监督的立体匹配方法,其特征在于:在步骤2.2中,对特征图的最深层的特征层F
C
×
H
×
W
通过转置相乘的方法变成C
×
C大小的相似度图S
C
×
C
,再将相似性图S
C
×
C
通过使用max函数得到矩阵的最大值再相减的操作转变为区分性图D
C
×
C
,此时区分性图D
C
×
C
反应的是两个通道之间的差异性,表示的是第j个通道对第i个通道的影响程度,越不相似的两个通道得分越高,经过softmax层之后转换为注意力图A
C
×
C
,注意力图A
C
×
C
与输入的特征图F
C
×
H
×
W
进行矩阵相乘变为C
×
H
×
W大小的特征图并与特征层F
C
×
H
×
W
通过矩阵相加的方法进行特征融合,得到输出的特征层E
C
×
H
×
W
,此时特征层大小没有变化,却融合到了更多其他区域的响应。4.根据权利要求1所述的一种基于无监督的立体匹配方法,其特征在于:所述的步骤2中,编码器和解码器对应模块之间为跳跃连接,通过跳跃连接来实现特征找回,特征找回的方法是将编码器富含空间信息的低级特征和解码器富含上下文信息的高级特征在通道维度上进...

【专利技术属性】
技术研发人员:魏东李昌恺刘欢张潇瀚孙天翼
申请(专利权)人:沈阳工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1