一种基于水平可变形注意力模块的双目立体匹配方法组成比例

技术编号:38866478 阅读:36 留言:0更新日期:2023-09-22 14:05
本发明专利技术涉及一种基于水平可变形注意力模块的双目立体匹配方法,属于图像处理领域。本发明专利技术为了解决非局部注意力机制计算复杂度高、对于立体匹配任务可能引入不必要或错误的上下文信息,并且没有考虑到立体匹配任务中存在的水平约束和视差连续性约束的问题,本发明专利技术通过水平可变形注意力模块处理ResNet骨干网络提取的左右视图的特征,进行进一步的特征处理,处理后的特征通过特征级联形成匹配代价体,然后通过三维卷积视差回归得到最终的视差图。本发明专利技术提升了视差图质量。本发明专利技术提升了视差图质量。本发明专利技术提升了视差图质量。

【技术实现步骤摘要】
一种基于水平可变形注意力模块的双目立体匹配方法


[0001]本专利技术属于图像处理领域,具体涉及一种基于水平可变形注意力模块的双目立体匹配方法。

技术介绍

[0002]立体匹配是计算机视觉中的一个基础而又具有挑战性的任务,它在自动驾驶、稠密重建和其他深度相关的任务中有着广泛的应用。立体匹配的目标是根据两幅或多幅视角不同的图像,计算出图像中每个像素点对应的视差或深度信息。立体匹配的难点在于如何在存在纹理缺失、遮挡、光照变化等不利条件的区域中,准确地找到图像间的对应关系。为了解决这个问题,近年来出现了许多基于深度学习的立体匹配方法,它们通常采用端到端的网络结构,包括特征提取、代价计算、代价聚合和视差回归等模块。其中,特征提取模块用于从输入图像中提取高层次的语义特征,代价计算模块用于根据特征之间的相似性或差异性构建代价体积,代价聚合模块用于对代价体积进行正则化和优化,视差回归模块用于从优化后的代价体积中生成最终的视差图。在这些模块中,代价聚合模块是影响立体匹配性能的关键因素之一,它需要充分利用上下文信息来消除歧义和噪声。为了捕获上下文信息,一种常见的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于水平可变形注意力模块的双目立体匹配方法,其特征在于,该方法包括:S1、双目立体匹配方法的左视图输入第一ResNet骨干网络提取的左视图的特征,双目立体匹配方法的右视图输入第二ResNet骨干网络提取的右视图的特征;S2、第一ResNet骨干网络输出的特征输入第一水平可形变注意力模块进行进一步的特征处理,第二ResNet骨干网络输出的特征输入第二水平可形变注意力模块进行进一步的特征处理;S3、第一水平可形变注意力模块和第二水平可形变注意力模块处理后的特征通过特征级联形成匹配代价体,然后通过三维卷积视差回归得到最终的视差图;其中,第一水平可形变注意力模块和第二水平可形变注意力模块为相同的水平可形变注意力模块,均包括水平注意力机制和变形卷积模块。2.如权利要求1所述的基于水平可变形注意力模块的双目立体匹配方法,其特征在于,第一ResNet骨干网络和第二ResNet骨干网络为相同的ResNet骨干网络。3.如权利要求1所述的基于水平可变形注意力模块的双目立体匹配方法,其特征在于,第一ResNet骨干网络和第二ResNet骨干网络之间进行参数共享。4.如权利要求1所述的基于水平可变形注意力模块的双目立体匹配方法,其特征在于,第一水平可形变注意力模块和第二水平可形变注意力模块之间进行参数共享。5.如权利要求1

4任一项所述的基于水平可变形注意力模块的双目立体匹配方法,其特征在于,所述水平注意力机制具体包括:将输入的一元特征(Unary feature)表示为X∈R
C
×
H
×
W
其中C、H和W分别为通道数、空间高度和空间宽度;首先,使用3个具有1
×
1卷积核的卷积层f_query、f_key和f_value对X进行卷积处理分别得到Q∈R
C
′×
H
×
W
,K∈R
C
′×
H
×
W
和V∈R
C
×
H
×
W
,其中C'=C/2;然后,将三个输出的特征分别处理,对Q进行张量扁平化和转置处理得到其中N=H
×
W;对K和V进行矩阵变维和重采样处理得到W;对K和V进行矩阵变维和重采样处理得到和和和通过相关性矩阵计算之后经过s...

【专利技术属性】
技术研发人员:李保平陈娜杨飞李晖
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1