当前位置: 首页 > 专利查询>三峡大学专利>正文

基于双重注意力机制和位置编码约束的立体匹配方法组成比例

技术编号:38324262 阅读:15 留言:0更新日期:2023-07-29 09:06
本发明专利技术提供一种基于双重注意力机制和位置编码约束的立体匹配方法,涉及计算机视觉领域,包括以下步骤:(1)特征提取,对左右视图进行特征抽取得到channel为C

【技术实现步骤摘要】
基于双重注意力机制和位置编码约束的立体匹配方法


[0001]本专利技术涉及一种立体图像对的视差估计方法,更具体的说是涉及一种双重注意力机制和位置编码约束的立体匹配方法,属于计算机视觉领域。

技术介绍

[0002]目前,机器视觉领域使用主动式传感技术和被动式传感技术来获取图像深度信息。主动式传感技术包括飞行时间、结构光和激光雷达,但由于分辨率、传感距离、光源影响和成本昂贵等问题,存在一定的局限性。相比之下,被动式传感技术中双目立体视觉具有低成本、易实现和易扩展等优点,因此在无人驾驶、增强现实和智能机器人等领域得到广泛应用,并具有巨大的应用前景和社会意义。
[0003]双目立体视觉是机器视觉领域的重要分支,自上世纪60年代中期以来,该技术得到了广泛的研究和应用。随着计算机硬件和算法的不断发展,双目立体视觉在计算机视觉、自动驾驶、遥感测绘、缺陷检测、三维重建等领域应用极为广泛。该技术的基本原理类似于人眼,通过左右眼视角的差异来获取物体在不同视角下的图像信息,利用三角定位法来获得二维图像上的一点在三维空间内的位置坐标,并通过相关的三维重建技术来获得重建目标的三维信息。
[0004]一个完整的双目立体视觉系统由多个部分组成,包括图像获取、相机标定、特征提取、立体匹配、深度确定和重建等。其中,双目立体视觉的核心步骤是立体匹配,它对于最终结果具有重要的影响。在进行立体匹配时,需要经过校正的左右图像,使用匹配搜索算法来寻找对应像素点,并计算出左右视差值。这类方法的难点在于左右相机图片的匹配,匹配的精确程度会直接影响最后算法成像的效果。理论上,此方法可以较精确地恢复深度信息,然而实际运用中其精度往往受到拍摄条件的制约:由于真实场景的复杂性,图像可能会受到光照影响产生噪点,或者由于物体遮挡、无纹理区域和弱纹理区域的自身特点,导致匹配出现错误,从而影响视差精度。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种基于双重注意力机制和位置编码约束的立体匹配方法,利用自注意力和交叉注意力构建并行的Vision Transformer,实现了双向计算,提高了网络学习特征的效率与灵活性,并有效利用位置编码建立邻近像素间的位置约束关系,从而提高网络匹配能力和运行速度。
[0006]为实现上述目的,本专利技术采用如下之技术方案:
[0007]一种基于双重注意力机制和位置编码约束的立体匹配方法,包括以下步骤:
[0008](1)图像特征提取:
[0009]给定一个图像对,分别用作源图像和目标图像,采用沙漏形编码器

解码器架构来提取多尺度图像特征,编码器由五个残差块组成,然后是一个SPP模块,解码部分使用转置卷积,dense

blocks和最后的卷积输出层,得到的特征图和原图尺寸一样;
[0010](2)特征匹配:
[0011]采用交替注意力机制:自注意力计算同一图像中沿着极线的像素之间的注意力,而交叉注意力计算左右图像中对应极线上像素的注意力;在N

1层中交替计算自注意力和交叉注意力;这种交替方案根据图像上下文和相对位置不断更新特征描述符;在最后的交叉注意力层中,使用最受关注的像素来估计视差;
[0012](3)位置编码:
[0013]优化对于弱纹理区域的适应能力,引入用于相对位置建模的位置编码;
[0014](4)注意力掩码:
[0015]在最后的交叉注意力层中引入了一个的二进制掩码,左图中的每个像素只需关注右图中在相同坐标x_L左侧的像素,减小了匹配过程中的计算量;
[0016](5)唯一性约束:
[0017]对立体匹配过程添加唯一性约束,即右图像中的每个像素最多分配给左图像中的一个像素;采用熵正则化的最优输运的方案来建立左右视图间的唯一性约束;
[0018](6)视差估计:
[0019]根据之前步骤的计算结果预测输入图像视差。
[0020]优选的,所述步骤(6)中使用一种改进的赢者通吃方法进行视差估计,通过从最优传输分配矩阵T中找到最可能匹配的位置(记为k)来计算视差,并在其周围构建一个3px的窗口N_3(k);对3px窗口内的匹配概率进行重新归一化处理,使其总和为1;候选视差的加权和即为估计视差d(k)。
[0021]优选的,所述步骤(1)的具体方法为:采用沙漏形编码器

解码器架构来提取多尺度图像特征;编码器由五个残差块组成,然后是一个SPP模块,以实现更高效的全局上下文信息采集;解码部分使用转置卷积,dense

blocks和最后的卷积输出层;经过上面两个过程对特征进行抽取得到的是channel为C_e,空间分辨率与原输入尺度(I_h,I_w)一致的特征图。
[0022]优选的,所述步骤(2)的具体方法为:使用multi

head attention,将特征图在channel维度进行分组操作,通过将特征描述符C_e的通道维度分成N_h组从而增强特征的表达的能力,通过softmax对相似性进行归一化,得到加权组合因子a_h,对之前划分出来的组进行组合,可得输出值向量,然后将输出值向量V_o与原始特征描述符进行相加得到增强之后的特征描述符,形成残差连接。
[0023]优选的,所述步骤(3)的具体方法为:通过位置编码e_p提供数据相关的空间信息,相较于绝对像素位置,相对像素距离具有平移不变性,因此本专利技术选择相对位置编码。
[0024]优选的,所述步骤(4)的具体方法为:对于一个给定的代价矩阵M,其两个边缘分布a和b的长度为I_w,通过求解最佳耦合矩阵T来实现最优输运。
[0025]优选的,所述步骤(5)的具体方法为:设x_L和x_R是同一物理点在左右视图上的投影位置,取x从左到右为正;立体匹配系统中双目相机的空间排列保证了在经过校准后,所有点都应满足x_R≤x_L;因此,在最后的交叉注意力层中,左图中的每个像素只需关注右图中在相同坐标x_L左侧的像素,即只关注在右图中满足x≤x_L的点x。
[0026]优选的,所述步骤(6)的具体方法为:通过从最优传输分配矩阵T中找到最可能匹配的位置(记为k)来计算视差,并在其周围构建一个3px的窗口N_3(k),对3px窗口内的匹配
概率进行重新归一化处理,使其总和为1,候选视差的加权和即为估计视差d(k)。
[0027]本专利技术与现有技术相比具有明显的优点和有益效果,具体而言,由上述技术方案可知:
[0028]本专利技术主要提出了一种基于双重注意力机制和位置编码约束的立体匹配方法,主要可以解决以下问题:
[0029]1)大量的立体匹配网络是通过建立匹配代价体来建立左右视图的相关性,但很容易受到影像噪声的影响,而且当影像处于弱纹理或重复纹理区域,这个代价值极有可能无法准确的反映像素之间的相关性,本专利技术提出了基于双重注意力机制和位置编码约束的立体匹配方法,增强了网络在弱纹理区域的匹配精度;
[0030]2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双重注意力机制和位置编码约束的立体匹配方法,其特征在于,包括以下步骤:(1)图像特征提取:给定一个图像对,分别用作源图像和目标图像,采用沙漏形编码器

解码器架构来提取多尺度图像特征,编码器由五个残差块组成,然后是一个SPP模块,解码部分使用转置卷积,dense

blocks和最后的卷积输出层,得到的特征图和原图尺寸一样;(2)特征匹配:采用交替注意力机制:自注意力计算同一图像中沿着极线的像素之间的注意力,而交叉注意力计算左右图像中对应极线上像素的注意力;在N

1层中交替计算自注意力和交叉注意力;这种交替方案根据图像上下文和相对位置不断更新特征描述符;在最后的交叉注意力层中,使用最受关注的像素来估计视差;(3)位置编码:优化对于弱纹理区域的适应能力,引入用于相对位置建模的位置编码;(4)注意力掩码:在最后的交叉注意力层中引入了一个的二进制掩码,左图中的每个像素只需关注右图中在相同坐标x
L
左侧的像素,减小了匹配过程中的计算量;(5)唯一性约束:对立体匹配过程添加唯一性约束,即右图像中的每个像素最多分配给左图像中的一个像素;采用熵正则化的最优输运的方案来建立左右视图间的唯一性约束;(6)视差估计:根据之前步骤的计算结果预测输入图像视差。2.根据权利要求1所述的基于双重注意力机制和位置编码约束的立体匹配方法,其特征在于:所述步骤(6)中使用一种改进的赢者通吃方法进行视差估计,通过从最优传输分配矩阵中找到最可能匹配的位置(记为k)来计算视差,并在其周围构建一个3px的窗口N3(k);对3px窗口内的匹配概率进行重新归一化处理,使其总和为1;候选视差的加权和即为估计视差3.根据权利要求1所述的基于双重注意力机制和位置编码约束的立体匹配方法,其特征在于:所述步骤(1)的具体方法为:采用沙漏形编码器

解码器架构来提取多尺度图像特征;编码器由五个残差块组成,然后是一个SPP模块,以实现更高效的全局上下文信息采集;解码部分使用转置卷积,dense

blocks和最后的卷积输出层;经过上面两个过程对特征进行抽取得到的是channel为C
e
,空间分辨率与原输入尺度(I
h
,...

【专利技术属性】
技术研发人员:李旭琛
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1