立体匹配方法组成比例

技术编号:25188143 阅读:20 留言:0更新日期:2020-08-07 21:15
本发明专利技术公开了一种立体匹配方法,包括:构建立体匹配模型,以及收集双目数据集来训练立体匹配模型;训练过程中,对于输入的双目图像对的左图和右图,首先提取N个尺度的特征,构成N尺度特征金字塔,并通过相关操作来构建N尺度代价体,对于N尺度代价体,通过基于稀疏点的同尺度内代价聚合与跨尺度代价聚合,得到N尺度的代价聚合结果,再通过回归与上采样得到视差预测值,基于视差预测值与双目数据集中对应的视差真值误差构建损失函数;训练完毕后,对于任意校正好的双目图像对,利用训练好的立体匹配模型预测视差值,从而完成立体匹配。该方法不仅具有明显的速度提升,同时保持较高的精度,而且对物体边缘区域十分有效。

【技术实现步骤摘要】
立体匹配方法
本专利技术涉及双目深度估计领域,尤其涉及一种高效的立体匹配方法。
技术介绍
深度信息在三维场景的理解中起着十分重要的作用,如对机器人或自动驾驶汽车,知道周围物体距自己的远近至关重要,这有助于他们避开障碍,并能够及时调整下一步的行为。相比于自动驾驶环境下相当昂贵的LiDAR传感器,传统的RGB相机可以为室外场景下的深度估计提供一种更为廉价的替代方案。其中,双目深度估计作为一项关键技术,因其本身的重要性及广泛的应用范围已在计算机视觉领域有相当长的研究历史,并在不断吸引越来越多的研究者投身这一领域。双目深度估计的关键任务就是立体匹配,即寻找双目图像中像素点之间的对应关系,之后便可以通过三角化计算得到深度值。高效且精确的立体匹配算法在许多现实世界中的应用中具有相当重要的意义,尤其是那些需要快速以及可靠响应的场景,如机器人导航、增强现实和自动驾驶等。传统的立体匹配算法一般可以分为四个步骤:1)匹配代价计算;2)代价聚合;3)视差计算;4)视差精细化。其中代价聚合是一个成功的立体匹配算法中的关键步骤。传统算法可以大致分为全局法和局部法。全局法通常优化一个全局的目标函数,而局部法往往只考虑邻域信息,因此使得局部法要比全局法具有更快的速度。尽管传统算法已经取得了很多进展,但在光照变化、无纹理、重复纹理及细小结构等挑战性情形下仍然会存在问题。近年来,基于深度学习的立体匹配算法得益于深度学习强大的表示学习能力,在上述挑战性情形下也能取得不错的结果。基于深度学习的方法大致可以分为两类:基于2D卷积和3D卷积的方法。它们的主要区别在于构建代价体(costvolume)的方式有所不同。从性能来讲,基于3D卷积的方法往往能够大大超越基于2D卷积的方法,但是速度却要慢一个量级以上。3D卷积的三次计算复杂度和相当高的内存消耗使得他们很难在实际中应用。比如,要产生KITTI数据集大小(384x1248)的视差图,目前比较流行的PSMNet模型需要4G左右的内存消耗,而且即便在高端的GPU上还需要410ms左右的时间。因此,如何显著地提升现有立体匹配算法的速度,同时保持相当的精度,展现出了极高的应用价值,是目前亟需解决的问题。
技术实现思路
本专利技术的目的是提供一种高效的立体匹配方法,不仅具有明显的速度提升,同时保持较高的精度,而且对物体边缘区域十分有效。本专利技术的目的是通过以下技术方案实现的:一种立体匹配方法,包括:构建立体匹配模型,以及收集双目数据集来训练立体匹配模型;训练过程中,对于输入的双目图像对的左图和右图,首先提取N个尺度的特征,构成N尺度特征金字塔,并通过相关操作来构建N尺度代价体,对于N尺度代价体,通过基于稀疏点的同尺度内代价聚合与跨尺度代价聚合,得到N尺度的代价聚合结果,再通过回归与上采样得到视差预测值,基于视差预测值与双目数据集中对应的视差真值误差构建损失函数;训练完毕后,对于任意校正好的双目图像对,利用训练好的立体匹配模型预测视差值,从而完成立体匹配。由上述本专利技术提供的技术方案可以看出,1)通过基于稀疏点的代价聚合方式能够很好地克服基于窗口的方法的缺陷,从而产生比较尖锐的物体边缘,并且更好地保持物体的整体结构;2)跨尺度代价聚合方式通过对传统算法的近似,能够使得模型结构可以端到端训练,而且具有明显的几何意义以及产生更好的预测结果;3)由于所提出的同尺度代价聚合和跨尺度代价聚合模块都非常地轻量,而且不依赖于任何的3D卷积,从根本上克服了3D卷积计算量大的缺陷,因此专利技术能够得到多达40倍的速度提升,同时保持较高的精度,具有极高的实用潜力。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种高效的立体匹配方法的流程图;图2为本专利技术实施例提供的立体匹配模型的框架图;图3为本专利技术实施例提供的基于稀疏点的代价聚合方式示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种高效的立体匹配算法,该方法主要解决传统的立体匹配算法所存在的各项缺陷,之前
技术介绍
中所介绍的:立体匹配的主要目的是寻找双目图像对像素点之间的对应关系。传统的立体匹配算法一般可以分为四个步骤:1)匹配代价计算;2)代价聚合;3)视差计算;4)视差精细化。其中,代价聚合作为立体匹配算法中的一个关键步骤,能够减少点与点之间匹配的歧义性,从而产生更加精确的视差估计结果,因此也是本专利技术的重点关注部分。传统算法可以大致分为全局法和局部法。全局法的通常优化一个全局的目标函数,代表性算法有GraphCut和BeliefPropagation等。由于全局优化的解空间很大,需要考虑所有像素点之间的关系,因此速度较慢。局部法往往只考虑邻域信息,采用滤波的方式来减少点与点之间匹配的噪声,如双边滤波和引导滤波等。因此局部法通常具有更快的速度。传统算法虽然已经取得了很多进展,但由于只依赖于图像本身的信息来计算匹配代价,使得它们在光照变化、无纹理、重复纹理或者细小结构的情况下仍存在问题。基于深度学习的方法得益于大数据以及深度学习强大的表示学习能力,在上述情况下也能取得不错的结果。但现有的高性能立体匹配算法大多基于计算代价昂贵的3D卷积,由此带来的三次计算量和相当高的内存消耗使得他们很难在实际中应用。为此,本专利技术实施例提供一种基于深度学习的高效立体匹配算法。基于上述技术背景知识,下面针对本专利技术所提供的方法进行介绍,图1为该方法的流程图,主要包括如下步骤:步骤1、构建立体匹配模型,以及收集双目数据集来训练立体匹配模型。本专利技术实施例中,所述双目数据集包括:合成数据集和真实数据集。例如,SceneFlow是一个大规模的合成数据集,包含三个子集:FlyingThings3D、Monkaa和Driving。一共有35435个训练数据对,3470个测试数据对,并且提供稠密的视差真值。KITTI和Middlebury是两个真实场景下的双目数据集(真实数据集),但数据较少,并且KITTI所提供的视差真值较为稀疏。通常情况下,首先利用合成数据集进行模型预训练,再利用真实数据集对模型进行微调。当然,对于实际应用场景,也可先使用双目相机采集得到相应数据,再利用应数据对预训练后的模型进行微调。值得注意的是,对实际采集的数据,需进行必要的极线校正,以使得对应点位于同一水平线。而目前的公开数据集均已校正完毕,故无需进行这一预处理。本领域技术人员可以理解,模型微调实际上与正常训练过程类似,区别主要在于微调时仅小幅本文档来自技高网
...

【技术保护点】
1.一种立体匹配方法,其特征在于,包括:/n构建立体匹配模型,以及收集双目数据集来训练立体匹配模型;/n训练过程中,对于输入的双目图像对的左图和右图,首先提取N个尺度的特征,构成N尺度特征金字塔,并通过相关操作来构建N尺度代价体,对于N尺度代价体,通过基于稀疏点的同尺度内代价聚合与跨尺度代价聚合,得到N尺度的代价聚合结果,再通过回归与上采样得到视差预测值,基于视差预测值与双目数据集中对应的视差真值误差构建损失函数;/n训练完毕后,对于任意校正好的双目图像对,利用训练好的立体匹配模型预测视差值,从而完成立体匹配。/n

【技术特征摘要】
1.一种立体匹配方法,其特征在于,包括:
构建立体匹配模型,以及收集双目数据集来训练立体匹配模型;
训练过程中,对于输入的双目图像对的左图和右图,首先提取N个尺度的特征,构成N尺度特征金字塔,并通过相关操作来构建N尺度代价体,对于N尺度代价体,通过基于稀疏点的同尺度内代价聚合与跨尺度代价聚合,得到N尺度的代价聚合结果,再通过回归与上采样得到视差预测值,基于视差预测值与双目数据集中对应的视差真值误差构建损失函数;
训练完毕后,对于任意校正好的双目图像对,利用训练好的立体匹配模型预测视差值,从而完成立体匹配。


2.根据权利要求1所述的一种立体匹配方法,其特征在于,所述双目数据集包括:合成数据集、以及真实数据集或者实际采集的数据,并且,通过随机上下翻转及随机颜色变换的方式对进行数据增强,同时相应的视差真值也进行对应的变换操作;
在训练过程中,首先利用合成数据集进行模型预训练,再利用真实数据集或者实际采集的数据对模型进行微调;
其中,实际采集的数据需要进行极线校正。


3.根据权利要求1所述的一种立体匹配方法,其特征在于,所述立体匹配模型包括:特征金字塔提取模块、代价体构建模块、自适应代价聚合模块、视差估计模块以及精细化模块;其中:
特征金字塔提取模块,基于共享的特征提取器,来提取双目图像对的左图和右图的N个尺度的图像特征,构成左图和右图的N尺度特征金字塔;
代价体构建模块,对左图和右图的N尺度特征金字塔中,相同尺度的特征进行相关操作,也即向量点乘操作,来构建N尺度代价体;...

【专利技术属性】
技术研发人员:张举勇徐豪飞
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1