一种基于卷积神经网络的立体图像视差匹配方法组成比例

技术编号:19783412 阅读:29 留言:0更新日期:2018-12-15 12:55
本发明专利技术公开了一种基于卷积神经网络的立体图像视差匹配方法,本发明专利技术基于现有的用于视差估计的端到端学习几何和上下文的深度立体回归算法,通过改进其所用的几何上下文卷积神经网络,利用LSTM神经网络作为网络层替代原本网络模型中的soft‑argmin网络层操作。相比于原有的依靠人工定义规则的soft‑argmin网络操作,LSMT通过网络学习出一个规则,以此来提高网络性能,提高亚像素的准确性,得到更加精确的视差估计图,而且LSTM网络擅长处理成本序列,加快了网络的处理速度,提高匹配效率。

【技术实现步骤摘要】
一种基于卷积神经网络的立体图像视差匹配方法
本专利技术属于计算机视觉
,具体涉及一种基于卷积神经网络的立体图像视差匹配方法。
技术介绍
从立体图像对中准确地估计出三维几何信息是许多计算机视觉应用场景中的核心问题,比如自动驾驶和无人机等。其中较为关键的一步便是计算已校正的图像对中相应像素的视差,而在实际场景下,要实现较为精确的视差估计是一个极具挑战性的问题。现有的一些视差估计方法,在某些情况下无法对立体图像对进行良好的视差估计,例如无纹理区域,反射表面,薄结构和重复图案等。也有一些视差估计方法通过池化或者基于梯度的归一化方法来减少估计失败率,这就导致算法需要在平滑表面和检测细节结构之间做出平衡。相比较而言,深度卷积神经网络在理解语义上非常有效,由于大量训练数据集的监督,它们优于分类任务。针对视差估计算法中的一些问题,获取全局语义上下文信息而不是只依赖于局部几何信息能够良好地解决它。当前利用深度学习表示的立体算法主要关注于用它们生成一元项等,传统的正则化和后续处理步骤仍然被需要,例如半全局块匹配,左右一致性检查等,这些正则化步骤的效果十分有限,因为这些步骤都是通过人工操作,浅层功能本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的立体图像视差匹配方法,其特征在于,包括如下步骤:步骤(1):图像预处理;对带有参考实参图的立体图像对的左图和右图分别作归一化处理,使其图像像素值在[‑1,1]中;步骤(2)构造用于端到端学习的卷积神经网络;包括以下网络层:2‑1.构造一个2D卷积操作层,由降采样层和残差块构成,每层网络后面跟随一个批量归一化层和一个已校正的线性非线性层;利用5*5的卷积核对输入图像先进行一次降采样操作,降采样因子为2,随后利用残差块对图像进行操作,该残差块总共有8个,且每个残差块由两个3*3的卷积核组成,输出为图像的一元特征;2‑2.构造计算立体匹配代价层;利用深度一元特征生成的成本量...

【技术特征摘要】
1.一种基于卷积神经网络的立体图像视差匹配方法,其特征在于,包括如下步骤:步骤(1):图像预处理;对带有参考实参图的立体图像对的左图和右图分别作归一化处理,使其图像像素值在[-1,1]中;步骤(2)构造用于端到端学习的卷积神经网络;包括以下网络层:2-1.构造一个2D卷积操作层,由降采样层和残差块构成,每层网络后面跟随一个批量归一化层和一个已校正的线性非线性层;利用5*5的卷积核对输入图像先进行一次降采样操作,降采样因子为2,随后利用残差块对图像进行操作,该残差块总共有8个,且每个残差块由两个3*3的卷积核组成,输出为图像的一元特征;2-2.构造计算立体匹配代价层;利用深度一元特征生成的成本量计算立体匹配的代价,并将步骤2-1中2D卷积操作层的输出级中的每个一元特征与对应的立体图像元组进行连接,并将其打包进一个4D量中;其中深度一元特征生成的成本量的维度为H*W*(D+1)*F,其中H、W分别为图像的高和宽,D为最大的视差值,F表示图像特征;2-3.构造学习上下文层;先有四层降采样组成3D正则化网络层,每层降采样因子为2,在编码级别中应用两个3*3*3的卷积,使得3D成本量的尺寸减少1/8;接着利用3D反卷积操作对解码器中的向量进行上采样操作,上采样因子为2,在解码级别中应用一个3*3*3的卷积,并在每个上采样层之前添加一个残差层,以此来保留图像中的高频率信息;最后由一个单3D反卷积层输出正则化的成本量,成本量维度为H*W*D;2-4.构造视差估计层;该网络层由LSMT神经网络构成,LSTM神经网络由包含四个交互层的重复模块构成,每个模块里由三个门来控制细胞单元状态信息,该三个门分别是输入门,遗忘门和输出门,每个门由一个sigmoid神经网络层和一...

【专利技术属性】
技术研发人员:王毅刚陈靖宇
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1