基于三维自组织映射的立体视频视差估计方法技术

技术编号:13741243 阅读:88 留言:0更新日期:2016-09-22 22:27
本发明专利技术公开一种基于三维自组织映射的立体视频视差估计方法,包括模式库的训练和视差模式识别两个过程,先用3DSOM算法对视差序列样本进行学习训练,得到最佳匹配模式库;再用3DSOM算法对视差序列每帧进行视差模式识别,得到视差预测图。与传统的基于块的视差估计方法相比,本方法能得到更好的视差预测图,并且计算量小。

【技术实现步骤摘要】

本专利技术涉及图像处理
,具体涉及一种基于三维自组织映射的立体视频视差估计方法
技术介绍
视差估计作为立体视频编码的关键技术,已经得到越来越多的重视和关注,各种算法也相继提出。传统视差估计算法大致可分为两大类,一类是基于区域的视差估计,即把图像中的某一点或某一块作为基本匹配单元,在另一幅图像中搜索对应的点或块,从而得到各个点的视差,这类算法可以得到稠密的视差估计。根据匹配策略的不同,基于区域的视差估计可以分为局部法和全局法。代表性的局部法是基于块的方法,实现复杂度低。代表性的全局算法有动态规划法、图割法和置信度传播法等。全局法能得到比局部法更好的结果,但是其计算复杂度高,不便于硬件实现。另一类是基于特征的视差估计,即利用图像的自身特征来实现匹配,这些特征包括一些特征点(如SIFT关键点等)或几何结构。此类算法只能得到稀疏的视差估计,且特征的提取比较复杂。可见,目前视差估计技术仍未成熟,没有一种具有普适性的视差估计方法,而且计算量巨大。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于三维自组织映射的立体视频视差估计方法,其能提高视差预测图像的质量。为解决上述问题,本专利技术是通过以下技术方案实现的:一种基于三维自组织映射的立体视频视差估计方法,包括如下步骤:步骤1、对视差序列样本进行不断学习训练,得到最佳匹配模式库;步骤1.1、对视差序列样本的每帧图像进行分块,每个图像块为一个训练矢量,共得到含L个训练矢量的训练矢量集;步骤1.2、从训练矢量集中选择N个训练矢量来构成初始化模式库,该初始模式库中的训练矢量称为模式矢量,且初始模式库中的模式矢量排列成三维立体结构;上述N<<L;步骤1.3、设定初始化邻域函数;步骤1.4、输入一个训练矢量,并分别计算该训练矢量与初始模式库中的各个模式矢量的失真,从中选择出与训练矢量失真最小的模式矢量作为获胜模式矢量;步骤1.5、调整获胜模式矢量及其三维邻域范围内的模式矢量;步骤1.6、返回步骤步骤1.3重新选择一个训练矢量,直到输入完所有的训练矢量,得到最佳匹配模式库;步骤2、对待估计的视差序列的每帧图像进行分块处理,并将这些待估计图像块与最佳匹配模式库中的模式矢量进行视差模式匹配,得到待估计的视差序列的预测图。上述步骤1.2中,采用随机法从训练矢量集中选择N个特征图像块来构成初始模式库。上述步骤1.4中,采用下式计算训练矢量与模式矢量的失真dj(t);dj(t)=||X(t)-Wj(t)2||其中,Wj(t)为模式矢量,X(t)为训练矢量;j=0,1,…,N-1,N为设定的三维自组织映射网络的大小;t=0,1,…,L-1,L为训练矢量集中训练矢量的个数。上述步骤1.5中,根据下式调整获胜模式矢量及其三维邻域范围内的模式矢量其中,Wj(t+1)为第t+1次训练时的模式矢量,Wj(t)为第t次训练时的模式矢量,X(t)为训练矢量,j*为获胜模式矢量,为获胜模式矢量j*在第t次训练时的邻域函数,α(t)为第t次训练时的学习速度函数;j=0,1,…,N-1,N为设定的三维自组织映射网络的大小;t=0,1,…,L-1,L为训练矢量集中训练矢量的个数。上述步骤2具体为:步骤2.1、将待估计的视差序列的每帧分块,其中待估计的视差序列的每帧分块大小与视差序列样本的每帧分块大小相一致;步骤2.2、分别计算每一个待估计图像块与最佳匹配模式库中各模式矢量的失真,并选择具有最小失真的模式矢量作为该图像块的预测块;步骤2.3、对待估计的视差序列的所有图像进行步骤2.2的处理,得到待估计的视差序列的预测图。与现有技术相比,本专利技术包括模式库的训练和视差模式识别两个过程,先用3DSOM算法对视差序列样本进行学习训练,得到最佳匹配模式库;再用3DSOM算法对视差序列每帧进行视差模式识别,得到视差预测图。与传统的基于块的视差估计方法相比,本方法能得到更好的视差预测图,并且计算量小。附图说明图1为视差模式库的训练过程。图2为视差模式识别得到视差预测图过程。图3为Exit序列视差预测图像的PSNR分布情况。图4为Vassar序列视差预测图像的PSNR分布情况。具体实施方式下面结合实施例,对本
技术实现思路
作进一步地详细说明,但本专利技术的实施方式不限于此。一种基于三维自组织映射的立体视频视差估计方法,包括步骤如下:步骤1)对视差序列样本进行不断学习训练,得到最佳匹配模式库。参见图1。用3DSOM(三维自组织映射)算法对初始模式库进行学习训练,得到最佳匹配模式库。根据人脑神经元的组织原理所提出的自组织映射(SOM)算法,是一种具有自组织特性的人工神经网络算法。该算法模拟了人脑神经系统对某一图形或某一频率特定兴奋的特征,在模式识别和数据挖掘等领域得到了深入的研究和广泛的应用,是一种高效的数据聚类方法。SOM算法的核心是寻找最佳分类,即通过对大量的样本序列的不断学习和训练,从而得到最优匹配的模式库。为了提高视差模式库的性能,本专利技术对SOM算法进行了改进,提出了一种三维自组织映射算法(3DSOM)。三维SOM网络结构及其算法能有效地将二维输入映射为三维输出,从而实现三维信号的非线性映射。三维SOM网络将映射层神经元排列成三维立体结构,三维立体结构的行数、列数和层数可根据应用的需要选取不同的值,排列成不同的三维结构以适应不同应用;通常三维邻域形状可选取球形邻域、正方形邻域或正交十字邻域,选取不同的三维邻域形状对算法的性能有一定的影响。SOM网络与普通的竞争网络一样,对于每个输入模式,在映射层都有相应的获胜节点,获胜节点代表最相似的模式,该节点及其三维邻域范围内的所有节点均按一定规则调整其权值。与二维平面结构邻域相比,三维立体结构邻域在相等邻域半径内的节点数量增多,节点被调整的机会增加,因此,更有利于得到最佳匹配的模式。基于3DSOM算法的模式库训练步骤如下:步骤1.1)设定SOM网络大小为(N,M),其中N、M分别为模式库的大小、模式库中模式矢量的大小。步骤1.2)对视差序列样本的每帧分块,块的大小一般取8×8。每个图像块为一个训练矢量,共得到含L个训练矢量的训练矢量集{X(t);t=0,1,…,L-1本文档来自技高网
...

【技术保护点】
基于三维自组织映射的立体视频视差估计方法,其特征是,包括如下步骤:步骤1、对视差序列样本进行不断学习训练,得到最佳匹配模式库;步骤1.1、对视差序列样本的每帧图像进行分块,每个图像块为一个训练矢量,共得到含L个训练矢量的训练矢量集;步骤1.2、从训练矢量集中选择N个训练矢量来构成初始化模式库,该初始模式库中的训练矢量称为模式矢量,且初始模式库中的模式矢量排列成三维立体结构;上述N<<L;步骤1.3、设定初始化邻域函数;步骤1.4、输入一个训练矢量,并分别计算该训练矢量与初始模式库中的各个模式矢量的失真,从中选择出与训练矢量失真最小的模式矢量作为获胜模式矢量;步骤1.5、调整获胜模式矢量及其三维邻域范围内的模式矢量;步骤1.6、返回步骤步骤1.3重新选择一个训练矢量,直到输入完所有的训练矢量,得到最佳匹配模式库;步骤2、对待估计的视差序列的每帧图像进行分块处理,并将这些待估计图像块与最佳匹配模式库中的模式矢量进行视差模式匹配,得到待估计的视差序列的预测图。

【技术特征摘要】
1.基于三维自组织映射的立体视频视差估计方法,其特征是,包括如下步骤:步骤1、对视差序列样本进行不断学习训练,得到最佳匹配模式库;步骤1.1、对视差序列样本的每帧图像进行分块,每个图像块为一个训练矢量,共得到含L个训练矢量的训练矢量集;步骤1.2、从训练矢量集中选择N个训练矢量来构成初始化模式库,该初始模式库中的训练矢量称为模式矢量,且初始模式库中的模式矢量排列成三维立体结构;上述N<<L;步骤1.3、设定初始化邻域函数;步骤1.4、输入一个训练矢量,并分别计算该训练矢量与初始模式库中的各个模式矢量的失真,从中选择出与训练矢量失真最小的模式矢量作为获胜模式矢量;步骤1.5、调整获胜模式矢量及其三维邻域范围内的模式矢量;步骤1.6、返回步骤步骤1.3重新选择一个训练矢量,直到输入完所有的训练矢量,得到最佳匹配模式库;步骤2、对待估计的视差序列的每帧图像进行分块处理,并将这些待估计图像块与最佳匹配模式库中的模式矢量进行视差模式匹配,得到待估计的视差序列的预测图。2.根据权利要求1所述基于三维自组织映射的立体视频视差估计方法,其特征是,步骤1.2中,采用随机法从训练矢量集中选择N个训练矢量来构成初始模式库。3.根据权利要求1所述基于三维自组织映射的立体视频视差估计方法,其特征是,步骤1.4中,采用下式计算训...

【专利技术属性】
技术研发人员:黎洪松程福林
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1