一种对图像、视频进行维数约简的方法技术

技术编号:3852770 阅读:283 留言:0更新日期:2012-04-11 18:40
本发明专利技术利用人类视觉感知的时间一致性准则来解决非线性维数约简问题。时间一致性准则的基本思想是从快速变化的外界刺激中寻找变化缓慢的特征,这些特征位于在低维空间光滑流形上。因此,利用时间一致性准则研究流形学习问题就成为可能。本方法的优点在于由于利用了时间结构,因此可以方便地将其应用在视频序列中。在经典的流形学习数据集上的实验结果说明了方法的有效性。在MNIST库上的实验结果说明有监督的方法可以用于分类应用中。

【技术实现步骤摘要】

本专利技术涉及模式识别、图像处理技术,尤其涉及一种对图像、视频进行低维约简的方法,该方法可以应用到模式识别领域。
技术介绍
利用有限高维样本数据进行学习通常遭遇维数灾难问题,而避免维数灾难问题最常见的方法是降维。传统的线性子空间方法对非线性结构的数据不能进行有效地处理。高维数据的几何特性使得在低维嵌入流形上建立模型成为可能,因此,流形学习作为一种能够发现高维数据非线性几何结构的有效方法,成为近几年来的研究热点。其研究成果和技术已经应用于模式识别、计算机视觉、图像处理等相关领域。如高维数据的可视化、可听化;基于内容检索的模型;视频中三维对象的跟踪和检测;从静态二维图像中进行三维对象的姿态估计和识别;二维和三维对象的形状重构;从运动中构建结构、从阴影中成形等。此外流形学习还应用于自然语言处理、基因表达分析等生物信息处理领域,特别是在基因表达分析中,用于检测和区分不同的疾病和疾病类型。 总体而言,流形学习方法可以分为局部方法和全局方法。全局方法主要有主成分分析(Principle Component Analysis,PCA)与Kernel PCA,多尺度分析(Multidimensional Scaling,MDS)与等特征匹配(Isometric featuremapping,Isomap);局部方法主要有局部线性嵌入(LocalLinearEmbedding,LLE)、Laplacian特征映射(Laplacian Eigenmap,LE)、Hessian特征映射(Hessian LLE)、扩散映射(Diffusion Map)、局部切空间对齐(LocalTangentSpaceAlignment,LTSA)等。 LLE算法的主要思想是把输入的数据点以某种方式映射到一个唯一的低维全局坐标系统之中,并使得这种映射能够保留相邻数据点之间的某些关系。LLE算法期望每个数据点和它的相邻数据点都能位于某个流形的局部线性块上或其附近。事实上,通过将每个数据点都用它的相邻点的线性组合来估计,就可以捕获到该局部线性块的内在几何特性。而这些组合系数对上面所提到的三种变换操作(平移、旋转和缩放)具有不变性。因此,捕获到的局部几何特性在原始高维空间中的描述在低维空间中将同样正确有效。这样,LLE算法就找到了一个低维数据点的集合,使得它的每个数据点能够由其相邻的数据点使用上述原始高维空间中得到的组合系数进行线性重构。 Tenenbaum等人提出了Isomap算法,其主要思想是应用经典多尺度分析MDS算法把数据点从原始高维空间映射到低维空间的坐标系上。算法的关键就在于输入给MDS的数据点的距离不再是欧式距离,而是流形上的测地线距离。所谓测地线距离通俗地讲就是流形上的两点沿流形曲面的最短距离。流形的形状只能从作为样本的输入数据中寻找线索,但并不能准确得到。因此算法中实际使用的测地线距离是由一系列短距离的和来近似的。这里的短距离指的是两个邻点之间的距离。最后,算法将测地线距离作为MDS算法的输入去寻找一个具有类似成对距离的低维数据点的集合。 Belkin和Niyogi提出的Laplacian特征映射算法是为找到一个在平均意义上保留数据点局部特性(近邻点通过映射后仍为近邻点)的映射,Donoho D和Grimes C认为Isomap要求参数空间的概率测度有凸支撑,进行全局等距映射这个条件过于严格,而局部等距更合理,从而提出一种Hessian特征映射算法。Hessian特征映射和Laplacian特征映射的理论框架非常相似,只是使用Hessian算子代替了Laplacian算子。 很多的流形学习方法的目标函数都归结于最小化一个低维表示的二次函数,这个问题可以很自然地转化为求关系矩阵的特征向量问题。如果关系矩阵的每一行的和都为1,那么元素就可以看作随机意义上从到的一步转移概率。受此启发,Coifman等首先使用高斯核函数定义图中任意两点的边,然后利用归一化方法构建图上的扩散过程。扩散过程的转移矩阵构成算子的核,对应于一次转移概率,表示从到随机游走步的转移概率。而对核进行特征分解可得到映射到低维空间的特征向量,Coifman等称之为扩散映射。 对于非线性流形来说,全局的非线性结构来自于局部线性分析和局部线性信息的全局对齐,根据这个思想浙江大学张振跃等提出局部切空间对齐算法(LTSA)。 上述方法大都是非线性降维方法,近年来,也有一些线性的方法出现。Xiaofei He基于谱图理论给出了Laplacian特征映射的线性化方法LocalPreserving Projections,Jian Yang在LPP基础上给出了无监督的鉴别方法Unsupervised Discriminant Projection。 目前,大部分的流形学习方法取得了很多重要的研究成果,但是还存在着两方面的问题。首先,目前的算法大都在图像库,特别是人造数据集上进行测试,而对视频数据进行研究的方法并不多。事实上,仅考虑空间特性是远远不够的,图像序列的时间相关性是更为重要的特性,因此,有必要研究视频序列的流形学习方法。 其次,目前的流行学习算法并不适合模式识别应用。大部分算法都是保持近邻关系,与模式识别应用没有直接的关系。同时,包括ISOmap和LLE在内,都只是发现训练样本集上的低维坐标,对于新的测试样本,并没有直接的转换公式来计算测试样本的低维坐标,因此,并不适合模式识别应用。 近年来,神经科学的研究取得很多重大发展,大量神经元对信息的编码方法成为对人脑表示方法研究的基础。如果一个神经元的触发率对应于高维空间中的一维,那么图像信息就能够由和像素个数相等的神经元所表示。神经生物学研究表明,光照或视角的不同引起刺激图像发生微小的变化时,视感知系统的响应具有某种特性的不变性。神经生理学和心理学理论认为连续变化的信号本身蕴含了这种不变性。神经生理学研究还发现整个神经细胞群的点火率可以由少量变量组成的连续函数描述,如人眼转动的角度和头旋转的方向,这表明神经元的群体活动被限定在低维空间光滑流形上,并由其内在的低维结构所控制。 事实上,人类的视觉系统在对外界环境进行观察的过程中,传感信号和环境表示都是随着时间而迅速变化的,而相关的特征则是随时间而缓慢变化的,例如某个对象或者其位置等都是一定时间内保持不变的。因此,如果能够从快速变化的外界信号中提取缓慢变化的特征,那么这些特征就可以反映环境的性质,对于平移、旋转、缩放、视角等具有不变性,或者至少具有鲁棒性。这种特性叫做慢变性(Temporal Slowness)。 也就是说,从高维的图像原始空间,按照慢变性准则,可以得到低维流形上的嵌入坐标,并且能够保持平移、旋转、缩放、视角等具有不变性。 总之,本方法借鉴人类视觉感知系统的特性,针对目前流形学习方法存在的上述问题,提出了一种新的适合于视频数据的不变特征表示方法。该方法可以很方便地修改成有监督的形式,因此,可以用于模式识别应用中。 前文所引用的参考文献如下 Balasubramanian M.,Schwartz E.L.TheIsomap algorithm and topological stability.Science,Vol.295(5552)7a,本文档来自技高网...

【技术保护点】
一种对视频进行维数约简的方法,其特征在于,该方法包括下列步骤: 步骤1:提取视频序列的每一帧图像x↓[i],i=1,2,…,N; 步骤2:将所述视频序列的每一帧图像的原始数据扩展到非线性扩展空间*↓[i],i=1,2,…,N;   步骤3:计算***i=1,2,…n-1,根据下列公式(7) *** (7) 计算协方差矩阵A, 步骤4:利用广义特征向量问题求解满足公式(7)的广义特征向量,对于原始D维数据空间,保留小于等于D个最小的非零特征值对 应的特征向量,从而获得低维嵌入空间中的坐标。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄雅平
申请(专利权)人:北京交通大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1