一种基于深度参数学习的最大相关主成分分析方法技术

技术编号:19321372 阅读:163 留言:0更新日期:2018-11-03 11:23
本发明专利技术公开了一种基于深度参数学习的最大相关主成分分析方法,其针对具有非线性结构的高维数据能够有效地降维。这种基于深度参数学习的最大相关主成分分析方法,利用深度参数化的方法逼近未知但存在的非线性函数,把具有非线性结构的高维数据映射为具有线性结构的同维度数据,然后利用主成分分析对数据降维。

A method of maximum correlation principal component analysis based on deep parameter learning

The invention discloses a maximum correlation principal component analysis method based on depth parameter learning, which can effectively reduce dimension for high-dimensional data with non-linear structure. This method of maximum correlation principal component analysis based on depth parameter learning approximates unknown but existing non-linear functions by depth parameterization, maps high-dimensional data with non-linear structure into the same-dimensional data with linear structure, and then uses principal component analysis to reduce the dimension of data.

【技术实现步骤摘要】
一种基于深度参数学习的最大相关主成分分析方法
本专利技术属于数据处理,尤其是人脸数据库的数据降维的
,具体地涉及一种基于深度参数学习的最大相关主成分分析方法。
技术介绍
在大数据时代,面临着越来越多的数据分析和数据处理任务。面对这些任务时,主要存在两个问题。一是,在现实世界中,通常获取到的是更高维形式的数据。这些数据一般是把隐藏在低维子空间或者流形的本征低维结构嵌入在高维数据空间。高维度不仅需要更多的存储空间和计算成本,而且由于维度“诅咒”也增加了数据分析的难度。二是,现实世界的数据很可能被各种各样的噪声所破坏,这阻碍了分析数据中真实的信息和存在的相关性。为了准确、高效地处理这些真实世界的数据,人们总是努力从原始的高维数据中降低数据的维数和提取出重要的特征。其中主成分分析(PCA)是一种标准工具,可以从带噪声的或高维数据中提取相关特征信息。通过最小的努力,PCA提供了一种基本的方法来揭示隐藏的或简化的结构,并将高维数据降到更低的维度。在一些科学研究领域中,PCA有着广泛的应用,如图像分析,模式识别和机器学习。然而,PCA只考虑变量(特征)之间的线性相关性,不适用一些具有非线性相关结构的数据,比如瑞士卷数据。由于大多数真实世界数据是非线性,这将限制PCA的应用。为了解决PCA的这一缺点,许多科研人员致力于研究非线性降维方法。有人提出了核PCA(KPCA)方法,它是在特征空间中改写传统的PCA,通过使用核技巧,在一个再生核Hilbert空间中执行传统的线性算子PCA。事实上,一个大的数据集会导致一个大的核矩阵,而存储核矩阵可能变得困难。此外,如何选择合适的核函数完全取决于经验和列举。为了解决这个问题,最大方差展开(MVU)尝试学习一个核矩阵。然而,MVU增加了优化问题的约束,这可能不利于展开数据所在的流形空间。等距特征映射算法(Isomap)也是一种通过在低维流形上或者附近点保持数据两点间的测地线距离来展开数据的方法。Isomap基于每个数据点邻域的粗略计算,对估计数据流形的本征几何提供了一种简单的方法。然而,Isomap可能在邻域图中建立错误的连接,如短路。为了克服Isomap的缺点,提出了几种改进的Isomap方法。它们确实取得了良好的效果,但也缩小了Isomap的应用范围。与前面提到的关于全矩阵特征分解的非线性降维方法相比,局部线性嵌入(LLE)也侧重于保持数据的局部结构。与Isomap相比,它具有几个优点,包括在执行稀疏矩阵算法时实现更快的优化,有很多问题可以获得更好的结果。然而,当大比例的数据在低维空间中保持集中,或者遇到包含洞的流形时,可能会表现较差的性能。另一类降维方法是优化非凸目标函数,如多层自编码,局部线性调和(LLC),Sammon映射。多层自编码是这些方法中应用最广泛的一种。多层自编码可以看作是非线性PCA,它使用自适应多层“编码器”网络将高维数据转换为低维代码,以及类似的“解码器”网络,从低维代码中恢复数据。自编码的目标是从数据集中学习的一种表示(编码),通常是为了达到降维的目的。自编码已经成功地应用于数据的生成模型。然而,他们的训练可能很复杂。另一种类型的PCA是最大相关主成分分析(MCPCA),它首先通过线性或者非线性的转移算子,把数据映射到同纬度空间。然后最大化映射后得数据的协方差的q-KyFan范数(协方差矩阵的前q个最大的特征值之和)。然而,寻找转移算子是一项艰巨的任务。
技术实现思路
本专利技术的技术解决问题是:克服现有技术的不足,提供一种基于深度参数学习的最大相关主成分分析方法,其针对具有非线性结构的高维数据能够有效地降维。本专利技术的技术解决方案是:这种基于深度参数学习的最大相关主成分分析方法,利用深度参数化的方法逼近未知但存在的非线性函数,把具有非线性结构的高维数据映射为具有线性结构的同维度数据,然后利用主成分分析对数据降维。本专利技术通过学习来对转移算子进行参数化,该方法对各个特征采用相互独立的映射链,与神经网络的正向传播结构相似,但变量间的相互作用是独立的。因此,每个映射链只有一个输入变量,并逼近非线性转移算子。该方法利用深度参数化的方法逼近未知但存在的非线性函数,把具有非线性结构的高维数据映射为具有线性结构的同维度数据,然后利用主成分分析对数据降维,因此针对具有非线性结构的高维数据能够有效地降维。附图说明图1示出了几种人脸数据库的采样。图2是图1的数据使用降维方法,基于1-NN分类器获得的相对于降维维度的准确度。具体实施方式这种基于深度参数学习的最大相关主成分分析方法,利用深度参数化的方法逼近未知但存在的非线性函数,把具有非线性结构的高维数据映射为具有线性结构的同维度数据,然后利用主成分分析对数据降维。本专利技术通过学习来对转移算子进行参数化,该方法对各个特征采用相互独立的映射链,与神经网络的正向传播结构相似,但变量间的相互作用是独立的。因此,每个映射链只有一个输入变量,并逼近非线性转移算子。该方法利用深度参数化的方法逼近未知但存在的非线性函数,把具有非线性结构的高维数据映射为具有线性结构的同维度数据,然后利用主成分分析对数据降维,因此针对具有非线性结构的高维数据能够有效地降维。优选地,该方法包括以下步骤:(1)提出目标函数;(2)对目标函数优化。优选地,所述步骤(1)中:对于给定的原始数据集,表示为其中m和分别表示原始数据的维度和样本个数,原始数据X(0)已经中心化;定义公式(1)的数据流其中是权重,是偏值项,diag(·)表示把一个向量映射成一个对角矩阵,激活函数以及表示元素全为1的向量;使用φ表示对原始数据的非线性变换,X(2)=φ(X(0));通过最大化映射后的数据X(2)的协方差的q-FyFan范数,使协方差矩阵具有低秩属性。优选地,目标函数为公式(2)优选地,在所述步骤(2)中:考虑矩阵K的奇异值分解,K=Udiag(λ)VT,其中λ=(λ1,λ2,…,λm)T表示K的m个由大到小排列的奇异值;diag(λ)=UTKV以及λi=U(:,i)TKV(:,i);当K是一个正定对称矩阵时,U=V;协方差矩阵被认为是对称正定矩阵,q-KyFan范数(q≤m)写成公式(3)关于变量w1,w2,b1和b2的导数,写为公式(11)令θ=[w1,w2,b1,b2],J关于θ的导数为优选地,在所述步骤(2)中:获得目标函数关于变量的导数或者梯度后,采用最速下降法或者共轭梯度法逼近目标函数的最优点。现在给出一个本专利技术的详细实施例。该技术方案主要分为两个步骤,一是提出目标函数,二是对目标函数优化。(1)提出目标函数对于给定的原始数据集,表示为其中m和分别表示原始数据的维度和样本个数。为了不失一般性,原始数据X(0)已经中心化。深度参数化方法(以两层为例进行解释)定义下面的数据流其中是权重,是偏值项。diag(·)表示把一个向量映射成一个对角矩阵。激活函数以及表示元素全为1的向量。使用φ表示对原始数据的非线性变换,是对深度参数化方法的简化记号。即X(2)=φ(X(0))。MCPCADP通过最大化映射后的数据X(2)的协方差的q-FyFan范数,使协方差矩阵具有低秩属性。即,考察目标函数(2)目标函数优化为了优化该目标函数,需要对目标函数进行反向求导。由于目标函数时一个多层的本文档来自技高网
...

【技术保护点】
1.一种基于深度参数学习的最大相关主成分分析方法,其特征在于,该方法利用深度参数化的方法逼近未知但存在的非线性函数,把具有非线性结构的高维数据映射为具有线性结构的同维度数据,然后利用主成分分析对数据降维。

【技术特征摘要】
1.一种基于深度参数学习的最大相关主成分分析方法,其特征在于,该方法利用深度参数化的方法逼近未知但存在的非线性函数,把具有非线性结构的高维数据映射为具有线性结构的同维度数据,然后利用主成分分析对数据降维。2.根据权利要求1所述的基于深度参数学习的最大相关主成分分析方法,其特征在于,该方法包括以下步骤:(1)提出目标函数;(2)对目标函数优化。3.根据权利要求2所述的基于深度参数学习的最大相关主成分分析方法,其特征在于,所述步骤(1)中:对于给定的原始数据集,表示为其中m和n分别表示原始数据的维度和样本个数,原始数据X(0)已经中心化;定义公式(1)的数据流其中w1,是权重,b1,是偏值项,diag(·)表示把一个向量映射成一个对角矩阵,激活函数以及表示元素全为1的向量;使用φ表示对原始数据的非线性变换,X(2)=φ(X(0));通过最大化映射后的数据X(2)的协方差的q-FyFan范数,使...

【专利技术属性】
技术研发人员:孙艳丰陈浩然胡永利
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1