一种邻域保持嵌入改进算法的数据降维方法技术

技术编号:17615754 阅读:81 留言:0更新日期:2018-04-04 06:56
本发明专利技术公开了一种邻域保持嵌入改进算法的数据降维方法,首先构建邻接图,使用测地线计算出每一个样本点的临近点,从而构成邻接矩阵;然后计算重建权值,将每一个采样点用临近点表示;最后计算投影矩阵,利用重建权值矩阵计算得到变换投影矩阵。本发明专利技术方法使用测地线距离替代了欧几里得距离,更好保持了NPE算法的局部结构信息,提高了算法处理流形结构的能力。

A method of dimensionality reduction for neighborhood preserving embedded improved algorithms

The invention discloses a neighborhood preserving embedding algorithm of data dimensionality reduction method, firstly construct the adjacency graph, using geodesic calculated near the point of each sample point, thus forming the adjacency matrix; then calculate the reconstruction weights of each sample point with adjacent point representation; finally calculate the projection matrix, calculated the projection matrix using reconstruction weight matrix. The method uses geodesic distance instead of Euclidean distance, and better maintains the local structure information of NPE algorithm, and improves the ability of algorithm to process manifold structure.

【技术实现步骤摘要】
一种邻域保持嵌入改进算法的数据降维方法
本专利技术属于大数据处理领域,涉及一种数据降维方法,具体涉及一种邻域保持嵌入改进算法的数据降维方法。
技术介绍
大数据时代下,数据量的不断膨胀导致了信息爆炸,这些数据往往呈现高维度的特性,高维数据因为其结构的复杂性,所以在现实世界中所掌握的技术通常是难以直接处理的,比如数据挖掘的主要目的是利用高效算法来探索隐藏在数据背后的信息,并最终转化为知识来引导人们做出合理决策。为了可以恰当地处理这些高维数据,数据降维技术由此诞生。数据降维是将数据从高维特征空间投影到低维特征空间的过程,且在降维的过程中能极大的保留数据的本质结构。降低数据的维度,可以更有利于数据挖掘。从数据的特性出发,降维方法又有线性降维和非线性降维两种方法。为了有效的探索数据集中所含的非线性结构,人们发展了许多有效的非线性降维手段,对于非线性降维算法有人工神经网络、遗传算法、流形学习等,通常这些流形的非线性算法在训练样本上表现良好,而对于测试样本无法达到降维效果,因为它们缺少投影矩阵,无法对新加入的样本集进行特征提取,为了解决这个问题,线性化的典型流形学习算法被提出,比如邻域保持嵌入算法的流形学习(NPE),使用局部表示得到投影矩阵,将高维流形数据投影到低维流形空间。但是这样的局部表示通常假设局部流形空间是线性的,都会导致降维结果的波动很大。
技术实现思路
为了解决现有技术中的问题,本专利技术提出一种邻域保持嵌入改进算法的数据降维方法,针对邻域保持嵌入算法(NPE)的局限性,基于测地线的邻域保持嵌入算法,能够更加准确地描述局部信息,使得在邻近点的选取上有了优化,在能够更好的保留局部信息的前提下,减少重构误差,并最终实现数据降维。为了实现以上目的,本专利技术所采用的技术方案为:一种邻域保持嵌入改进算法的数据降维方法,包括以下步骤:1)构建邻接图,使用测地线距离计算出每一个采样点与其他点的距离,构成矩阵,然后从这些点中选取一部分距离较近的点最终构成邻接矩阵。;2)根据邻接矩阵的测地线距离计算数据的重建权值,为了使得投影之后损失最小,重建权值依据邻接图中每一个样本点的贡献率进行计算,将数据的每个采样点采用邻接矩阵的临近点表示,得到重建权值矩阵;3)计算数据的投影矩阵,将重建权值矩阵放入计算特征向量的等式中计算得到投影矩阵的变换矩阵,完成数据降维。进一步的,所述步骤1)的邻接图中对于采样点i和j,若两个采样点属于同一类别,则两个采样点之间存在连线,则测地线距离dG(i,j)=dx(i,j);若两个采样点不属于同一类别,则两个采样点之间不存在连线,则先假定dG(i,j)=∞,随后对所有的采样点l=1,2,3,…,N求取测地线距离,更新dG(i,j),得到如下公式:dG(i,j)=min{dG(i,j),dG(i,l)+dG(l,j)}。进一步的,所述步骤2)中计算重建权值将每一个采样点用临近点表示的目标函数为:其中,wij为每一个采样点使用测地线距离得到的重建权值,wi1,...,wik为对应的临近点中给定的权重向量。进一步的,所述目标函数中由于降维后转换了特征空间,即xi→yi的空间转换,并根据权重向量矩阵,目标函数简化为:进一步的,所述步骤3)中设投影之后的坐标为yi,对于公式:做如下定义:yi=ATxi则有:其中,a所组成的矩阵便是投影矩阵,Φ(y)表示变换矩阵,z表示变换矩阵的向量形式,I表示单位矩阵,W表示重建权值矩阵,X表示投影前的坐标矩阵,M表示(I-W)T(I-W),T表示矩阵的转置。进一步的,所述变换矩阵公式中引入拉格朗日因子后,转变为利用SVD求解XMXT过程:,将高维度坐标点N映射到n子空间点(N>n),假设X的秩是l,利用SVD,X可以投影到l维度的矩阵B中,X=USVT,B=UTX=SVT。其中U是XXT的特征向量,V是XTX的特征向量,S是l×l的对角阵。最终求解下面的公式的特征向量就变成了矩阵(BBT)-1(BMBT)的特征向量。XMXTA=λXXTA其中,A表示特征向量,λ表示与矩阵相对应的特征值。与现有技术相比,本专利技术针对邻域保持嵌入算法(NPE)的局限性,提出基于测地线的邻域保持嵌入算法,首先构建邻接图,使用测地线计算出每一个样本点的临近点,从而构成邻接矩阵;然后计算重建权值,将每一个采样点用临近点表示;最后计算投影矩阵,利用重建权值矩阵计算得到变换投影矩阵,使用测地线距离替代了欧几里得距离,更好保持了NPE算法的局部结构信息,提高了算法处理流形结构的能力,能够更加准确地描述局部信息,使得在邻近点的选取上有了优化,在能够更好的保留局部信息的前提下,减少重构误差,并最终实现数据降维。附图说明图1为具有两类特征的Helix三维效果图;图2为图1数据采用NPE方法降维效果图;图3为图1数据采用本专利技术GNPE方法降维效果图;图4为本专利技术的方法流程图。图中横纵坐标分别代表了样本点之间的距离,为了肉眼正常识别样本点的离散度,故将距离设置有些变化。具体实施方式下面结合具体的实施例和说明书附图对本专利技术作进一步的解释说明。由于NPE算法假设流形空间局部是线性关系,对于曲率很大流形空间处理效果不是很好,本专利技术使用测地线距离替换欧几里得距离,通过选取在流形中真正的邻居点,挖掘其内在的真实空间,很好的保留了局部结构信息,提高了此方法处理高维数据的能力。参见图4,本专利技术包括以下步骤:步骤01:构建邻接图,使用测地线计算出每一个样本点一致的的临近点,从而构成邻接矩阵;步骤02:计算重建权值,将每一个采样点一致的用临近点表示;步骤03:计算投影矩阵,利用重建权值矩阵计算得到变换矩阵;步骤01中构建邻接图,使用测地线计算出每一个样本点的临近点,从而构成邻接矩阵,具体包括:GNPE的任意采样点选取邻近点的时候,利用了测地线距离替代了欧几里得距离;对于采样点i和j,如果其属于同一类别,则存在连线,否则不存在连线;如果它们之间存在连线,则dG(i,j)=dx(i,j),否则先假定dG(i,j)=∞,随后对所有的l=1,2,3,…,N,更新dG(i,j),得到如下式子:dG(i,j)=min{dG(i,j),dG(i,l)+dG(l,j)}步骤02中计算重建权值,将每一个采样点用临近点表示,此时目标函数为:在上式中,wij为每一个采样点使用测地线距离得到的重建权值,重建权值在此情况下可以更加贴切地描述低维结构;利用这个方法,可以使得离给定的样本点xi最近的邻居具有很大的权重,而远近点具有与样本点的距离呈指数衰减的小权重;wi1,...,wik为对应的邻近点中给定的权重向量;由于降维后转换了特征空间,即就是xi→yi的空间转换,加上权重向量矩阵进一步就可以将上式化简可以得到下式:步骤03中,计算投影矩阵,利用重建权值矩阵计算得到变换矩阵,包括:设投影之后的坐标为yi,对于公式:做如下定义:yi=ATxi那么:其中a所组成的矩阵便是投影矩阵,使用拉格朗日因子使得公式转变为求解XMXTA=λXXTA特征向量的问题。为了验证本方法的有效性,分别进行了两组实验。使用KNN分类器来确定识别率,实验中以NPE降维算法作为对比例,与本专利技术的GNPE算法进行比较。实验均选择降维后的数据维度d=10和d=80,选取参数k=12本文档来自技高网...
一种邻域保持嵌入改进算法的数据降维方法

【技术保护点】
一种邻域保持嵌入改进算法的数据降维方法,其特征在于,包括以下步骤:1)构建邻接图,使用测地线距离计算出每一个采样点与其他点的距离,构成矩阵,然后从这些点中选取一部分距离较近的点最终构成邻接矩阵;2)根据邻接矩阵的测地线距离计算数据的重建权值,为了使得投影之后损失最小,重建权值依据邻接图中每一个样本点的贡献率进行计算,将数据的每个采样点采用邻接矩阵的临近点表示,得到重建权值矩阵;3)计算数据的投影矩阵,将重建权值矩阵放入计算特征向量的等式中计算得到投影矩阵的变换矩阵,完成数据降维。

【技术特征摘要】
1.一种邻域保持嵌入改进算法的数据降维方法,其特征在于,包括以下步骤:1)构建邻接图,使用测地线距离计算出每一个采样点与其他点的距离,构成矩阵,然后从这些点中选取一部分距离较近的点最终构成邻接矩阵;2)根据邻接矩阵的测地线距离计算数据的重建权值,为了使得投影之后损失最小,重建权值依据邻接图中每一个样本点的贡献率进行计算,将数据的每个采样点采用邻接矩阵的临近点表示,得到重建权值矩阵;3)计算数据的投影矩阵,将重建权值矩阵放入计算特征向量的等式中计算得到投影矩阵的变换矩阵,完成数据降维。2.根据权利要求1所述的一种邻域保持嵌入改进算法的数据降维方法,其特征在于,所述步骤1)的邻接图中对于采样点i和j,若两个采样点属于同一类别,则两个采样点之间存在连线,则测地线距离dG(i,j)=dx(i,j);若两个采样点不属于同一类别,则两个采样点之间不存在连线,则先假定dG(i,j)=∞,随后对所有的采样点l=1,2,3,…,N求取测地线距离,更新dG(i,j),得到如下公式:dG(i,j)=min{dG(i,j),dG(i,l)+dG(l,j)}。3.根据权利要求1所述的一种邻域保持嵌入改进算法的数据降维方法,其特征在于,所述步骤2)中计算重建权值将每一个采样点用临近点表示的目标函数为:其中,wij为每一个采样点使用测地线距离得到的重建权值,wi1,...,wik为对应的临近点中给定的权重向量。4.根据权利要求3所述的一种邻域保持嵌入改进算法的数据降维方法,其特征在于,...

【专利技术属性】
技术研发人员:董渭清李玥郭桑董文鑫陈建友仓剑袁泉
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1