The invention discloses a neighborhood preserving embedding algorithm of data dimensionality reduction method, firstly construct the adjacency graph, using geodesic calculated near the point of each sample point, thus forming the adjacency matrix; then calculate the reconstruction weights of each sample point with adjacent point representation; finally calculate the projection matrix, calculated the projection matrix using reconstruction weight matrix. The method uses geodesic distance instead of Euclidean distance, and better maintains the local structure information of NPE algorithm, and improves the ability of algorithm to process manifold structure.
【技术实现步骤摘要】
一种邻域保持嵌入改进算法的数据降维方法
本专利技术属于大数据处理领域,涉及一种数据降维方法,具体涉及一种邻域保持嵌入改进算法的数据降维方法。
技术介绍
大数据时代下,数据量的不断膨胀导致了信息爆炸,这些数据往往呈现高维度的特性,高维数据因为其结构的复杂性,所以在现实世界中所掌握的技术通常是难以直接处理的,比如数据挖掘的主要目的是利用高效算法来探索隐藏在数据背后的信息,并最终转化为知识来引导人们做出合理决策。为了可以恰当地处理这些高维数据,数据降维技术由此诞生。数据降维是将数据从高维特征空间投影到低维特征空间的过程,且在降维的过程中能极大的保留数据的本质结构。降低数据的维度,可以更有利于数据挖掘。从数据的特性出发,降维方法又有线性降维和非线性降维两种方法。为了有效的探索数据集中所含的非线性结构,人们发展了许多有效的非线性降维手段,对于非线性降维算法有人工神经网络、遗传算法、流形学习等,通常这些流形的非线性算法在训练样本上表现良好,而对于测试样本无法达到降维效果,因为它们缺少投影矩阵,无法对新加入的样本集进行特征提取,为了解决这个问题,线性化的典型流形学习算法被提出,比如邻域保持嵌入算法的流形学习(NPE),使用局部表示得到投影矩阵,将高维流形数据投影到低维流形空间。但是这样的局部表示通常假设局部流形空间是线性的,都会导致降维结果的波动很大。
技术实现思路
为了解决现有技术中的问题,本专利技术提出一种邻域保持嵌入改进算法的数据降维方法,针对邻域保持嵌入算法(NPE)的局限性,基于测地线的邻域保持嵌入算法,能够更加准确地描述局部信息,使得在邻近点的选取上有了优化,在 ...
【技术保护点】
一种邻域保持嵌入改进算法的数据降维方法,其特征在于,包括以下步骤:1)构建邻接图,使用测地线距离计算出每一个采样点与其他点的距离,构成矩阵,然后从这些点中选取一部分距离较近的点最终构成邻接矩阵;2)根据邻接矩阵的测地线距离计算数据的重建权值,为了使得投影之后损失最小,重建权值依据邻接图中每一个样本点的贡献率进行计算,将数据的每个采样点采用邻接矩阵的临近点表示,得到重建权值矩阵;3)计算数据的投影矩阵,将重建权值矩阵放入计算特征向量的等式中计算得到投影矩阵的变换矩阵,完成数据降维。
【技术特征摘要】
1.一种邻域保持嵌入改进算法的数据降维方法,其特征在于,包括以下步骤:1)构建邻接图,使用测地线距离计算出每一个采样点与其他点的距离,构成矩阵,然后从这些点中选取一部分距离较近的点最终构成邻接矩阵;2)根据邻接矩阵的测地线距离计算数据的重建权值,为了使得投影之后损失最小,重建权值依据邻接图中每一个样本点的贡献率进行计算,将数据的每个采样点采用邻接矩阵的临近点表示,得到重建权值矩阵;3)计算数据的投影矩阵,将重建权值矩阵放入计算特征向量的等式中计算得到投影矩阵的变换矩阵,完成数据降维。2.根据权利要求1所述的一种邻域保持嵌入改进算法的数据降维方法,其特征在于,所述步骤1)的邻接图中对于采样点i和j,若两个采样点属于同一类别,则两个采样点之间存在连线,则测地线距离dG(i,j)=dx(i,j);若两个采样点不属于同一类别,则两个采样点之间不存在连线,则先假定dG(i,j)=∞,随后对所有的采样点l=1,2,3,…,N求取测地线距离,更新dG(i,j),得到如下公式:dG(i,j)=min{dG(i,j),dG(i,l)+dG(l,j)}。3.根据权利要求1所述的一种邻域保持嵌入改进算法的数据降维方法,其特征在于,所述步骤2)中计算重建权值将每一个采样点用临近点表示的目标函数为:其中,wij为每一个采样点使用测地线距离得到的重建权值,wi1,...,wik为对应的临近点中给定的权重向量。4.根据权利要求3所述的一种邻域保持嵌入改进算法的数据降维方法,其特征在于,...
【专利技术属性】
技术研发人员:董渭清,李玥,郭桑,董文鑫,陈建友,仓剑,袁泉,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。