一种基于权值局部切空间排列改进算法的数据降维方法技术

技术编号:17388437 阅读:70 留言:0更新日期:2018-03-04 13:41
本发明专利技术公开一种基于权值局部切空间排列改进算法的数据降维方法,首先选取采样点的邻近点,将最小化投射距离的加权和问题转化成最大化矩阵的问题;然后求解目标函数,得到降维后的局部坐标;最后把每个邻域中计算的局部切坐标排列重构到全局坐标。本发明专利技术使用每一个样本点本身用来逼近切空间,替换了其本身邻近点的均值,通过选取近邻点的不同位置,挖掘其内在的密度信息,很好得解决了处理分布不均匀的数据的局限性问题。

A data reduction method based on the improved algorithm of weight local tangent space arrangement

The invention discloses a weighted local tangent space alignment algorithm based on data dimensionality reduction method, first select the adjacent sampling points, minimizing projection distance and weighted problem into maximum matrix problem; then solving the objective function, to obtain the local coordinates after dimensionality reduction; finally the local tangent coordinate calculation of each neighborhood in the arrangement of reconstruction to the global coordinate. The invention uses every sample point itself to approximate the tangent space, replacing the mean value of its neighboring points. By selecting the different locations of the nearest neighbors, it can excavate its intrinsic density information, which solves the problem of dealing with the data of uneven distribution well.

【技术实现步骤摘要】
一种基于权值局部切空间排列改进算法的数据降维方法
本专利技术属于大数据处理领域,涉及一种数据降维方法,具体涉及一种基于权值局部切空间排列改进算法的数据降维方法。
技术介绍
大数据时代下,数据挖掘的主要目的是利用高效算法来探索隐藏在数据背后的信息,并最终转化为知识来引导人们做出合理决策。数据降维是将数据从高维特征空间投影到低维特征空间的过程,且在降维的过程中能极大的保留数据的本质结构。降低数据的维度,可以更有利于数据挖掘,且通过数据降维,将高维数据进行低维表示,需要保持其本质结构和信息,同时剔除到数据中的冗余信息、错误信息、缺失信息。从数据的特性出发,降维方法又有线性降维和非线性降维两种方法。为了有效的探索数据集中所含的非线性结构,人们发展了许多有效的非线性降维手段,比如基于局部切空间排列算法的流形学习,使用非线性变换把高维流形数据投影到低维流形空间(假设这些数据采样均匀)。但是采样密度的大小以及采样方式的不同,都会导致降维结果的波动很大。目前的方法中在处理曲率较大和稀疏或分布不均匀的流形数据时,存在降维处理效果差的缺陷。
技术实现思路
为了解决现有技术中的问题,本专利技术提出了一种基于权值局部切空间排列改进算法的数据降维方法(简称IWLTSA),依据局部的线性嵌入,考虑了不均匀的数据对降维效果的影响,将每一个样本点本身用来逼近切空间,替换了其本身邻近点的均值,克服了现有方法在处理曲率较大和稀疏或分布不均匀的数据时降维效果差的缺陷。为了实现以上目的,本专利技术所采用的技术方案为:一种基于权值局部切空间排列改进算法的数据降维方法,包括以下步骤:1)选取数据采样点的邻近点,将邻近点的最小化投射距离的加权和问题转化为最大化矩阵问题,建立目标函数;2)求解目标函数,得到每个邻域中降维后的局部切坐标;3)把每个邻域中计算的局部切坐标排列重构到全局坐标,完成数据降维。进一步的,所述步骤1)中选取邻近点的时候,将每一个给定的数据采样点本身xi来逼近切空间,替换数据采样点本身的邻域数据样本点的加权均值,样本点本身作为切空间的原始点,构成的目标函数为:其中,xi表示采样点;表示采样点xi的第j个邻近点;wij表示采样点xi的第j个邻近点的权重向量,j=1,2,...,k;Qi表示采样点xi对应的特征向量;QiT表示Qi的转置。进一步的,所述目标函数中Qi是切空间Ty上的一组正交基底,则有QiTQi=In,目标函数简化为:由于为固定值,则邻近点的最小化投射距离的加权和问题转化为最大化矩阵问题,此时目标函数转化为求解满足下式的Qi:进一步的,所述步骤2)中令Wi(j,j)=wij表示点xi的第j个邻近点的权重值,令则目标函数进一步简化为:则此时目标函数转化成求解满足下式的Qi:求解上述方程,得到为矩阵的最大的k个特征值所对应的特征向量,则根据下式得到降维后的局部切坐标进一步的,所述步骤3)中计算所有采样点{x1,...,xN}的每个邻域中降维后的局部切坐标,得到每个采样点的每个邻域中降维后的局部切坐标集合:将每个邻域中计算的局部切坐标排列重构到全局坐标,当是xi的邻域时,假设Y=[yi,…,yN]是X的一组降维后的切空间上的全局坐标,并假设是的全局坐标,低维空间的维度为d,在重构全局坐标时,直接用样本点x1作为切空间的原点,则此时切空间重构误差函数转化为:其中,yi为xi降维后的点,Li表示局部排列转换矩阵。进一步的,所述全局坐标固定,对每一个降维后的点yi,其局部信息保持不变,则目标函数转化成求解最小的重构误差Ei:其中,F表示范数;求解上述方程,得到最优的局部排列转换矩阵为:则其中Θi+是Θi的广义逆,I表示单位矩阵。进一步的,令T=diag(T1,…,TN),Ti=I-Θi+Θi,定义两个N×K的矩阵Si和Ri,在矩阵Si的(ij,j)位置是1,其他位置是0;矩阵Ri的第i列全是1,其他为0,令Pi=Si-Ri,则有:则目标函数转化为:由于Θi相似于XiHk的d个最大特征值对应的特征向量Vi,故Ti等价为:令目标函数简化为:进一步的,根据拉格朗日乘数法的特点,设:L(Y)=YBYT+λ(YYT-NI)对Y求偏导,并令导数为0,即:解上述方程得到:BYT=λYT将B进行特征分解,求解B的最小的d+1个特征值Λ=diag(λ1,...,λd+1),以及对应的特征向量U=[v1,...,vd+1]T,则降维后的d维坐标为Y=[v2,...,vd+1]T,完成数据降维。与现有技术相比,本专利技术首先选取采样点的邻近点,将最小化投射距离的加权和问题转化成最大化矩阵的问题,构建目标函数;然后求解目标函数,得到降维后的局部坐标;最后把每个邻域中计算的局部切坐标排列重构到全局坐标。本专利技术依据局部的线性嵌入,考虑了不均匀的数据对降维效果的影响,使用每一个样本点本身用来逼近切空间,替换了其本身邻近点的均值,通过选取近邻点的不同位置,挖掘其内在的密度信息,很好的解决了现有方法在处理曲率较大和稀疏或分布不均匀的数据时的局限性。附图说明图1A为有两类特征的TwoPeaks三维效果图;图1B为有三类特征的TwoPeaks三维效果图;图2A为图1A所示数据的LTSA(局部切空间)方法降维效果图;图2B为图1B所示数据的LTSA方法降维效果图;图3A为图1A所示数据的IWLTSA方法降维效果图;图3B为图1B所示数据的IWLTSA方法降维效果图;图4A为有两类特征的SwissRoll三维效果图;图4B为有三类特征的SwissRoll三维效果图;图5A为图4A所示数据的LTSA方法降维效果图;图5B为图4B所示数据的LTSA方法降维效果图;图6A为图4A所示数据的IWLTSA方法降维效果图;图6B为图4B所示数据的IWLTSA方法降维效果图;图7A为有两类特征的PunchedSpherel三维效果图;图7B为有三类特征的PunchedSphere三维效果图;图8A为图7A所示数据的LTSA方法降维效果图;图8B为图7B所示数据的LTSA方法降维效果图;图9A为图7A所示数据的WLTSA(基于权值的局部切空间排列)方法降维效果图;图9B为图7B所示数据的WLTSA方法降维效果图;图10A为图7A所示数据的IWLTSA方法降维效果图;图10B为图7B所示数据的IWLTSA方法降维效果图;图11为本专利技术方法的流程图。具体实施方式下面结合具体的实施例和说明书附图对本专利技术作进一步的解释说明。本专利技术使用每一个样本点本身用来逼近切空间,替换了其本身邻近点的均值,通过选取近邻点的不同位置,挖掘其内在的密度信息,很好的解决了处理分布不均匀的数据的局限性。参见图11,本专利技术包括以下步骤:步骤01:选取采样点的邻近点,将最小化投射距离的加权和问题转化成最大化矩阵的问题;步骤02:求解目标函数,得到降维后的局部坐标;步骤03:把每个邻域中计算的局部切坐标排列重构到全局坐标;步骤01中选取采样点的邻近点,将最小化投射距离的加权和问题转化成最大化矩阵的问题,具体包括:IWLTSA选取邻近点的时候,将每一个给定的数据样本点本身xi用来逼近切空间,替换了其邻域数据样本点的加权均值。此时目标函数为:在上式中,使用样本点本身作为切空间的原始点。利用这个定义,可以使得离给定的样本点xi最近的邻居本文档来自技高网...
一种基于权值局部切空间排列改进算法的数据降维方法

【技术保护点】
一种基于权值局部切空间排列改进算法的数据降维方法,其特征在于,包括以下步骤:1)选取数据采样点的邻近点,将邻近点的最小化投射距离的加权和问题转化为最大化矩阵问题,建立目标函数;2)求解目标函数,得到每个邻域中降维后的局部切坐标;3)把每个邻域中计算的局部切坐标排列重构到全局坐标,完成数据降维。

【技术特征摘要】
1.一种基于权值局部切空间排列改进算法的数据降维方法,其特征在于,包括以下步骤:1)选取数据采样点的邻近点,将邻近点的最小化投射距离的加权和问题转化为最大化矩阵问题,建立目标函数;2)求解目标函数,得到每个邻域中降维后的局部切坐标;3)把每个邻域中计算的局部切坐标排列重构到全局坐标,完成数据降维。2.根据权利要求1所述的一种基于权值局部切空间排列改进算法的数据降维方法,其特征在于,所述步骤1)中选取邻近点的时候,将每一个给定的数据采样点本身xi来逼近切空间,替换数据采样点本身的邻域数据样本点的加权均值,样本点本身作为切空间的原始点,构成的目标函数为:其中,xi表示采样点;表示采样点xi的第j个邻近点;wij表示采样点xi的第j个邻近点的权重向量,j=1,2,...,k;Qi表示采样点xi对应的特征向量;QiT表示Qi的转置。3.根据权利要求2所述的一种基于权值局部切空间排列改进算法的数据降维方法,其特征在于,所述目标函数中Qi是切空间Ty上的一组正交基底,则有QiTQi=In,目标函数简化为:由于为固定值,则邻近点的最小化投射距离的加权和问题转化为最大化矩阵问题,此时目标函数转化为求解满足下式的Qi:4.根据权利要求3所述的一种基于权值局部切空间排列改进算法的数据降维方法,其特征在于,所述步骤2)中令Wi(j,j)=wij表示点xi的第j个邻近点的权重值,令则目标函数进一步简化为:则此时目标函数转化成求解满足下式的Qi:求解上述方程,得到为矩阵的最大的k个特征值所对应的特征向量,则根据下式,得到降维后的局部切坐标其中,tr表示秩,表示xi的绝对值。5.根据权利要求1所述的一种基于权值局部切空间排列改进算法的数据降维方法,其特征在于,所述步骤3)中计算所有采样点{x1,...,xN}的每个邻域中降维后的局部切坐标,得到每个采...

【专利技术属性】
技术研发人员:董渭清郭桑李玥陈建友董文鑫袁泉仓剑
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1