The invention discloses a weighted local tangent space alignment algorithm based on data dimensionality reduction method, first select the adjacent sampling points, minimizing projection distance and weighted problem into maximum matrix problem; then solving the objective function, to obtain the local coordinates after dimensionality reduction; finally the local tangent coordinate calculation of each neighborhood in the arrangement of reconstruction to the global coordinate. The invention uses every sample point itself to approximate the tangent space, replacing the mean value of its neighboring points. By selecting the different locations of the nearest neighbors, it can excavate its intrinsic density information, which solves the problem of dealing with the data of uneven distribution well.
【技术实现步骤摘要】
一种基于权值局部切空间排列改进算法的数据降维方法
本专利技术属于大数据处理领域,涉及一种数据降维方法,具体涉及一种基于权值局部切空间排列改进算法的数据降维方法。
技术介绍
大数据时代下,数据挖掘的主要目的是利用高效算法来探索隐藏在数据背后的信息,并最终转化为知识来引导人们做出合理决策。数据降维是将数据从高维特征空间投影到低维特征空间的过程,且在降维的过程中能极大的保留数据的本质结构。降低数据的维度,可以更有利于数据挖掘,且通过数据降维,将高维数据进行低维表示,需要保持其本质结构和信息,同时剔除到数据中的冗余信息、错误信息、缺失信息。从数据的特性出发,降维方法又有线性降维和非线性降维两种方法。为了有效的探索数据集中所含的非线性结构,人们发展了许多有效的非线性降维手段,比如基于局部切空间排列算法的流形学习,使用非线性变换把高维流形数据投影到低维流形空间(假设这些数据采样均匀)。但是采样密度的大小以及采样方式的不同,都会导致降维结果的波动很大。目前的方法中在处理曲率较大和稀疏或分布不均匀的流形数据时,存在降维处理效果差的缺陷。
技术实现思路
为了解决现有技术中的问题,本专利技术提出了一种基于权值局部切空间排列改进算法的数据降维方法(简称IWLTSA),依据局部的线性嵌入,考虑了不均匀的数据对降维效果的影响,将每一个样本点本身用来逼近切空间,替换了其本身邻近点的均值,克服了现有方法在处理曲率较大和稀疏或分布不均匀的数据时降维效果差的缺陷。为了实现以上目的,本专利技术所采用的技术方案为:一种基于权值局部切空间排列改进算法的数据降维方法,包括以下步骤:1)选取数据采样点的 ...
【技术保护点】
一种基于权值局部切空间排列改进算法的数据降维方法,其特征在于,包括以下步骤:1)选取数据采样点的邻近点,将邻近点的最小化投射距离的加权和问题转化为最大化矩阵问题,建立目标函数;2)求解目标函数,得到每个邻域中降维后的局部切坐标;3)把每个邻域中计算的局部切坐标排列重构到全局坐标,完成数据降维。
【技术特征摘要】
1.一种基于权值局部切空间排列改进算法的数据降维方法,其特征在于,包括以下步骤:1)选取数据采样点的邻近点,将邻近点的最小化投射距离的加权和问题转化为最大化矩阵问题,建立目标函数;2)求解目标函数,得到每个邻域中降维后的局部切坐标;3)把每个邻域中计算的局部切坐标排列重构到全局坐标,完成数据降维。2.根据权利要求1所述的一种基于权值局部切空间排列改进算法的数据降维方法,其特征在于,所述步骤1)中选取邻近点的时候,将每一个给定的数据采样点本身xi来逼近切空间,替换数据采样点本身的邻域数据样本点的加权均值,样本点本身作为切空间的原始点,构成的目标函数为:其中,xi表示采样点;表示采样点xi的第j个邻近点;wij表示采样点xi的第j个邻近点的权重向量,j=1,2,...,k;Qi表示采样点xi对应的特征向量;QiT表示Qi的转置。3.根据权利要求2所述的一种基于权值局部切空间排列改进算法的数据降维方法,其特征在于,所述目标函数中Qi是切空间Ty上的一组正交基底,则有QiTQi=In,目标函数简化为:由于为固定值,则邻近点的最小化投射距离的加权和问题转化为最大化矩阵问题,此时目标函数转化为求解满足下式的Qi:4.根据权利要求3所述的一种基于权值局部切空间排列改进算法的数据降维方法,其特征在于,所述步骤2)中令Wi(j,j)=wij表示点xi的第j个邻近点的权重值,令则目标函数进一步简化为:则此时目标函数转化成求解满足下式的Qi:求解上述方程,得到为矩阵的最大的k个特征值所对应的特征向量,则根据下式,得到降维后的局部切坐标其中,tr表示秩,表示xi的绝对值。5.根据权利要求1所述的一种基于权值局部切空间排列改进算法的数据降维方法,其特征在于,所述步骤3)中计算所有采样点{x1,...,xN}的每个邻域中降维后的局部切坐标,得到每个采...
【专利技术属性】
技术研发人员:董渭清,郭桑,李玥,陈建友,董文鑫,袁泉,仓剑,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。