当前位置: 首页 > 专利查询>中山大学专利>正文

一种多局部线性预测的数据降维方法技术

技术编号:21344300 阅读:48 留言:0更新日期:2019-06-13 22:46
本发明专利技术涉及机器学习中数据降维领域,是一种流形学习数据降维算法。本发明专利技术提出一种基于多局部线性预测的数据降维算法。通过在高维空间根据欧式距离把流形分成一个个局部,由于每个样本点属于多个局部,因此可以在不同的局部对同一个点进行特征保持。局部中的每一个点都可以通过其余点进行拟合系数逼近。该系数就是本发明专利技术要保持的特征。局部线性预测,局部同胚预测,局部过零点线性预测都是从不同的角度进行拟合,得到不同的系数预测。同样在低维空间也有不同的角度寻找目标点的坐标和该点不同的预测值,有均值最小化和方差最小化的拟合方式。通过在低维空间选择适合的方式拟合预测点和目标点,得到数据在低维空间的坐标。

A Data Dimension Reduction Method for Multi-Local Linear Prediction

The invention relates to the field of data dimension reduction in machine learning, and is a manifold learning data dimension reduction algorithm. The invention provides a data dimension reduction algorithm based on multi-local linear prediction. By dividing manifolds into localities according to Euclidean distance in high-dimensional space, each sample point belongs to multiple localities, so the same point can be preserved in different localities. Each point in the local region can be approximated by fitting coefficients through other points. The coefficient is the characteristic to be maintained by the present invention. Local linear prediction, local homeomorphic prediction and local zero-crossing linear prediction are all fitted from different angles to obtain different coefficient prediction. Similarly, in the low-dimensional space, there are different angles to find the coordinates of the target point and the different predicted values of the point. There are fitting methods of minimizing mean and variance. The coordinates of data in low-dimensional space can be obtained by fitting prediction points and target points in a suitable way in low-dimensional space.

【技术实现步骤摘要】
一种多局部线性预测的数据降维方法
本专利技术属于机器学习,流形学习领域,涉及流形学习中的一种基于多局部线性预测的数据降维方法。
技术介绍
数据降维是应对大数据时代维度爆炸现象的一种数据处理方法,是指将数据样本从高维空间降到低维空间从而获得数据在低维空间的表示。数据降维可以降低数据的冗余性,还原数据的本征维度,从原始数据中挖掘出有用的信息,并且实现数据的可视化分析,提高对数据处理的效率。数据降维有线性降维和非线性降维两大类,线性降维可以使得降维前后的坐标呈线性映射的关系,主要有主成分分析(PrincipleComponentAnalysis,简称PCA)和线性判定分析(LinearDiscriminantAnalysis,简称LDA)。线性降维方法计算简单,计算速度快,因此在实际应用中得到了广泛的应用。对于具有非线性结构的数据需要采用非线性数据降维的方法。非线性降维技术通过对高维流行中均匀采样得到的数据通过非线性映射获得其在低维空间的坐标。通过非线性映射挖掘出数据内在的有效信息,得到其潜在的拓扑结构,实现对数据进行降维。基于流形学习的非线性数据降维方法为非线性数据降维提供了一条解决途径。该方法通过试图保留特定的数据特征,比如距离,邻近度等,使得数据在高维和低维空间保持一致性。流形学习降维方法专注于一个特定的视角,从而保持一个单一的几何量。目前的研究热点是如何在确保不丢失主要特征的前提下,尽可能地实现维数的减缩。目前的流行学习降维方法主要有:局部线性嵌入(LocallyLinearEmbedding,简称LLE)、等距映射(IsometricMapping,简称ISOMAP)、局部切空间对齐(Localtangentspacealignment,简称LTSA)和拉普拉斯特征映射(LaplacianEigenmaps,简称LE)等。等距映射是一种经典的流行学习算法。等距映射具有降维前后的数据测地距离保持的思想,实现数据的降维。等距映射不同以往的多维尺度变化(MultidimensionalScaling,简称MDS),用数据结构中的测地线距离代替了其中的欧式距离,从而更贴切的保持了数据点的内在几何性质。等距映射在局部的邻值选取中要有适中的值。取太小的邻值可能会导致数据点构成的图连接不上,得不到两点的测地线距离。局部切空间排列是2004年提出的一种流行学习方法。居于保持每个局部在切空间上的特征,对每个切空间进行降维。进而在低维空间中对这些保持的局部切空间进行排列组合,最终构造出流行在低维空间的全局坐标。局部切空间排列具有实现简单,全局最优等特点,但是难以处理非均匀分布的观测数据。局部线性嵌入居于局部线性保持的思想,把视角聚焦于局部领域结构的保持。该算法把流形分成一个个的局部,认为每个局部的中心点可以由周围的邻点通过线性组合来逼近,从而取得每个点的预测系数,在低维空间中利用这些系数对数据进行重构,得到降维后的结果。局部线性嵌入算法计算复杂度小,容易实现。本专利技术也是属于流形学习领域,基于多局部的思想,把流形上的数据根据每一个点分成一个个的局部,这些局部存在各种各样的交集,因而每一个数据点会出现在不同的局部中,称为多局部。对每一个数据,把它在它属于的所有局部的邻点对该点进行预测,这样可以得到对于该点的多个预测系数组合。该系数就是本算法在流形学习中要保持的特征。在本算法的多局部框架下,预测系数组合的目标方法是开放的。本专利技术提供三种预测系数方法的计算。在低维空间中,对每个数据点的各个预测值进行全局误差最小的拟合逼近,使得得到的降维结果能精确地反映数据在高维空间的结构分布。同时对于多局部得到的多个预测点,本算法框架下逼近方式也是开放的。本专利技术提供两种全局误差最小化的方式,分别是全局方差最小化和全局均值最小化。本专利技术算法挖掘了更多数据在高维空间的特征,在牺牲了空间复杂度的情况下,能更准确的得到数据的分布,获得更好的降维效果。
技术实现思路
本专利技术的目的在于提出一种基于多局部线性预测和全局误差最小的数据降维方法。本专利技术先对数据样本进行分块,采用欧式距离,根据预设的领点值把数据在流形上分成一个个带有交集的局部数据。对每个局部的每一个数据点都用该数据点在该局部的其余所有邻点进行线性预测逼近,获得本算法需要保持的流行特征——每个数据点的拟合系数组合。在低维空间重构数据分布的过程中,由于每个数据点都有多个预测拟合系数,也就是存在多个预测点。本算法寻找一个目标点与对应的预测点的拟合误差最小,通过计算拟合的二范数误差之和最小化来获得重构的数据坐标,从而实现了整个算法的多局部线性预测的数据降维。本专利技术的具体步骤如下:步骤一:计算样本点各样本之间的距离矩阵D。步骤二:把样本数据集X按照欧氏距离分成一个个局部,记为X1,L,XM。局部之间存在交集,因此每一个样本点属于不同的局部。步骤三:不仅仅限于中心点,对每一个局部的每一个样本点计算其余点对它的预测系数wi,g。本专利技术提出的有三种系数预测方法:1.局部线性预测:求解目标函数:2.局部同胚线性预测:3.局部过零点线性预测:通过取远近两端的中点作为新的预测邻点,目标函数与局部线性预测一样:Xp'为对该点预测的新的邻点,这样的做法可以有效减少由多局部引起的离群点问题。步骤四:在低维空间利用上一步在高维空间保持的预测系数特征,重构降维后样本结果。求解低维目标函数:均值最小化求解目标函数:方差最小化目标函数:步骤五:优化步骤四的目标函数,得到矩阵L特征分解之后的特征向量矩阵W;步骤六:把特征向量W从大到小排列,取对应维度的特征向量个数即为最终的降维结果,完成降维任务。本专利技术的特点及其意义:1.提出了一种新的流形学习方法。该算法基于多局部思想,每一个点属于不同的局部,在每一个局部都有保持的局部特征,因此对于局部交集的运用是本专利技术的特点之处。同时,由于每个样本点会有更多的特征得以用来重构低维坐标,因此可以获得更好的降维效果。2.具有开放性的特点。算法框架对于预测系数的计算是开放的。在不同的低维目标函数下可寻找更好的预测系数。3.具有简单性的特点。算法框架构造简单,计算复杂度低,物理意义直观。附图说明图1是本专利技术的多局部线性预测和全局误差最小的数据降维算法的操作流程图。图2是局部过零点线性预测的近端局部和远端局部示意图。具体实施方式基于多局部数据降维方法,高维空间中线性预测系数组合的计算方法是本算法要保持的局部特征。在低维空间采用全局误差最小化。具体原理如下:令高维空间数据集为X=[x1LxN]∈RD×N,对应的目标低维空间数据为Y=[y1LyN]∈Rd×N。其中,X代表原始数据集,包含N个D维度的数据点。Y是X从高维空间映射到低维空间的输出数据,包含N个d(d=D)维度的数据点。把高维空间的数据集按照欧氏距离和邻值分成一个个的局部,记为X1,L,XM。也即为对于任何一个局部,假设|Xm|=Nm,可得到其中,是选择矩阵,对于其中的gth列向量的元素的值为零,其余的为一。同样的,对应的降维后的目标数据集为:对分成的每一个局部中的每一个点进行预测系数计算,利用局部内其余的点对该点进行预测。用数学的表示方法就是:其中,Xp是要处理的局部,是这个局部第g个点。就是要得到的预测系数组合,它的元素为0。在本算法中本文档来自技高网
...

【技术保护点】
1.一种多局部线性预测的线性预测方法,其特征在于该方法的步骤如下:A.计算样本点各样本之间的距离矩阵D,把样本数据集X按照欧氏距离分成一个个局部,记为X1,L,XM。

【技术特征摘要】
1.一种多局部线性预测的线性预测方法,其特征在于该方法的步骤如下:A.计算样本点各样本之间的距离矩阵D,把样本数据集X按照欧氏距离分成一个个局部,记为X1,L,XM。局部之间存在交集,因此每一个样本点属于不同的局部,多局部的思想即为一个样本点属于不同的局部,每个局部都可以保持该点的特征;B.对每一个局部中的每一个点都计算其余点对它的预测系数wi,g;C.利用在高维空间计算得到的来自不同局部的预测系数wi,g重构该点在低维空间的坐标。2.根据权利要求1所述的方法,其特征在于所述步骤B的两种方法:B1.局部同胚线性预测:局部同胚通过高维空间样本领域切空间来表示局部的集合性质,这些在切空间的特征就是要保留的特征,每一个局部在其切空间降维后对每个切空间进行仿射变换,从而得到全局坐标的线性预测加权系数。其步骤如下:B1.1求得每个局部低维空间局部坐标Θp;B1.2把全局坐标中心化建立全局坐标和局部坐标的关系:B1.3对上式进行推导得出预测...

【专利技术属性】
技术研发人员:马争鸣陈映宏何健信刘洁
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1