The invention relates to the field of data dimension reduction in machine learning, and is a manifold learning data dimension reduction algorithm. The invention provides a data dimension reduction algorithm based on multi-local linear prediction. By dividing manifolds into localities according to Euclidean distance in high-dimensional space, each sample point belongs to multiple localities, so the same point can be preserved in different localities. Each point in the local region can be approximated by fitting coefficients through other points. The coefficient is the characteristic to be maintained by the present invention. Local linear prediction, local homeomorphic prediction and local zero-crossing linear prediction are all fitted from different angles to obtain different coefficient prediction. Similarly, in the low-dimensional space, there are different angles to find the coordinates of the target point and the different predicted values of the point. There are fitting methods of minimizing mean and variance. The coordinates of data in low-dimensional space can be obtained by fitting prediction points and target points in a suitable way in low-dimensional space.
【技术实现步骤摘要】
一种多局部线性预测的数据降维方法
本专利技术属于机器学习,流形学习领域,涉及流形学习中的一种基于多局部线性预测的数据降维方法。
技术介绍
数据降维是应对大数据时代维度爆炸现象的一种数据处理方法,是指将数据样本从高维空间降到低维空间从而获得数据在低维空间的表示。数据降维可以降低数据的冗余性,还原数据的本征维度,从原始数据中挖掘出有用的信息,并且实现数据的可视化分析,提高对数据处理的效率。数据降维有线性降维和非线性降维两大类,线性降维可以使得降维前后的坐标呈线性映射的关系,主要有主成分分析(PrincipleComponentAnalysis,简称PCA)和线性判定分析(LinearDiscriminantAnalysis,简称LDA)。线性降维方法计算简单,计算速度快,因此在实际应用中得到了广泛的应用。对于具有非线性结构的数据需要采用非线性数据降维的方法。非线性降维技术通过对高维流行中均匀采样得到的数据通过非线性映射获得其在低维空间的坐标。通过非线性映射挖掘出数据内在的有效信息,得到其潜在的拓扑结构,实现对数据进行降维。基于流形学习的非线性数据降维方法为非线性数据降维提供了一条解决途径。该方法通过试图保留特定的数据特征,比如距离,邻近度等,使得数据在高维和低维空间保持一致性。流形学习降维方法专注于一个特定的视角,从而保持一个单一的几何量。目前的研究热点是如何在确保不丢失主要特征的前提下,尽可能地实现维数的减缩。目前的流行学习降维方法主要有:局部线性嵌入(LocallyLinearEmbedding,简称LLE)、等距映射(IsometricMapping,简 ...
【技术保护点】
1.一种多局部线性预测的线性预测方法,其特征在于该方法的步骤如下:A.计算样本点各样本之间的距离矩阵D,把样本数据集X按照欧氏距离分成一个个局部,记为X1,L,XM。
【技术特征摘要】
1.一种多局部线性预测的线性预测方法,其特征在于该方法的步骤如下:A.计算样本点各样本之间的距离矩阵D,把样本数据集X按照欧氏距离分成一个个局部,记为X1,L,XM。局部之间存在交集,因此每一个样本点属于不同的局部,多局部的思想即为一个样本点属于不同的局部,每个局部都可以保持该点的特征;B.对每一个局部中的每一个点都计算其余点对它的预测系数wi,g;C.利用在高维空间计算得到的来自不同局部的预测系数wi,g重构该点在低维空间的坐标。2.根据权利要求1所述的方法,其特征在于所述步骤B的两种方法:B1.局部同胚线性预测:局部同胚通过高维空间样本领域切空间来表示局部的集合性质,这些在切空间的特征就是要保留的特征,每一个局部在其切空间降维后对每个切空间进行仿射变换,从而得到全局坐标的线性预测加权系数。其步骤如下:B1.1求得每个局部低维空间局部坐标Θp;B1.2把全局坐标中心化建立全局坐标和局部坐标的关系:B1.3对上式进行推导得出预测...
【专利技术属性】
技术研发人员:马争鸣,陈映宏,何健信,刘洁,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。