当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于测地线保持的非线性数据降维方法技术

技术编号:15840673 阅读:103 留言:0更新日期:2017-07-18 16:50
本发明专利技术公开了一种基于测地线保持的非线性数据降维方法。首先对输入样本点集取随机最短路径,找到样本点集的一个测地线集合。每条测地线的低维嵌入的全局坐标为该测地线在高维流形中的局部坐标通过一定的旋转变换得到,因此,中心化的低维嵌入的全局坐标可用中心化的高维流形中的局部坐标表示。由于每条测地线的全局坐标可以用选择矩阵与所有样本点的低维嵌入坐标表示,再根据实际值和估计值的平方误差和最小原则,使得低维嵌入全局坐标与经过旋转变换后的局部坐标的平方误差和最小,从而解得样本点在低维嵌入的全局坐标。

A nonlinear data dimensionality reduction method based on geodesic preservation

The invention discloses a nonlinear data dimensionality reduction method based on geodesic line preservation. Firstly, the shortest shortest path is taken from the input sample point set, and a geodesic set of the sample point set is found. The global coordinates of each low dimensional embedding geodesic for local coordinates of the Geodesics in high dimensional manifold by a rotation transformation, therefore, the local coordinate high dimensional manifold global coordinate low dimensional embedding center of the available center in said. Due to the global coordinate of each geodesic can choose low dimensional embedding coordinate matrix with all sample points, and according to the estimated value and the principle of minimum square error of the actual value, the low dimensional embedding global coordinates and local coordinates through square error after rotation transform and minimum, thus obtained the sample points in the global coordinate system low dimensional embedding.

【技术实现步骤摘要】
一种基于测地线保持的非线性数据降维方法
本专利技术属于机器学习领域,具体涉及流形学习中的一种基于测地线保持的非线性数据降维方法。
技术介绍
数据降维是指通过线性或者非线性的方法将样本从高维空间映射到低维空间,从而获得该高维空间在较低维空间中的一个表示的过程。通过这种操作可以减少原有数据的冗余性,提高对数据处理的效率和针对性。数据降维的方法主要分为线性映射和非线性映射方法两大类。其中线性映射方法的代表方法有主分量分析(PrincipleComponentAnalysis,简称PCA)和线性判定分析(LinearDiscriminantAnalysis,简称LDA)。这两种方法理论成熟,计算简单、计算速度快,但其对于那些非线性结构的高维数据就无法得到有效的答案。基于流形学习的非线性方法则为数据降维提供了一条解决途径。文件1(SeungHSandLeeDD,TheManifoldWaysofPerception,290(5500),2268-2269,Science,2000)指出:高维数据的属性之间常常存在着一定的规律性和相关性,这种现象直观上表现为高维空间中的样本点散布在低维空间中的一本文档来自技高网...
一种基于测地线保持的非线性数据降维方法

【技术保护点】
一种基于测地线保持的非线性数据降维方法,其特征在于该方法的步骤如下:A.对于一个高维数据样本点集为X=[x

【技术特征摘要】
1.一种基于测地线保持的非线性数据降维方法,其特征在于该方法的步骤如下:A.对于一个高维数据样本点集为X=[x1…xN]∈RD×N,其映射到低维空间中的样本点集为Y=[x1…xN]∈Rd×N,其中:D为高维空间的维数;d(d<<D)为低维空间的维数;X为高维数据模型的输入,是高维空间RD×N中的N个D维实数列向量;Y为高维数据映射到低维空间中的输出样本集,是低维空间Rd×N中的N个d维实数列向量;B.以存在于高维空间中的样本点集中的一个随机样本点为当前样本点计算以该点作为起点,到样本点集中其余点的最短路径中覆盖点最多的一条路径作为所求测地线,并将该测地线所覆盖的点从样本点集中剔除;重复以上步骤,得到测地线集合,并对每条测地线局部保持处理,得到其在低维流形上的嵌入坐标,操作步骤如下:B1、计算样本点集中邻近点对i,j之间的欧式距离dx(i,j),构建一个反映样本点集邻近关系的带权流通图,根据带权流通图,计算样本点集相应的测地距离矩阵;对输入样本点集构建K近邻邻接图,从样本点集中取一个随机点,计算从该点到样本点集中其余点之.间的最短路径集合,再从此测地线集合中选出一条覆盖点最多的路径其中为测地线P中的第Np个样本点,p=1,…,P,将以上所获得的一条路径所覆盖的点从样本点集中去除;重复以...

【专利技术属性】
技术研发人员:刘洁林少斌刘希欧阳效源马争鸣
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1