一种基于测地线覆盖的非线性降维算法制造技术

技术编号：18444810 阅读：24 留言：0更新日期：2018-07-14 10:20

本发明专利技术涉及机器学习中流形学习相关问题，提出了一种基于测地线覆盖的非线性降维算法。测地线的覆盖算法的优劣，不但对计算效率产生着重大的影响，也对降维效果的好坏起着直接的作用。为此，本发明专利技术首先公开一种“放射型最短路径覆盖算法”，该算法可以高效地对高维数据样本点集进行测地线覆盖，从而把点集化成测地线集合，然后再提出一种基于测地线覆盖的非线性降维算法。降维算法的基本思想是每条测地线上的点相对于该测地线的起点都有一个预测值，把预测值和低维空间未知的真实值之间的误差累加起来，根据平方误差和最小原则，从而解得样本点在低维嵌入的全局坐标。

A nonlinear dimensionality reduction algorithm based on geodesic coverage

The invention relates to manifold learning related problems in machine learning, and proposes a nonlinear dimensionality reduction algorithm based on geodesic line coverage. The advantages and disadvantages of the covering algorithm of geodesic not only have a great impact on the computational efficiency, but also play a direct role in the dimension reduction effect. To this end, the invention first discloses a \shortest path coverage algorithm\, which can efficiently cover geodesic lines for high dimensional data sample points, and then turn the point set into a set of geodesic lines, and then propose a nonlinear dimensionality reduction algorithm based on geodesic coverage. The basic idea of the dimensionality reduction algorithm is that each geodesic point has a prediction value relative to the starting point of the geodesic line, adding the error between the predicted value and the unknown real value of the low dimensional space, and according to the square error and the minimum principle, and thus solving the global coordinates of the sample points in the low dimension.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于测地线覆盖的非线性降维算法
本专利技术属于机器学习领域，具体涉及流形学习中的一种基于测地线覆盖的非线性降维算法。
技术介绍
随着互联网技术的发展，每秒钟都会产生大量各种各样的数据，比如文本、图像、视频、语音、遥感、气候、金融、基因等数据，在很多实际场景下，这些数据都是高维的。然而，由于高维数据容易引发“维数灾难”等问题，使得很难高效率地处理这些数据，并且会消耗大量的计算资源。数据降维的目的就是在保持原始数据的主要特征的前提下，把高维数据投影到低维空间上。降维技术在很多领域都扮演着重要的角色，比如模式识别、机器学习等等。流形学习作为数据降维技术的一个重要分支，由于其独特的特点，使其越来越受关注。为了满足各种不同领域的要求，有很多的流形学习方法都已经被提出，然后很多方法的性能都不够理想，因为存在一些问题，比如不能很好地保持数据的主要特征，或者是处理效率太低。为了更好地阐述这些问题，下面将解释两种代表性的流形学习方法：局部线性嵌入(LocallyLinearEmbedding，简称LLE)、等距映射(IsometricMapping，简称ISOMAP)。流形学习是基于假设输入数据点是从光滑的低维流形中采样得到的，通常利用近邻点构成的领域图来近似地计算数据之间的位置关系。对于给定的数据，在欧式空间使用k近邻算法就可以得到领域图，通过领域图和测地线便可以得到两点之间的测地距离。每一种流形学习方法其实归根接地都是试图在低维空间保持数据之间的几何特性。LLE算法是试图在降维的过程中保持局部领域结构，是基于局部线性保形映射思想。LLE首先是通过每个样本点的领域分别...

【技术保护点】
1.一种基于测地线覆盖的非线性降维算法，其特征在于：A.利用领域图和Dijkstra算法，在迭代过程中构造放射型结构，高效地进行测地线覆盖，称为“放射型最短路径覆盖算法”；B.利用测地线上预测值与低维空间真实值的误差的累加值，根据平方误差和最小化原则，求得高维数据在低维空间的嵌入坐标。

【技术特征摘要】
1.一种基于测地线覆盖的非线性降维算法，其特征在于：A.利用领域图和Dijkstra算法，在迭代过程中构造放射型结构，高效地进行测地线覆盖，称为“放射型最短路径覆盖算法”；B.利用测地线上预测值与低维空间真实值的误差的累加值，根据平方误差和最小化原则，求得高维数据在低维空间的嵌入坐标。2.根据权利要求1所述的方法，其特征在于所述步骤A具体包括：首先利用k近邻算法构建领域图，然后在每次迭代过程中，随机从R中选择一个点作为起点s，根据Dijkstra算法找出从点s到R中的其他点的所有侧地线，接着按照筛选原则，筛选出的测地线构成一个新的集合，记为T，然后对T中的测地线根据排序原则进行排序，再按取线原则取出测地线，形成集合P，从R中移除被P覆盖的点，...

【专利技术属性】
技术研发人员：马争鸣，郭嘉敬，刘洁，尹万广，黎伟浚，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人