当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于测地线覆盖的非线性降维算法制造技术

技术编号:18444810 阅读:24 留言:0更新日期:2018-07-14 10:20
本发明专利技术涉及机器学习中流形学习相关问题,提出了一种基于测地线覆盖的非线性降维算法。测地线的覆盖算法的优劣,不但对计算效率产生着重大的影响,也对降维效果的好坏起着直接的作用。为此,本发明专利技术首先公开一种“放射型最短路径覆盖算法”,该算法可以高效地对高维数据样本点集进行测地线覆盖,从而把点集化成测地线集合,然后再提出一种基于测地线覆盖的非线性降维算法。降维算法的基本思想是每条测地线上的点相对于该测地线的起点都有一个预测值,把预测值和低维空间未知的真实值之间的误差累加起来,根据平方误差和最小原则,从而解得样本点在低维嵌入的全局坐标。

A nonlinear dimensionality reduction algorithm based on geodesic coverage

The invention relates to manifold learning related problems in machine learning, and proposes a nonlinear dimensionality reduction algorithm based on geodesic line coverage. The advantages and disadvantages of the covering algorithm of geodesic not only have a great impact on the computational efficiency, but also play a direct role in the dimension reduction effect. To this end, the invention first discloses a \shortest path coverage algorithm\, which can efficiently cover geodesic lines for high dimensional data sample points, and then turn the point set into a set of geodesic lines, and then propose a nonlinear dimensionality reduction algorithm based on geodesic coverage. The basic idea of the dimensionality reduction algorithm is that each geodesic point has a prediction value relative to the starting point of the geodesic line, adding the error between the predicted value and the unknown real value of the low dimensional space, and according to the square error and the minimum principle, and thus solving the global coordinates of the sample points in the low dimension.

【技术实现步骤摘要】
一种基于测地线覆盖的非线性降维算法
本专利技术属于机器学习领域,具体涉及流形学习中的一种基于测地线覆盖的非线性降维算法。
技术介绍
随着互联网技术的发展,每秒钟都会产生大量各种各样的数据,比如文本、图像、视频、语音、遥感、气候、金融、基因等数据,在很多实际场景下,这些数据都是高维的。然而,由于高维数据容易引发“维数灾难”等问题,使得很难高效率地处理这些数据,并且会消耗大量的计算资源。数据降维的目的就是在保持原始数据的主要特征的前提下,把高维数据投影到低维空间上。降维技术在很多领域都扮演着重要的角色,比如模式识别、机器学习等等。流形学习作为数据降维技术的一个重要分支,由于其独特的特点,使其越来越受关注。为了满足各种不同领域的要求,有很多的流形学习方法都已经被提出,然后很多方法的性能都不够理想,因为存在一些问题,比如不能很好地保持数据的主要特征,或者是处理效率太低。为了更好地阐述这些问题,下面将解释两种代表性的流形学习方法:局部线性嵌入(LocallyLinearEmbedding,简称LLE)、等距映射(IsometricMapping,简称ISOMAP)。流形学习是基于假设输入数据点是从光滑的低维流形中采样得到的,通常利用近邻点构成的领域图来近似地计算数据之间的位置关系。对于给定的数据,在欧式空间使用k近邻算法就可以得到领域图,通过领域图和测地线便可以得到两点之间的测地距离。每一种流形学习方法其实归根接地都是试图在低维空间保持数据之间的几何特性。LLE算法是试图在降维的过程中保持局部领域结构,是基于局部线性保形映射思想。LLE首先是通过每个样本点的领域分别学习一组线性参数,这些参数要能通过领域重构出原样本点。然后在低维空间保持这些参数,从而得到高维数据的低维嵌入。在信息处理的许多应用中,局部信息有时比全局信息更为有效,还具有良好的表达能力,即当全局结构为非欧氏空间的情况下,局部几何结构接近于欧氏空间。因为只包含多项式数量级的稀疏矩阵运算,所以在计算量上有优势。但是,该方法也存在着一些应用限制,例如:对参数和外界噪声过于敏感、处理分布稀疏的数据集时降维性能失效。ISOMAP算法的思想不同于LLE算法,ISOMAP算法试图在目标空间保持高维空间的全局信息,特别地,它需要在目标空间保持所有样本点两两之间的测地距离。ISOMAP算法在降维效果上表现得更加稳定,这是由于在目标函数优化过程中保持了全局信息。然而,由于要计算所有样本点两两之间的测地距离,所以ISOMAP算法需要消耗大量的计算时间。另外,在目标空间保持所有样本点两两之间的测地距离对实际场景往往是要求太高了,给计算过程带来了没必要的额外资源消耗。
技术实现思路
本专利技术的目的在于提出了一种基于测地线覆盖的非线性降维算法。测地线的寻找方法不但对计算效率产生着重大的影响,也对降维效果的好坏起着直接的作用,为此,本专利技术首先提出一种“放射型最短路径覆盖算法”,该算法可以高效地对高维数据样本点集进行测地线覆盖,从而把点集化成测地线集合,然后基于测地线对高维数据进行降维。降维过程遵循两个规则,第一个规则是测地线上的任意两点间的测地距离在低维空间要保持,第二个规则是测地线在低维空间可以看做是一条直线。降维算法的基本思想是每条测地线上的点相对于该测地线的起点都有一个预测值,把预测值和低维空间未知的真实值之间的误差累加起来,根据平方误差和最小原则,从而达到降维的效果。本专利技术具体内容如下:1、“放射型最短路径覆盖算法”。该算法在每次迭代过程中会返回一条或者多条测地线,如果返回的是多条测地线,这多条测地线会构成放射型结构,即起点公共,而其余部分均不相交,整体结构呈中心放射型。可以看出,每次迭代都要从众多的测地线中筛选出合适的测地线,筛选过程用到的三个原则如下:①筛选原则:测地线的长度在5到N/20之间,N表示样本点的总量;②排序原则:第一步把所有测地线按样本点数排序,样本点数依次递减;第二步样本点数如果相同,则按与R的相交点的个数排序(其中R表示未被覆盖的点的集合),相交点数越多排得越前;③取线原则:从头到尾遍历排序后的测地线集合集合,构成放射型结构,比如先取出第一条测地线,算法的操作步骤是首先利用k近邻算法构建领域图,然后在每次迭代过程中,随机从R中选择一个点作为起点s,根据Dijkstra算法,找出从点s到R中的其他点的所有侧地线,接着按照筛选原则,筛选出的测地线构成一个新的集合,记为T,然后对T中的测地线根据排序原则进行排序,再按取线原则取出测地线,形成集合P,从R中移除被P覆盖的点,并把P中的测地线放进总集合Ω中,再进行下一次迭代,直到R为空;当R为空时,再把Ω里的每条测地线的中点以及终点放到R中,再次进行迭代,更新Ω和R,直到R又变为空。2、一种非线性降维算法。通过“放射型最短路径覆盖算法”得到的每条测地线降到低维空间都可以看作是一条直线,并且是具有起点和方向的。对于第p条测地线,其起点就是该测地线的第一个占方向就是最后一个点和第一个点之间的单位向量,若用dgeo(xi,xj)表示样本xi和样本xj之间的测地距离,则第p条测地线上的第i个点相对于起点的预测值可以表示为进一步化简可以得到其中和是选择行向量。若对于点xi都|Ii|条测地线经过,则低维空间对应的yi就有|Ii|个预测值,这些预测值应该都是与yi重合的,从而根据平方误差和最小化原则构建误差函数如下:经推导,可得算法最终的目标函数为其中si是选择行向量。上式Y可能有多个解,为了避免平凡解,上式通常以瑞利商求解,即令YYT=Id,对特征值分解,取前d个最小非零特征值所对应的特征向量,即可求得样本点在低维流形中的嵌入坐标。本专利技术的特点及其意义:(1)具有简单性的特点。模型构造简单,物理意义直观,计算复杂度较小。(2)具有较好的适用性。在人工合成数据集和现实数据集上,都能取得比较理想的实验结果。附图说明图1是本专利技术基于测地线覆盖的非线性降维算法的操作流程图。具体实施方式如附图所示,一种基于测地线覆盖的非线性降维算法,包括以下内容:设X=[x1…xN]∈RD×N表示一组高维数据样本点集,其映射到低维空间中的样本点集为Y=[y1…yN]∈Rd×N,其中:D为高维空间的维数;d(d<<D)为低维空间的维数;X为高维数据模型的输入,是高维空间RD×N中的N个D维实数列向量;Y为高维数据映射到低维空间中的输出样本集,是低维空间Rd×N中的N个d维实数列向量。使用k近邻方法,求出每个样本点的k近邻,构建测地距离矩阵D,D中的值如下:若样本点xi和xj互为近邻点,则D(i,j)=D(j,i)=d(xi,xj),其中d(xi,xj)表示xi和xj之间的测地距离;若不为近邻点,则D(i,j)=D(j,i)=INF,其中INF表示无穷大。根据矩阵D和测地线,就可以求出任意测地线上两点的测地距离,如设样本点xi和xj互不为近邻点,若在同一条测地线上,样本点xi、xk和xj为连续的三个点,则D(i,j)=D(j,i)=D(i,k)+D(k,j)。接着提出“放射型最短路径覆盖算法”对高维空间的样本点进行测地线覆盖。该算法会用到三个原则,定义分别如下:④筛选原则:测地线的长度在5到N/20之间,N表示样本点的总量;⑤排序原则:第一步把所本文档来自技高网
...

【技术保护点】
1.一种基于测地线覆盖的非线性降维算法,其特征在于:A.利用领域图和Dijkstra算法,在迭代过程中构造放射型结构,高效地进行测地线覆盖,称为“放射型最短路径覆盖算法”;B.利用测地线上预测值与低维空间真实值的误差的累加值,根据平方误差和最小化原则,求得高维数据在低维空间的嵌入坐标。

【技术特征摘要】
1.一种基于测地线覆盖的非线性降维算法,其特征在于:A.利用领域图和Dijkstra算法,在迭代过程中构造放射型结构,高效地进行测地线覆盖,称为“放射型最短路径覆盖算法”;B.利用测地线上预测值与低维空间真实值的误差的累加值,根据平方误差和最小化原则,求得高维数据在低维空间的嵌入坐标。2.根据权利要求1所述的方法,其特征在于所述步骤A具体包括:首先利用k近邻算法构建领域图,然后在每次迭代过程中,随机从R中选择一个点作为起点s,根据Dijkstra算法找出从点s到R中的其他点的所有侧地线,接着按照筛选原则,筛选出的测地线构成一个新的集合,记为T,然后对T中的测地线根据排序原则进行排序,再按取线原则取出测地线,形成集合P,从R中移除被P覆盖的点,...

【专利技术属性】
技术研发人员:马争鸣郭嘉敬刘洁尹万广黎伟浚
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1