当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于全局信息保持的LLE算法制造技术

技术编号:20486522 阅读:58 留言:0更新日期:2019-03-02 19:38
一种基于全局信息保持的LLE算法,通过离散度保持项和全局指标的引入,优化降维后数据的全局结构特征,在降维重构的过程中,不仅考虑到样本间的差异,而且把握数据的全局代表性,利用离散度保持项约束样本之间的几何结构,同时在计算特征空间中数据间相似度和欧式距离的基础上,定义数据的全局代表性,并基于此特性为每个数据赋予全局指标,通过该指标的引入调整各个样本在降维过程中作用,提高了算法对全局信息的挖掘能力;不仅保留了原算法良好的局部信息提取能力,而且降低了对近邻样本选择的敏感度,有效地避免因为维数降低而带来的投影后样本分布密集的拥挤问题,从而可以更好的应用于高维数据的分析与处理。

【技术实现步骤摘要】
一种基于全局信息保持的LLE算法
本专利技术涉及属于数据挖掘和软测量领域,尤其是一种基于全局信息保持的LLE算法及应用,
技术介绍
流形学习是基于拓扑流形概念发展的一类降维方法,通过将局部映射关系推广到全局,可以从原始高维数据中发掘出低维流形结构,从而达到降维的目的,是数据挖掘领域的一种重要方法,在图像识别、过程工业等领域有着广泛的应用和研究,成为近年来的研究热点。局部线性嵌入(Locallylinearembedding,LLE)利用邻域内样本之间的线性关系,实现了数据从高维空间到低维空间的转换,在图像识别,高维数据可视化等领域有着广泛的研究。但在实际的应用过程中却存在着一些缺点:LLE算法是一种无监督的数据处理方法,对噪声敏感,泛化能力差。同时,在数据降维过程中,LLE算法忽略了数据点之间的差异性,缺乏全局结构保持能力。传统LLE代价函数的构造是以所有样本的重构误差作为标准,但实际数据集中每个数据所表征信息的重要程度是有差异的。例如,在分类和聚类问题中分类中心和聚类中心附近的数据、分类和聚类边界数据等,这些数据的处理会对最终的分类、聚类效果产生重要影响;此外,在一些工业数据中,各个阶段的极值点反映着较为重要的过程信息,对于这些数据则希望原始特征可在降维后尽可能的保留。
技术实现思路
本文提出的基于全局信息保持的局部线性嵌入(GLLE)算法通过离散度保持项和全局权重指标的引入,优化降维后数据的全局结构特征,将样本点的重要性差异考虑到代价函数的构造中,使得降维后的数据集拥有更高的类内聚合度和类间离散度。本专利技术的技术方案是:本专利技术提供一种基于全局信息保持的LLE算法,其特征在于,该方法包括以下步骤:步骤1:获取原始数据集,记样本个数为N,计算数据集中任意两样本之间的欧氏距离dq:步骤2:计算数据集中任意两样本之间的相似度系数sq:步骤3:获取数据集中任意样本x在相似度阈值α内的密度ρ以及数据点x的离散度ζ;步骤4:对样本x的密度ρ和离散度ζ进行归一化处理,获取该数据点x的全局代表性指标τ,对全局代表指标进行降序排列;步骤5:构建样本重构损失函数E(W),获取各样本在对应近邻点的系数Wij;步骤6:获取投影后各样本的离散系数Wil;步骤7:建立低维投影y的代价函数Φ'(y),通过最小化Φ'(y)获取低维投影y。进一步地,步骤1具体为:获取原始数据集,记样本个数为N,计算数据集中任意两两样本x,xq之间的欧氏距离dq:dq=||x,xq||2(1)进一步地,步骤2具体为:计算数据集中两两样本之间的相似度系数sq:其中,cosθq表示角度系数,T表示转置;若cosθq≥0,则相似度系数sq采用下述公式表达,式中,γ是介于0到1之间的参考系数;若cosθq<0,丢弃数据。进一步地,步骤3具体为:获取数据集中任意一点x在相似度阈值α内的密度ρ以及数据点x的离散度ζ;其中,式中,z=sq(x,xq),q=1,2,...,N;计算数据点x到比该点密度更大的点的最小距离即离散度ζ:式中,ρx和ρxq分别为x和xq的密度,d(x,xq)为x和xq的距离,X为样本集。其中,α的范围是:0.7-0.9;优选0.8。进一步地,步骤4具体为:对数据点x的密度ρ和离散度ζ进行归一化处理,得到和获取该点x的全局代表性指标τ:对全局代表指标进行降序排列,得到x关于τ的排序xidex,则各样本xi的全局指标为:其中,i=1,2,...,N,i表示样本的编号,N为样本个数。进一步地,步骤5具体为:将原始高维空间中的样本选用与其对应的近邻点来表示,构建样本重构的损失函数E(W),根据该损失函数E(W)的最小值获取Wij:其中,xi,i=1,2,...,N,xj,j=1,2,...,k,为的近邻点,k表示近邻点个数,是样本xi,xj的向量表达,Wij为样本xi在对应近邻点xj的系数。进一步地,步骤6具体为在原空间中将xi映射成为yi,获取投影后样本yi的离散系数Wil:其中,xi,i=1,2,...,N,xl,l=1,2,...,k,yi表示样本xi映射后的点,yl为yi的离散点,k表示离散点的个数,为与的欧式距离平方;表征与离散的k个样本的距离平方之和。进一步地,步骤7具体为:建立低维投影y的代价函数Φ'(y),通过最小化Φ'(y)求得低维投影y:为了得到标准化的低维数据,加入约束条件:同时令:M=(I-W)T(I-W),MB=[diag(W'+W'T)-2W'],W与W'分别是由Wij与W′il组成的N行k列的矩阵,即(W)ij=Wij;将式(11)转化为其中Y=[y1,y2,y3,...,yN]T,式(12)可以通过MB-1M的d'个最小非零广义特征值所对应的特征向量即为所求的低维嵌入Y。本专利技术的有益效果:本专利技术本方法是一种基于全局信息保持的局部线性嵌入(Globalinformationretentionlocallylinearembedding,GLLE)算法。在降维重构的过程中,不仅考虑到样本间的差异,而且把握数据的全局代表性,利用离散度保持项约束样本之间的几何结构,同时在计算特征空间中数据间相似度和欧式距离的基础上,定义数据的全局代表性,并基于此特性为每个数据赋予全局权重指标,通过该指标的引入调整各个样本在降维过程中作用,提高了算法对全局信息的挖掘能力;不仅保留了原算法良好的局部信息提取能力,而且降低了对近邻样本选择的敏感度,有效地避免因为维数降低而带来的投影后样本分布密集的“拥挤问题”,从而可以更好的应用于高维数据的分析与处理。本专利技术的其它特征和优点将在随后具体实施方式部分予以详细说明。附图说明通过结合附图对本专利技术示例性实施方式进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显,其中,在本专利技术示例性实施方式中,相同的参考标号通常代表相同部件。图1是数据点x的密度ρ和离散度ζ的示意图;图2基于全局信息保持的LLE算法示意图;图3基于全局信息保持的LLE算法流程图;图4SwissRoll数据降维效果图;图5LLE与GLLE手写字体数据降维效果图;图6嵌入维数与RMSE关系图;图7蛋白质含量预测误差对比图;图8蛋白质含量预测误差对比图。具体实施方式下面将参照附图更详细地描述本专利技术的优选实施方式。虽然附图中显示了本专利技术的优选实施方式,然而应该理解,可以以各种形式实现本专利技术而不应被这里阐述的实施方式所限制。首先,结合图1,2,3所示,对本专利技术做进一步详述:其中图4和图5是利用SwissRoll数据和手写字体数据对算法进行的相关性能测试,表现了GLLE算法良好的降维效果,相较于LLE算法在信息提取能力上有较大的提升。SwissRoll[是人工合成的三维数据集,已经被广泛地用来比较和测试不同方法的降维效果,数据集的本征维数为两维。在SwissRoll数据集的三维曲面上随机采集2000个数据点,如图4SwissRoll曲面所示。利用本文所提的GLLE算法,对三维空间中的2000个随机样本进行降维处理,得到的二维数据分布如图4GLLE映射所示。图5是对1934组手写字体数据样本利用LLE算法与GLLE算法嵌入到三维空间中的数据分布,通过对比可以看出,相较于LLE算法,GLLE算法在降维之后,数据集中同类数据的投影点更加本文档来自技高网...

【技术保护点】
1.一种基于全局信息保持的LLE算法,其特征在于,该方法包括以下步骤:步骤1:获取原始数据集,记样本个数为N,计算数据集中任意两样本之间的欧氏距离dq;步骤2:计算数据集中任意两样本之间的相似度系数sq;步骤3:获取数据集中任意样本x在相似度阈值α内的密度ρ以及数据点x的离散度ζ;步骤4:对样本x的密度ρ和离散度ζ进行归一化处理,获取该数据点x的全局代表性指标τ,对全局代表指标进行降序排列;步骤5:构建样本重构损失函数E(W),获取各样本在对应近邻点的系数Wij;步骤6:获取投影后各样本的离散系数Wil;步骤7:建立低维投影y的代价函数Φ'(y),通过最小化Φ'(y)获取低维投影y。

【技术特征摘要】
1.一种基于全局信息保持的LLE算法,其特征在于,该方法包括以下步骤:步骤1:获取原始数据集,记样本个数为N,计算数据集中任意两样本之间的欧氏距离dq;步骤2:计算数据集中任意两样本之间的相似度系数sq;步骤3:获取数据集中任意样本x在相似度阈值α内的密度ρ以及数据点x的离散度ζ;步骤4:对样本x的密度ρ和离散度ζ进行归一化处理,获取该数据点x的全局代表性指标τ,对全局代表指标进行降序排列;步骤5:构建样本重构损失函数E(W),获取各样本在对应近邻点的系数Wij;步骤6:获取投影后各样本的离散系数Wil;步骤7:建立低维投影y的代价函数Φ'(y),通过最小化Φ'(y)获取低维投影y。2.根据权利要求1所述的一种基于全局信息保持的LLE算法,其特征在于,步骤1具体为:获取原始数据集,记样本个数为N,计算数据集中任意两两样本x,xq之间的欧氏距离dq:dq=||x,xq||2(1)。3.根据权利要求1所述的一种基于全局信息保持的LLE算法,其特征在于,步骤2具体为:计算数据集中两两样本之间的相似度系数sq:其中,cosθq表示角度系数,T表示转置;若cosθq≥0,则相似度系数sq采用下述公式表达,式中,γ是介于0到1之间的参考系数;若cosθq<0,丢弃数据。4.根据权利要求1所述的一种基于全局信息保持的LLE算法,其特征在于,步骤3具体为:获取数据集中任意一点x在相似度阈值α内的密度ρ以及数据点x的离散度ζ;其中,式中,z=sq(x,xq),q=1,2,...,N;计算数据点x到比该点密度更大的点的最小距离即离散度ζ:式中,ρx和ρxq分别为x和xq的密度,d(x,xq)为x和xq的距离,X为样本集。5.根据权利要求4所述的一种基于全局信息保持的LLE算法,其特征在于,α的范围是:0.7-0.9;优选0.8。6.根据权利要求1所述的一种基于全局...

【专利技术属性】
技术研发人员:熊伟丽毕略
申请(专利权)人:江南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1