【技术实现步骤摘要】
一种基于全局信息保持的LLE算法
本专利技术涉及属于数据挖掘和软测量领域,尤其是一种基于全局信息保持的LLE算法及应用,
技术介绍
流形学习是基于拓扑流形概念发展的一类降维方法,通过将局部映射关系推广到全局,可以从原始高维数据中发掘出低维流形结构,从而达到降维的目的,是数据挖掘领域的一种重要方法,在图像识别、过程工业等领域有着广泛的应用和研究,成为近年来的研究热点。局部线性嵌入(Locallylinearembedding,LLE)利用邻域内样本之间的线性关系,实现了数据从高维空间到低维空间的转换,在图像识别,高维数据可视化等领域有着广泛的研究。但在实际的应用过程中却存在着一些缺点:LLE算法是一种无监督的数据处理方法,对噪声敏感,泛化能力差。同时,在数据降维过程中,LLE算法忽略了数据点之间的差异性,缺乏全局结构保持能力。传统LLE代价函数的构造是以所有样本的重构误差作为标准,但实际数据集中每个数据所表征信息的重要程度是有差异的。例如,在分类和聚类问题中分类中心和聚类中心附近的数据、分类和聚类边界数据等,这些数据的处理会对最终的分类、聚类效果产生重要影响;此外, ...
【技术保护点】
1.一种基于全局信息保持的LLE算法,其特征在于,该方法包括以下步骤:步骤1:获取原始数据集,记样本个数为N,计算数据集中任意两样本之间的欧氏距离dq;步骤2:计算数据集中任意两样本之间的相似度系数sq;步骤3:获取数据集中任意样本x在相似度阈值α内的密度ρ以及数据点x的离散度ζ;步骤4:对样本x的密度ρ和离散度ζ进行归一化处理,获取该数据点x的全局代表性指标τ,对全局代表指标进行降序排列;步骤5:构建样本重构损失函数E(W),获取各样本在对应近邻点的系数Wij;步骤6:获取投影后各样本的离散系数Wil;步骤7:建立低维投影y的代价函数Φ'(y),通过最小化Φ'(y)获取低维投影y。
【技术特征摘要】
1.一种基于全局信息保持的LLE算法,其特征在于,该方法包括以下步骤:步骤1:获取原始数据集,记样本个数为N,计算数据集中任意两样本之间的欧氏距离dq;步骤2:计算数据集中任意两样本之间的相似度系数sq;步骤3:获取数据集中任意样本x在相似度阈值α内的密度ρ以及数据点x的离散度ζ;步骤4:对样本x的密度ρ和离散度ζ进行归一化处理,获取该数据点x的全局代表性指标τ,对全局代表指标进行降序排列;步骤5:构建样本重构损失函数E(W),获取各样本在对应近邻点的系数Wij;步骤6:获取投影后各样本的离散系数Wil;步骤7:建立低维投影y的代价函数Φ'(y),通过最小化Φ'(y)获取低维投影y。2.根据权利要求1所述的一种基于全局信息保持的LLE算法,其特征在于,步骤1具体为:获取原始数据集,记样本个数为N,计算数据集中任意两两样本x,xq之间的欧氏距离dq:dq=||x,xq||2(1)。3.根据权利要求1所述的一种基于全局信息保持的LLE算法,其特征在于,步骤2具体为:计算数据集中两两样本之间的相似度系数sq:其中,cosθq表示角度系数,T表示转置;若cosθq≥0,则相似度系数sq采用下述公式表达,式中,γ是介于0到1之间的参考系数;若cosθq<0,丢弃数据。4.根据权利要求1所述的一种基于全局信息保持的LLE算法,其特征在于,步骤3具体为:获取数据集中任意一点x在相似度阈值α内的密度ρ以及数据点x的离散度ζ;其中,式中,z=sq(x,xq),q=1,2,...,N;计算数据点x到比该点密度更大的点的最小距离即离散度ζ:式中,ρx和ρxq分别为x和xq的密度,d(x,xq)为x和xq的距离,X为样本集。5.根据权利要求4所述的一种基于全局信息保持的LLE算法,其特征在于,α的范围是:0.7-0.9;优选0.8。6.根据权利要求1所述的一种基于全局...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。