一种基于全局信息保持的LLE算法制造技术

技术编号：20486522 阅读：64 留言：0更新日期：2019-03-02 19:38

一种基于全局信息保持的LLE算法，通过离散度保持项和全局指标的引入，优化降维后数据的全局结构特征，在降维重构的过程中，不仅考虑到样本间的差异，而且把握数据的全局代表性，利用离散度保持项约束样本之间的几何结构，同时在计算特征空间中数据间相似度和欧式距离的基础上，定义数据的全局代表性，并基于此特性为每个数据赋予全局指标，通过该指标的引入调整各个样本在降维过程中作用，提高了算法对全局信息的挖掘能力；不仅保留了原算法良好的局部信息提取能力，而且降低了对近邻样本选择的敏感度，有效地避免因为维数降低而带来的投影后样本分布密集的拥挤问题，从而可以更好的应用于高维数据的分析与处理。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于全局信息保持的LLE算法
本专利技术涉及属于数据挖掘和软测量领域，尤其是一种基于全局信息保持的LLE算法及应用，
技术介绍
流形学习是基于拓扑流形概念发展的一类降维方法，通过将局部映射关系推广到全局，可以从原始高维数据中发掘出低维流形结构，从而达到降维的目的，是数据挖掘领域的一种重要方法，在图像识别、过程工业等领域有着广泛的应用和研究，成为近年来的研究热点。局部线性嵌入(Locallylinearembedding,LLE)利用邻域内样本之间的线性关系，实现了数据从高维空间到低维空间的转换，在图像识别，高维数据可视化等领域有着广泛的研究。但在实际的应用过程中却存在着一些缺点：LLE算法是一种无监督的数据处理方法，对噪声敏感，泛化能力差。同时，在数据降维过程中，LLE算法忽略了数据点之间的差异性，缺乏全局结构保持能力。传统LLE代价函数的构造是以所有样本的重构误差作为标准，但实际数据集中每个数据所表征信息的重要程度是有差异的。例如，在分类和聚类问题中分类中心和聚类中心附近的数据、分类和聚类边界数据等，这些数据的处理会对最终的分类、聚类效果产生重要影响；此外，...

【技术保护点】
1.一种基于全局信息保持的LLE算法，其特征在于，该方法包括以下步骤：步骤1：获取原始数据集，记样本个数为N，计算数据集中任意两样本之间的欧氏距离dq；步骤2：计算数据集中任意两样本之间的相似度系数sq；步骤3：获取数据集中任意样本x在相似度阈值α内的密度ρ以及数据点x的离散度ζ；步骤4：对样本x的密度ρ和离散度ζ进行归一化处理，获取该数据点x的全局代表性指标τ，对全局代表指标进行降序排列；步骤5：构建样本重构损失函数E(W)，获取各样本在对应近邻点的系数Wij；步骤6：获取投影后各样本的离散系数Wil；步骤7：建立低维投影y的代价函数Φ'(y)，通过最小化Φ'(y)获取低维投影y。

【技术特征摘要】
1.一种基于全局信息保持的LLE算法，其特征在于，该方法包括以下步骤：步骤1：获取原始数据集，记样本个数为N，计算数据集中任意两样本之间的欧氏距离dq；步骤2：计算数据集中任意两样本之间的相似度系数sq；步骤3：获取数据集中任意样本x在相似度阈值α内的密度ρ以及数据点x的离散度ζ；步骤4：对样本x的密度ρ和离散度ζ进行归一化处理，获取该数据点x的全局代表性指标τ，对全局代表指标进行降序排列；步骤5：构建样本重构损失函数E(W)，获取各样本在对应近邻点的系数Wij；步骤6：获取投影后各样本的离散系数Wil；步骤7：建立低维投影y的代价函数Φ'(y)，通过最小化Φ'(y)获取低维投影y。2.根据权利要求1所述的一种基于全局信息保持的LLE算法，其特征在于，步骤1具体为：获取原始数据集，记样本个数为N，计算数据集中任意两两样本x,xq之间的欧氏距离dq：dq＝||x,xq||2(1)。3.根据权利要求1所述的一种基于全局信息保持的LLE算法，其特征在于，步骤2具体为：计算数据集中两两样本之间的相似度系数sq：其中，cosθq表示角度系数，T表示转置；若cosθq≥0，则相似度系数sq采用下述公式表达，式中，γ是介于0到1之间的参考系数；若cosθq＜0，丢弃数据。4.根据权利要求1所述的一种基于全局信息保持的LLE算法，其特征在于，步骤3具体为：获取数据集中任意一点x在相似度阈值α内的密度ρ以及数据点x的离散度ζ；其中，式中，z＝sq(x,xq)，q＝1,2,...,N；计算数据点x到比该点密度更大的点的最小距离即离散度ζ：式中，ρx和ρxq分别为x和xq的密度，d(x,xq)为x和xq的距离，X为样本集。5.根据权利要求4所述的一种基于全局信息保持的LLE算法，其特征在于，α的范围是：0.7-0.9；优选0.8。6.根据权利要求1所述的一种基于全局...

【专利技术属性】
技术研发人员：熊伟丽，毕略，
申请(专利权)人：江南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人