一种改进亲和矩阵的多路谱聚类方法技术

技术编号：6131944 阅读：741 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了聚类分析技术领域中的一种改进亲和矩阵的多路谱聚类方法。该方法计算了数据点间的欧氏距离、相似度，通过指定的阈值确定数据点间的近邻关系，并根据近邻传递原则更新近邻关系矩阵和相似度矩阵，最后得到亲和矩阵。本发明专利技术方法考虑了数据的分布结构，可以使数据点在任意形状和任意分布结构时，亲和矩阵中的元素值都能反映数据点的真实相似度，改善了多路谱聚类方法的聚类有效性和对任意数据集的适用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于聚类分析
，尤其涉及。
技术介绍
聚类分析是数据挖掘研究和应用中的一个重要部分，在模式识别和人工智能等领域，聚类方法又被称为一种无监督的学习。聚类分析是将数据对象分组成多个类或多个簇，在同一个簇中的对象具有较高的相似度，而不同簇中的对象差别较大。传统的聚类分析方法，如K-means、EM等都是建立在凸球形的样本空间上，当样本空间非凸时，该方法易陷入局部最优。为了能在任意形状的样本空间上聚类，且收敛于全局最优，一类新型的聚类方法-谱聚类被提出。谱聚类根据样本间的相似关系建立亲和矩阵，通过求解拉普拉斯矩阵的特征向量找出数据样本间的内在联系。与传统的聚类方法相比，谱聚类不含有凸球形数据分布的隐性假设，从而能够识别非凸类型的簇；因此，谱聚类已被广泛应用于图像分割、计算机视觉、语音识别、VLSI设计等领域。按照划分准则不同已有的谱聚类方法可以分为两种，一种是利用2iay划分准则迭代地对样本数据进行聚类；另一种是利用kiay划分准则，使用更多的特征向量直接计算k路分割，即多路谱聚类方法。由于多路谱聚类NJW方法稳定性好，得到的聚类效果更好，因此成为最常用的谱聚类方法之一。但是在多路谱聚类方法中，聚类个数K的选择及特征向量的选择不当都会直接影响聚类结果的准确性。理想情况下，如果一个数据集中包含k个聚簇，且聚簇内部分布得越密，各聚簇间分布得越开时，其对应的拉普拉斯矩阵的前k个最大特征值均为1，后面的第k+Ι个特征值会远小于1，这样第k+Ι个特征值与第k个特征值之间就存在一个较大的差值，称为eigengap，直接选择前 ...

【技术保护点】
１．一种改进亲和矩阵的多路谱聚类方法，其特征是该方法包括以下步骤：步骤１：构造亲和矩阵；步骤２：构建拉普拉斯矩阵Ｌｓｙｍ；步骤３：计算拉普拉斯矩阵Ｌｓｙｍ的前ｋ个最大特征值以及前ｋ个特征值对应的特征向量构成矩阵ＫＫ；步骤４：对矩阵ＫＫ进行单位化处理，得到矩阵Ｙ；步骤５：将Ｙ的每一行视为Ｒｋ空间中的一个点，使用Ｋ－均值算法，划分为ｋ个簇，如果Ｙ矩阵中的第ｉ行属于第ｊ簇，则点ｘｉ也属于第ｊ个簇。

【技术特征摘要】

【专利技术属性】
技术研发人员：李新叶，
申请(专利权)人：华北电力大学保定，
类型：发明
国别省市：13

全部详细技术资料下载我是这个专利的主人