一种改进亲和矩阵的多路谱聚类方法技术

技术编号:6131944 阅读:741 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了聚类分析技术领域中的一种改进亲和矩阵的多路谱聚类方法。该方法计算了数据点间的欧氏距离、相似度,通过指定的阈值确定数据点间的近邻关系,并根据近邻传递原则更新近邻关系矩阵和相似度矩阵,最后得到亲和矩阵。本发明专利技术方法考虑了数据的分布结构,可以使数据点在任意形状和任意分布结构时,亲和矩阵中的元素值都能反映数据点的真实相似度,改善了多路谱聚类方法的聚类有效性和对任意数据集的适用性。

【技术实现步骤摘要】

本专利技术属于聚类分析
,尤其涉及。
技术介绍
聚类分析是数据挖掘研究和应用中的一个重要部分,在模式识别和人工智能等领 域,聚类方法又被称为一种无监督的学习。聚类分析是将数据对象分组成多个类或多个簇, 在同一个簇中的对象具有较高的相似度,而不同簇中的对象差别较大。传统的聚类分析方 法,如K-means、EM等都是建立在凸球形的样本空间上,当样本空间非凸时,该方法易陷入 局部最优。为了能在任意形状的样本空间上聚类,且收敛于全局最优,一类新型的聚类方 法-谱聚类被提出。谱聚类根据样本间的相似关系建立亲和矩阵,通过求解拉普拉斯矩阵 的特征向量找出数据样本间的内在联系。与传统的聚类方法相比,谱聚类不含有凸球形数 据分布的隐性假设,从而能够识别非凸类型的簇;因此,谱聚类已被广泛应用于图像分割、 计算机视觉、语音识别、VLSI设计等领域。按照划分准则不同已有的谱聚类方法可以分为 两种,一种是利用2iay划分准则迭代地对样本数据进行聚类;另一种是利用kiay划分准 则,使用更多的特征向量直接计算k路分割,即多路谱聚类方法。由于多路谱聚类NJW方法 稳定性好,得到的聚类效果更好,因此成为最常用的谱聚类方法之一。但是在多路谱聚类方 法中,聚类个数K的选择及特征向量的选择不当都会直接影响聚类结果的准确性。理想情 况下,如果一个数据集中包含k个聚簇,且聚簇内部分布得越密,各聚簇间分布得越开时, 其对应的拉普拉斯矩阵的前k个最大特征值均为1,后面的第k+Ι个特征值会远小于1,这 样第k+Ι个特征值与第k个特征值之间就存在一个较大的差值,称为eigengap,直接选择前 k个特征值对应的特征向量进行求解,可以得到准确的划分结果;而在普通情况下,数据集 分布不一定满足上述理想情况,此时亲和矩阵的块结构被噪声损坏,根据矩阵扰动理论,如 果亲和矩阵的扰动很小,则拉普拉斯矩阵L的前k个特征值接近1,第k+Ι个特征值λ k+1 远远偏离1 ;扰动后的拉普拉斯矩阵L的特征向量和扰动前的拉普拉斯矩阵L的特征向量 接近,此时直接选择前k个特征值对应的特征向量进行求解,也可以得到准确的划分结果。对于分布结构复杂的数据集本身,用传统高斯函数构造亲和矩阵时并未考虑数据 的分布结构,因此不能反映出数据之间的真实相似关系,由此计算得到的拉普拉斯矩阵,大 多数情况下是不满足矩阵扰动理论的,此时聚类个数k的确定及特征向量的选取不再满足 上述规律,特征向量选取不当会使聚类结果严重偏离实际。在这种情形下,怎样考虑数据的 分布结构,选择合适的方法构造亲和矩阵,使其能够反映数据之间的真实相似关系,从而使 得到的拉普拉斯矩阵与理想矩阵之间满足矩阵扰动理论,才能保证在用多路谱聚类方法时 k的个数及特征向量的选取合理,聚类结果准确。已有的改善亲和矩阵的方法主要有(1)基于路径的相似度度量构造亲和矩阵一种基于路径的相似度度量定义为公式(1)权利要求1.,其特征是该方法包括以下步骤 步骤1 构造亲和矩阵;步骤2 构建拉普拉斯矩阵Lsym ;步骤3 计算拉普拉斯矩阵Lsym的前k个最大特征值以及前k个特征值对应的特征向 量构成矩阵KK ;步骤4 对矩阵KK进行单位化处理,得到矩阵Y ;步骤5 将Y的每一行视为Rk空间中的一个点,使用K-均值算法,划分为k个簇,如果 Y矩阵中的第i行属于第j簇,则点Xi也属于第j个簇。2.根据权利要求1所述,其特征是所述构造亲和 矩阵包括以下步骤步骤1 计算任意两个数据点间的欧氏距离,得到距离矩阵D ;步骤2 计算任意两个数据点间的相似度,得到相似度矩阵W ;步骤3:根据阈值ε确定距离矩阵D中元素间的近邻关系,形成初始近邻关系矩阵N;步骤4 根据近邻关系传递原则更新初始近邻关系矩阵N、相似度矩阵W ;步骤5 最终得到的相似度矩阵W即为亲和矩阵。3.根据权利要求2所述,其特征是所述欧氏距离 的计算公式为4.根据权利要求2所述,其特征是所述相似度的 计算公式为5.根据权利要求2所述,其特征是所述阈值ε的 计算公式为6.根据权利要求2所述,其特征是所述近邻关系 的初始确定方法为如果距离矩阵D中小于等于阈值ε,则数据点Xi和数据点\属于近邻关系,在近 邻关系矩阵N中令Iiij = Lnji = Iiij ;由此判断出所有的近邻点对,并形成初始近邻关系矩 阵N。7.根据权利要求2所述,其特征是所述近邻关系 传递原则为如果当前近邻关系矩阵N有nij = l,nJk = 1,而nik = 0,则将Iiil^Pnki的值修改为1, 同时将相似度矩阵W中元素Wik和^d的值修改为min (wij; wJk);具体为步骤1 从点X1开始,依次将点X1和其后续点= 2,3,…η)进行比较,如果点X1 和其后续点^cm此时不为近邻关系,则按照以下步骤修改X1和后续点^11的近邻关系步骤1. 1 从除点X1和点ι以外的点中寻找同时与点X1和ι满足近邻关系的另一点 xk,即满足nlk = 1, nkm = 1的另一点xk ;步骤1. 2 如果存在这样的点,则得出点X1和1也满足近邻关系,修改nlm和nml的值为 1,同时修改wlm和^111的值为min (wlk,wj ;反之,如果不存在这样的点,则不进行上述修改; 步骤2 再从点&开始,依次将点&和其后续点= 3,…η)进行比较, 并按照步骤1中所述进行处理; 步骤3 重复上述步骤,直至最后点。8.根据权利要求1所述,其特征是所述拉普拉斯 矩阵Lsym的公式为9.根据权利要求1所述,其特征是所述矩阵Y的 计算公式为全文摘要本专利技术公开了聚类分析
中的。该方法计算了数据点间的欧氏距离、相似度,通过指定的阈值确定数据点间的近邻关系,并根据近邻传递原则更新近邻关系矩阵和相似度矩阵,最后得到亲和矩阵。本专利技术方法考虑了数据的分布结构,可以使数据点在任意形状和任意分布结构时,亲和矩阵中的元素值都能反映数据点的真实相似度,改善了多路谱聚类方法的聚类有效性和对任意数据集的适用性。文档编号G06F17/30GK102110173SQ201110088630公开日2011年6月29日 申请日期2011年4月8日 优先权日2011年4月8日专利技术者李新叶 申请人:华北电力大学(保定)本文档来自技高网
...

【技术保护点】
1.一种改进亲和矩阵的多路谱聚类方法,其特征是该方法包括以下步骤:步骤1:构造亲和矩阵;步骤2:构建拉普拉斯矩阵Lsym;步骤3:计算拉普拉斯矩阵Lsym的前k个最大特征值以及前k个特征值对应的特征向量构成矩阵KK;步骤4:对矩阵KK进行单位化处理,得到矩阵Y;步骤5:将Y的每一行视为Rk空间中的一个点,使用K-均值算法,划分为k个簇,如果Y矩阵中的第i行属于第j簇,则点xi也属于第j个簇。

【技术特征摘要】

【专利技术属性】
技术研发人员:李新叶
申请(专利权)人:华北电力大学保定
类型:发明
国别省市:13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1