一种基于信息瓶颈的可能性模糊联合聚类方法技术

技术编号:15502263 阅读:120 留言:0更新日期:2017-06-03 23:14
本发明专利技术提供一种基于信息瓶颈的可能性模糊联合聚类方法,该方法引入了信息瓶颈原理,采用信息瓶颈的互信息损失量作为距离度量方式,同时结合可能性聚类和模糊联合聚类的优势,并在聚类过程中对质心进行标准化。采用该方法后,可以降低对初始值的敏感程度,具有更好的鲁棒性、抗噪能力以及更高的聚类精度,生成更加明晰的模糊划分结果。

A possibilistic fuzzy joint clustering method based on information bottleneck

The invention provides a combined fuzzy clustering method based on possibility of information bottleneck, the information bottleneck principle introduced the method of mutual information loss using the information bottleneck as distance measurement, combined with the possibility of clustering and fuzzy clustering combined with the advantages and standard of center of mass in the process of clustering. This method can reduce the sensitivity to initial values, have better robustness, noise resistance and higher clustering accuracy, and generate more clear fuzzy classification results.

【技术实现步骤摘要】
一种基于信息瓶颈的可能性模糊联合聚类方法
本专利技术涉及一种基于信息瓶颈的可能性模糊联合聚类方法,属于互联网数据处理领域。
技术介绍
近期有研究指出全球互联网网站总数已经超过10亿,并且这个数字还在不断增加,人们获取知识途径也渐渐从传统的书本、报纸等向互联网倾斜。互联网技术的快速发展,数据量也随之不断增加,对数据进行分门别类是进行数据处理与分析的基本要求。聚类就是一种无监督的数据划分技术,根据对象间的相似和相异程度,把数据聚集成若干个簇,使簇内数据的相似性达到最大,同时使得簇间数据的相异性达到最大。现在已有很多成熟的聚类方法,但也存在一定的局限性。已有的模糊联合聚类和可能性聚类各有其自身的优势与局限,模糊联合聚类是稳定的,适用于高维稀疏矩阵聚类,但其性能受异常值影响较大;可能性聚类方法能更好的处理离群点,但如果没有一个好的初始化经常会出现一致性聚类;并且在高维数据中欧式距离不能很好的度量对象间的相似程度。
技术实现思路
为了解决现有技术中存在的问题,本专利技术提供了一种基于信息瓶颈的可能性模糊联合聚类方法,该方法能够最大限度地减少异常值的影响(可能性聚类);作为聚类算法而言,簇的物理意义更强(典型性隶属度和划分隶属度);在高维数据中可以更好的表示对象间相似程度(信息瓶颈);对初始化不敏感,产生更加明晰的划分结果(标准化质心)。该方法包括以下步骤:(1)设置参数Tu,Tt,Tv,wu,wt,ε和τmax的值,其中Tu、Tt、Tv、wu和wt是用户自定义的加权参数,ε为最大误差限度,τmax为最大迭代次数;(2)令迭代次数τ为1,随机初始化uci和tci,其中uci为样本i隶属于簇c的划分隶属度,tci为样本i隶属于簇c的典型性隶属度,且0≤uci≤1,0≤tci≤1,c是从1到C的自然数,C表示聚类簇的个数,i是从1到N的自然数,N表示所有聚类样本的总数;(3)采用更新pcj,其中pcj表示簇c质心的第j个属性值,xij表示样本i的第j个属性值,j是1到K的自然数,K表示样本的属性个数;(4)采用更新Dcij,其中Dcij表示簇c与样本i第j个属性的信息瓶颈距离,其中|c|表示簇c中包含的样本数;(5)采用更新vcj,其中vcj表示簇c中样本第j个属性的排名隶属度,f是从1到K的自然数;(6)采用更新uci,g是从1到C的自然数;(7)采用更新tci,h是从1到N的自然数;(8)令τ=τ+1;(9)重复(3)~(8),直到max|uci(τ)-uci(τ-1)|≤ε或τ=τmax停止迭代,其中max|uci(τ)-uci(τ-1)|表示第τ次迭代后相比于第τ-1次迭代uci的变化最大值。由以上步骤可以看出,该方法综合了联合聚类、可能性聚类、模糊聚类以及信息瓶颈的优点,同时在聚类过程中对质心进行标准化。该方法在聚类中可以有效解决以下问题:通过可能性聚类和模糊聚类相结合,降低离群点的敏感程度;引入样本属性排名隶属度,突出重要属性的作用;同时对样本和样本属性进行富集聚类,使得聚类的形成更加科学准确;并且引入信息瓶颈的知识,有效抑制了一致性聚类;对质心进行标准化,使的对初始化不敏感,同时提高了聚类结果划分的明晰程度。附图说明图1为本专利技术方法与其他聚类方法的对比实验结果。具体实施方式具体地,一种基于信息瓶颈的可能性模糊联合聚类方法,包括以下步骤:(1)设置参数Tu,Tt,Tv,wu,wt,ε和τmax的值,其中Tu、Tt、Tv、wu和wt是用户自定义的加权参数,ε为最大误差限度,τmax为最大迭代次数;(2)令迭代次数τ为1,随机初始化uci和tci,其中uci为样本i隶属于簇c的划分隶属度,tci为样本i隶属于簇c的典型性隶属度,且0≤uci≤1,0≤tci≤1,c是从1到C的自然数,C表示聚类簇的个数,i是从1到N的自然数,N表示所有聚类样本的总数;(3)采用更新pcj,其中pcj表示簇c质心的第j个属性值,xij表示样本i的第j个属性值,j是1到K的自然数,K表示样本的属性个数,wu和wt是加权参数;(4)采用更新Dcij,其中Dcij表示簇c与样本i第j个属性的信息瓶颈距离,其中|c|表示簇c中包含的样本数;(5)采用更新vcj,其中vcj表示簇c中样本第j个属性的排名隶属度,f是从1到K的自然数;(6)采用更新uci,g是从1到C的自然数;(7)采用更新tci,h是从1到N的自然数;(8)令τ=τ+1;(9)重复(3)~(8),直到max|uci(τ)-uci(τ-1)|≤ε或τ=τmax停止迭代,其中max|uci(τ)-uci(τ-1)|表示第τ次迭代后相比于第τ-1次迭代uci的变化最大值。该方法每次迭代更新时,计算各个迭代公式需要的时间复杂为O(CNK),所以该方法与模糊联合聚类方法类似也具有线性时间复杂度即O(CNKτ),其中,C,N,K分别表示聚类簇的个数,样本总数和样本属性数,τ表示迭代次数。本专利技术还通过4个不同的数据集:20NewsGroupscorpus、Ohsumedcollection、UW-CANdataset和Reuters-21578corpus,对几种已有的方法进行对比试验,通过实验结果更深层次的解读该方法,其中需要用到对比方法有Fuzzyc-means(FCM),TheFuzzyCo-ClusteringalgorithmforImages(FCCI),RobustFuzzyCo-clusteringAlgorithm(RFCC)和Possibilisticfuzzyco-clusteringoflargedocumentcollections(PFCC)。为了便于方法的评价,先采用逆模糊化,即根据模糊聚类后的划分隶属度矩阵,把每一个样本划分到某一个簇中,接着利用评价函数算出聚类得分。目前用于聚类评价函数主要有:Entropy,F-Meausre,purity和OverallSimilarity等,本次实验采用Entropy和F-Measure。实验过程中,每次实验的最大迭代次数τmax和迭代结束条件ε均相同分别为:25和0.001,进行10次重复实验取实验结果的平均值作为最终的实验结果。通过实验结果能明显看出本专利技术的聚类效果优于其他方法,这在一定程度上由于该方法结合各方法的优势,取长补短,并对质心进行标准化。使得本专利技术能更好的解释聚类簇,收敛速度更快。本文档来自技高网...
一种基于信息瓶颈的可能性模糊联合聚类方法

【技术保护点】
一种基于信息瓶颈的可能性模糊联合聚类方法,利用目标函数求得聚类过程中互信息损失量的最小值,其特征在于:具体包括以下步骤:(1)设置参数T

【技术特征摘要】
1.一种基于信息瓶颈的可能性模糊联合聚类方法,利用目标函数求得聚类过程中互信息损失量的最小值,其特征在于:具体包括以下步骤:(1)设置参数Tu,Tt,Tv,wu,wt,ε和τmax的值,其中Tu、Tt、Tv、wu和wt是用户自定义的加权参数,ε为最大误差限度,τmax为最大迭代次数;(2)令迭代次数τ为1,随机初始化uci和tci,其中uci为样本i隶属于簇c的划分隶属度,tci为样本i隶属于簇c的典型性隶属度,且0≤uci≤1,0≤tci≤1,c是从1到C的自然数,C表示聚类簇的个数,i是从1到N的自然数,N表示所有聚类样本的总数;(3)采用更新pcj,其中pcj表示簇c质心的第j个属性值,x...

【专利技术属性】
技术研发人员:刘永利万兴晁浩刘志中郭倩倩
申请(专利权)人:河南理工大学
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1