The invention provides a combined fuzzy clustering method based on possibility of information bottleneck, the information bottleneck principle introduced the method of mutual information loss using the information bottleneck as distance measurement, combined with the possibility of clustering and fuzzy clustering combined with the advantages and standard of center of mass in the process of clustering. This method can reduce the sensitivity to initial values, have better robustness, noise resistance and higher clustering accuracy, and generate more clear fuzzy classification results.
【技术实现步骤摘要】
一种基于信息瓶颈的可能性模糊联合聚类方法
本专利技术涉及一种基于信息瓶颈的可能性模糊联合聚类方法,属于互联网数据处理领域。
技术介绍
近期有研究指出全球互联网网站总数已经超过10亿,并且这个数字还在不断增加,人们获取知识途径也渐渐从传统的书本、报纸等向互联网倾斜。互联网技术的快速发展,数据量也随之不断增加,对数据进行分门别类是进行数据处理与分析的基本要求。聚类就是一种无监督的数据划分技术,根据对象间的相似和相异程度,把数据聚集成若干个簇,使簇内数据的相似性达到最大,同时使得簇间数据的相异性达到最大。现在已有很多成熟的聚类方法,但也存在一定的局限性。已有的模糊联合聚类和可能性聚类各有其自身的优势与局限,模糊联合聚类是稳定的,适用于高维稀疏矩阵聚类,但其性能受异常值影响较大;可能性聚类方法能更好的处理离群点,但如果没有一个好的初始化经常会出现一致性聚类;并且在高维数据中欧式距离不能很好的度量对象间的相似程度。
技术实现思路
为了解决现有技术中存在的问题,本专利技术提供了一种基于信息瓶颈的可能性模糊联合聚类方法,该方法能够最大限度地减少异常值的影响(可能性聚类);作为聚类算法而言,簇的物理意义更强(典型性隶属度和划分隶属度);在高维数据中可以更好的表示对象间相似程度(信息瓶颈);对初始化不敏感,产生更加明晰的划分结果(标准化质心)。该方法包括以下步骤:(1)设置参数Tu,Tt,Tv,wu,wt,ε和τmax的值,其中Tu、Tt、Tv、wu和wt是用户自定义的加权参数,ε为最大误差限度,τmax为最大迭代次数;(2)令迭代次数τ为1,随机初始化uci和tci,其中uc ...
【技术保护点】
一种基于信息瓶颈的可能性模糊联合聚类方法,利用目标函数求得聚类过程中互信息损失量的最小值,其特征在于:具体包括以下步骤:(1)设置参数T
【技术特征摘要】
1.一种基于信息瓶颈的可能性模糊联合聚类方法,利用目标函数求得聚类过程中互信息损失量的最小值,其特征在于:具体包括以下步骤:(1)设置参数Tu,Tt,Tv,wu,wt,ε和τmax的值,其中Tu、Tt、Tv、wu和wt是用户自定义的加权参数,ε为最大误差限度,τmax为最大迭代次数;(2)令迭代次数τ为1,随机初始化uci和tci,其中uci为样本i隶属于簇c的划分隶属度,tci为样本i隶属于簇c的典型性隶属度,且0≤uci≤1,0≤tci≤1,c是从1到C的自然数,C表示聚类簇的个数,i是从1到N的自然数,N表示所有聚类样本的总数;(3)采用更新pcj,其中pcj表示簇c质心的第j个属性值,x...
【专利技术属性】
技术研发人员:刘永利,万兴,晁浩,刘志中,郭倩倩,
申请(专利权)人:河南理工大学,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。