当前位置: 首页 > 专利查询>江苏大学专利>正文

可能模糊K调和均值聚类方法及系统技术方案

技术编号:8594140 阅读:263 留言:0更新日期:2013-04-18 07:21
本发明专利技术提供了一种可能模糊K调和均值聚类方法及系统,该方法包括以下步骤:确定聚类的初始类中心;设置聚类算法的参数值;计算样本数据的协方差;计算可能模糊K调和均值聚类的模糊隶属度值;计算可能模糊K调和均值聚类的典型值;计算可能模糊K调和均值聚类的聚类中心值;判断是否满足迭代终止条件,若满足则迭代终止,若不满足则继续进行迭代计算;利用模糊隶属度值和典型值最终实现数据集的划分。本发明专利技术有效地处理含噪声数据,能得到模糊隶属度值和典型值,其中典型值不同于模糊隶属度值,典型值没有可能性约束条件,因而对噪声不敏感,聚类准确率高,聚类速度快。

【技术实现步骤摘要】

本专利技术涉及聚类分析
,尤其涉及一种可能模糊K调和均值聚类方法及系 统。
技术介绍
聚类是一种无监督学习方法,它寻找数据之间的相互联系,按照相似性原则进行 分类,就是“物以类聚”。聚类广泛应用于模式分类,文本信息提取,图像分割和数据挖掘等 领域。K-均值聚类是著名的聚类方法之一,给定一个数据集和聚类数目k,K-均值聚类能 简洁有效地划分数据集。但是,K-均值聚类的聚类结果依赖于初始聚类中心的选择,不同 的初始聚类中心会导致不同的聚类结果,所以,K-均值聚类对初始聚类中心敏感而导致聚 类结果不稳定。另外,K-均值聚类容易陷入局部极小点。1999年Zhang等人提出K调和均值聚类,是一种基于中心的迭代聚类方法。K调 和均值聚类将所有数据点到每个聚类中心的调和平均值的和作为聚类的目标函数。实验表 明,由于提升函数的作用使K调和均值聚类对初始聚类中心不敏感。但是,K调和均值聚类 也容易陷入局部极小点。因此,许多学者针对此问题展开研究。Yang等人将粒子群优化和 K调和均值聚类相结合,提出一种粒子群优化的K调和均值聚类方法(PSOKHM),PSOKHM能避 免局部极小点,并且解决了粒子群优化收敛速度慢问题。由于蚁群聚类方法能解决局部极 小点问题,Jiang等人提出一种基于蚁群聚类的K调和均值聚类方法。在给定初始温度值后 模拟退火用来搜寻一些空间分子的平衡状态,它是一种求解组合优化问题的方法。和Ctaler在模拟退火和K调和均值聚类基础上提出一种新的聚类算法以求得K调和均值聚 类的全局最优解。禁忌搜索是一种全局逐步寻优算法,Gitagfir和利用禁忌搜索方法提 出禁忌K调和均值聚类方法,该方法解决了 K调和均值聚类的局部极小点问题。以上方法 主要是解决K调和均值聚类容易陷入局部极小点这个问题。而目前有关K调和均值聚类噪 声敏感性问题没有发现和解决。本专利技术指出K调和均值聚类对噪声敏感,同时解决这个噪声敏感问题。聚类噪声 敏感性问题是聚类方法中一个重要的研究热点,比如Dav6将噪声看作一个独立的类,定 义噪声距离为常数,提出一种处理含噪声数据的噪声聚类方法。模糊C-均值聚类(FCM)是 一种建立在平方误差最小准则基础上的模糊聚类算法,通过可能性约束条件,FCM使数据点 在所有类中的隶属度之和为I。可能性约束条件避免了所有隶属度为O的平凡解,但是造成 了 FCM对噪声敏感。为了克服FCM的这个缺点,Krishnapuram和Keller放弃了 FCM的可 能性约束条件,构造了一个新的目标函数,提出了可能C-均值聚类(PCM)。PCM能够聚类包 含噪声或野值点的数据,PCM使噪声数据具有很小的隶属度值,因而噪声对聚类的影响可以 忽略。但是PCM对初始聚类中心很敏感,常常会导致一致性聚类结果[49]。PCM重视了典 型性思想,从而减少了噪声对聚类的影响,但它忽略了模糊隶属度,模糊隶属度可以使类中 心和数据紧密联系在一起。为了克服FCM对噪声数据敏感和PCM产生一致性聚类的缺点, Pal等在FCM和PCM的基础上提出了可能模糊C-均值聚类(PFCM)。有鉴于此,有必要提出一种可能模糊K调和均值聚类方法及系统以解决上述问题。
技术实现思路
本专利技术的目的在于提供一种可能模糊K调和均值聚类方法及系统,从而解决K调和均值聚类噪声敏感性问题。本专利技术的一种可能模糊K调和均值聚类方法,所述方法包括以下步骤S1、确定聚类的初始类中心S2、设置聚类算法的参数值S3、计算样本数据的协方差S4、计算可能模糊K调和均值聚类的模糊隶属度值;S5、计算可能模糊K调和均值聚类的典型值;S6、计算可能模糊K调和均值聚类的聚类中心值;S7、判断是否满足迭代终止条件,若满足则迭代终止,若不满足则返回步骤S3 S6 继续进行迭代计算;S8、利用模糊隶属度值和典型值最终实现数据集的划分。作为本专利技术的进一步改进,所述步骤S2具体为确定类别数k,数据的个数η和权重指数m和q的值,且满足n>k ^ 2, + >m, q>l ;设置迭代次数初始值r=l和最大迭代次数为rmax ;设置迭代最大误差参数ε ;设置常数a和b的值。作为本专利技术的进一步改进,所述步骤S3中样本数据的协方差计算公式为本文档来自技高网
...

【技术保护点】
一种可能模糊K调和均值聚类方法,其特征在于,所述方法包括以下步骤:S1、确定聚类的初始类中心;S2、设置聚类算法的参数值;S3、计算样本数据的协方差;S4、计算可能模糊K调和均值聚类的模糊隶属度值;S5、计算可能模糊K调和均值聚类的典型值;S6、计算可能模糊K调和均值聚类的聚类中心值;S7、判断是否满足迭代终止条件,若满足则迭代终止,若不满足则返回步骤S3~S6继续进行迭代计算;S8、利用模糊隶属度值和典型值最终实现数据集的划分。

【技术特征摘要】
1.一种可能模糊K调和均值聚类方法,其特征在于,所述方法包括以下步骤 51、确定聚类的初始类中心; 52、设置聚类算法的参数值; 53、计算样本数据的协方差; 54、计算可能模糊K调和均值聚类的模糊隶属度值; 55、计算可能模糊K调和均值聚类的典型值; 56、计算可能模糊K调和均值聚类的聚类中心值; 57、判断是否满足迭代终止条件,若满足则迭代终止,若不满足则返回步骤S3 S6继续进行迭代计算; 58、利用模糊隶属度值和典型值最终实现数据集的划分。2.根据权利要I所述的可能模糊K调和均值聚类方法,其特征在于,所述步骤S2具体为确定类别数k,数据的个数n和权重指数m和q的值,且满足n>k彡2, + >m, q>l ;设置迭代次数初始值r=l和最大迭代次数为设置迭代最大误差参数e ;设置常数a和b的值。3.根据权利要I所述的可能模糊K调和均值聚类方法,其特征在于,所述步骤S3中样本数据的协方差计算公式为 ,IjrZ-^If,其中J = 士,xj为第j个样本数据,F为样本均值,。2为样本数据的协方差。4.根据权利要I所述的可能模糊K调和均值聚类方法,其特征...

【专利技术属性】
技术研发人员:武小红孙俊武斌吴瑞梅
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1