当前位置: 首页 > 专利查询>中山大学专利>正文

稀疏模糊C均值聚类方法技术

技术编号:8161594 阅读:301 留言:0更新日期:2013-01-07 19:35
本发明专利技术提供了一种基于Witten的稀疏聚类框架的稀疏模糊C聚类方法;将FCM目标函数改写成各个函数项的和的形式,每一函数项都只跟一个属性有关;再给每一个属性赋予一个权重,并进一步改写为加权的各项函数和形式;对权重进行L1和L2正则化约束,通过轮流固定权重和隶属度的迭代求解得到稀疏解。与传统的FCM算法相比,本发明专利技术提高了聚类能力,比FCM更适合高维数据的聚类,可方便应用于数据挖掘、机器学习、生物信息学等领域。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,特别涉及一种稀疏模糊C均值聚类方法
技术介绍
模糊C均值聚类算法(FCM)是一种重要的聚类算法。该方法在1973年由Dunn首先提出,并在1981年由Bezdek改进。此后,FCM在模式识别、机器学习、数据挖掘、生物信息学等领域得到了非常广泛的应用,成为一种经典的聚类算法。然而,近十几年来,随着信息技术的发展,高维数据变得越来越普遍。高维数据因其固有的特点,如信息冗余、无用信息多等,使得很多传统的聚类方法(如K均值聚类、层次聚类、模糊C均值聚类等)在高维数据上的聚类效果较差,常常不能得到好的聚类结果。图I展示了一个FCM不能得到较好的聚类结果的例子。在该例子中,数据是一个简单的二维数据。该数据只在Xl方向上有区分能力,在x2方向上无区分能力。图I (a)是该数据的真实分类情况。图I (b)是FCM在该数据上的聚类结果。可以看到,FCM在这个数据集上聚类结果较差,因为x2方向上无用的信息干扰了真正起作用的Xl方向上的信息。如果只将FCM作用于xl方向而忽略x2方向,FCM的聚类效果较好,如附图说明图1(c)所示。从这个例子中可以看到,如果高维数据中有许多本文档来自技高网...

【技术保护点】
稀疏模糊C均值聚类方法,其特征在于,包括以下步骤:(1)、设{x1,x2,...,xn},xi∈Rp为n个待聚类的点,V={v1,v2,...,vK}为当前的K个类中心,U=(uik)为隶属度矩阵,uik表示xi属于第k类的隶属度;(2)、将FCM算法的最小化类内方差的目标函数改写为若干函数项的和的形式,其中每一函数项只跟一个属性有关;(3)、将步骤(2)得到的若干函数项的和改写为对应的最大化类间方差;(4)、给每一个属性赋予一个权重wj,p个权重值构成权重w;将步骤(3)中对应的函数项乘以该权重wj,最大化类间方差的目标函数变成一个对属性加权后的类间方差,并给权重以L1和L2范数约束,得到加...

【技术特征摘要】

【专利技术属性】
技术研发人员:冯国灿黎培兴丘宪恩邱燕艺汤鑫
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1