当前位置: 首页 > 专利查询>中山大学专利>正文

稀疏模糊C均值聚类方法技术

技术编号:8161594 阅读:295 留言:0更新日期:2013-01-07 19:35
本发明专利技术提供了一种基于Witten的稀疏聚类框架的稀疏模糊C聚类方法;将FCM目标函数改写成各个函数项的和的形式,每一函数项都只跟一个属性有关;再给每一个属性赋予一个权重,并进一步改写为加权的各项函数和形式;对权重进行L1和L2正则化约束,通过轮流固定权重和隶属度的迭代求解得到稀疏解。与传统的FCM算法相比,本发明专利技术提高了聚类能力,比FCM更适合高维数据的聚类,可方便应用于数据挖掘、机器学习、生物信息学等领域。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,特别涉及一种稀疏模糊C均值聚类方法
技术介绍
模糊C均值聚类算法(FCM)是一种重要的聚类算法。该方法在1973年由Dunn首先提出,并在1981年由Bezdek改进。此后,FCM在模式识别、机器学习、数据挖掘、生物信息学等领域得到了非常广泛的应用,成为一种经典的聚类算法。然而,近十几年来,随着信息技术的发展,高维数据变得越来越普遍。高维数据因其固有的特点,如信息冗余、无用信息多等,使得很多传统的聚类方法(如K均值聚类、层次聚类、模糊C均值聚类等)在高维数据上的聚类效果较差,常常不能得到好的聚类结果。图I展示了一个FCM不能得到较好的聚类结果的例子。在该例子中,数据是一个简单的二维数据。该数据只在Xl方向上有区分能力,在x2方向上无区分能力。图I (a)是该数据的真实分类情况。图I (b)是FCM在该数据上的聚类结果。可以看到,FCM在这个数据集上聚类结果较差,因为x2方向上无用的信息干扰了真正起作用的Xl方向上的信息。如果只将FCM作用于xl方向而忽略x2方向,FCM的聚类效果较好,如附图说明图1(c)所示。从这个例子中可以看到,如果高维数据中有许多无用的信息(对聚簇没有区分能力的维度),那些无用的信息会干扰有用信息,从而使传统的FCM算法聚类效果变差。另外,高维数据属性很多,其中不乏无用信息或冗余信息,这些不利于聚类结果的解释。
技术实现思路
本专利技术的目的在于改进FCM在高维数据上的聚类能力,克服高维数据中无用信息对聚类信息的干扰,提出了一种稀疏模糊C均值聚类方法(SFCM),通过特征选择来更好地对高维数据进行聚类,提高了聚类结果的可解释性。本专利技术的目的通过下述技术方案实现稀疏模糊C均值聚类方法,包括以下步骤(I)、设{x1; x2,. . . , xn}, Xi e Rp 为 η 个待聚类的点,V=Iv1, V2, , νκ}为当前的 K个类中心,U= (Uik)为隶属度矩阵,Uik表示Xi属于第k类的隶属度;(2)、将FCM算法的最小化类内方差的目标函数改写为若干函数项的和的形式,其中每一函数项只跟一个属性有关;(3)、将步骤(2)得到的若干函数项的和改写为对应的最大化类间方差;(4)、给每一个属性赋予一个权重Wj,P个权重值构成权重w ;将步骤(3)中对应的函数项乘以该权重Wp最大化类间方差的目标函数变成一个对属性加权后的类间方差,并给权重以LI和L2范数约束,得到加权后的函数;(5)通过轮流固定隶属度Uik和权重Wj的迭代求解步骤(4)加权后的目标函数,迭代终止时得到聚类结果和选择出的属性集。优选地,步骤(2)所述若干函数项的和为权利要求1.稀疏模糊C均值聚类方法,其特征在于,包括以下步骤 (1)、设(X1,X2,...,xj , Xi e Rp为η个待聚类的点,V=Iv1, V2,, νκ}为当前的K个类中心,U=(Uik)为隶属度矩阵,Uik表不Xi属于第k类的隶属度; (2)、将FCM算法的最小化类内方差的目标函数改写为若干函数项的和的形式,其中每一函数项只跟一个属性有关; (3)、将步骤(2)得到的若干函数项的和改写为对应的最大化类间方差; (4)、给每一个属性赋予一个权重P个权重值构成权重w;将步骤(3)中对应的函数项乘以该权重Wp最大化类间方差的目标函数变成一个对属性加权后的类间方差,并给权重以LI和L2范数约束,得到加权后的函数; (5)通过轮流固定隶属度Uik和权重%的迭代求解步骤(4)加权后的目标函数,迭代终止时得到聚类结果和选择出的属性集。2.根据权利要求I所述的稀疏模糊C均值聚类方法,其特征在于,步骤(2)所述若干函数项的和为3.根据权利要求2所述的稀疏模糊C均值聚类方法,其特征在于,步骤(5)所述迭代求解的过程如下 (51)、迭代直至收敛 (511)、固定权重W,用FCM算法对下式求解隶属度矩阵U和类中心V:全文摘要本专利技术提供了一种基于Witten的稀疏聚类框架的稀疏模糊C聚类方法;将FCM目标函数改写成各个函数项的和的形式,每一函数项都只跟一个属性有关;再给每一个属性赋予一个权重,并进一步改写为加权的各项函数和形式;对权重进行L1和L2正则化约束,通过轮流固定权重和隶属度的迭代求解得到稀疏解。与传统的FCM算法相比,本专利技术提高了聚类能力,比FCM更适合高维数据的聚类,可方便应用于数据挖掘、机器学习、生物信息学等领域。文档编号G06F17/30GK102855301SQ20121029643公开日2013年1月2日 申请日期2012年8月20日 优先权日2012年8月20日专利技术者冯国灿, 黎培兴, 丘宪恩, 邱燕艺, 汤鑫 申请人:中山大学本文档来自技高网...

【技术保护点】
稀疏模糊C均值聚类方法,其特征在于,包括以下步骤:(1)、设{x1,x2,...,xn},xi∈Rp为n个待聚类的点,V={v1,v2,...,vK}为当前的K个类中心,U=(uik)为隶属度矩阵,uik表示xi属于第k类的隶属度;(2)、将FCM算法的最小化类内方差的目标函数改写为若干函数项的和的形式,其中每一函数项只跟一个属性有关;(3)、将步骤(2)得到的若干函数项的和改写为对应的最大化类间方差;(4)、给每一个属性赋予一个权重wj,p个权重值构成权重w;将步骤(3)中对应的函数项乘以该权重wj,最大化类间方差的目标函数变成一个对属性加权后的类间方差,并给权重以L1和L2范数约束,得到加权后的函数;(5)通过轮流固定隶属度uik和权重wj的迭代求解步骤(4)加权后的目标函数,迭代终止时得到聚类结果和选择出的属性集。

【技术特征摘要】

【专利技术属性】
技术研发人员:冯国灿黎培兴丘宪恩邱燕艺汤鑫
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1