【技术实现步骤摘要】
本专利技术涉及数据挖掘领域,特别涉及一种稀疏模糊C均值聚类方法。
技术介绍
模糊C均值聚类算法(FCM)是一种重要的聚类算法。该方法在1973年由Dunn首先提出,并在1981年由Bezdek改进。此后,FCM在模式识别、机器学习、数据挖掘、生物信息学等领域得到了非常广泛的应用,成为一种经典的聚类算法。然而,近十几年来,随着信息技术的发展,高维数据变得越来越普遍。高维数据因其固有的特点,如信息冗余、无用信息多等,使得很多传统的聚类方法(如K均值聚类、层次聚类、模糊C均值聚类等)在高维数据上的聚类效果较差,常常不能得到好的聚类结果。图I展示了一个FCM不能得到较好的聚类结果的例子。在该例子中,数据是一个简单的二维数据。该数据只在Xl方向上有区分能力,在x2方向上无区分能力。图I (a)是该数据的真实分类情况。图I (b)是FCM在该数据上的聚类结果。可以看到,FCM在这个数据集上聚类结果较差,因为x2方向上无用的信息干扰了真正起作用的Xl方向上的信息。如果只将FCM作用于xl方向而忽略x2方向,FCM的聚类效果较好,如附图说明图1(c)所示。从这个例子中可以看到,如果高维数据中有许多无用的信息(对聚簇没有区分能力的维度),那些无用的信息会干扰有用信息,从而使传统的FCM算法聚类效果变差。另外,高维数据属性很多,其中不乏无用信息或冗余信息,这些不利于聚类结果的解释。
技术实现思路
本专利技术的目的在于改进FCM在高维数据上的聚类能力,克服高维数据中无用信息对聚类信息的干扰,提出了一种稀疏模糊C均值聚类方法(SFCM),通过特征选择来更好地对高维数据进行聚类,提高 ...
【技术保护点】
稀疏模糊C均值聚类方法,其特征在于,包括以下步骤:(1)、设{x1,x2,...,xn},xi∈Rp为n个待聚类的点,V={v1,v2,...,vK}为当前的K个类中心,U=(uik)为隶属度矩阵,uik表示xi属于第k类的隶属度;(2)、将FCM算法的最小化类内方差的目标函数改写为若干函数项的和的形式,其中每一函数项只跟一个属性有关;(3)、将步骤(2)得到的若干函数项的和改写为对应的最大化类间方差;(4)、给每一个属性赋予一个权重wj,p个权重值构成权重w;将步骤(3)中对应的函数项乘以该权重wj,最大化类间方差的目标函数变成一个对属性加权后的类间方差,并给权重以L1和L2范数约束,得到加权后的函数;(5)通过轮流固定隶属度uik和权重wj的迭代求解步骤(4)加权后的目标函数,迭代终止时得到聚类结果和选择出的属性集。
【技术特征摘要】
【专利技术属性】
技术研发人员:冯国灿,黎培兴,丘宪恩,邱燕艺,汤鑫,
申请(专利权)人:中山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。