数据挖掘中基于密度优化初始中心的K均值聚类方法技术

技术编号:11661548 阅读:73 留言:0更新日期:2015-06-29 15:48
本发明专利技术涉及一种数据挖掘中基于密度优化初始中心的K均值聚类方法,其包括如下步骤:步骤1、给定所需的数据集,并确定聚类个数K;步骤2、计算数据集内所有数据对象的密度,并根据得到数据对象的密度计算数据集的平均密度;步骤3、计算数据集内每个数据对象的最小密度距离值;步骤4、对数据集内数据对象的最小密度距离值进行降序排序,根据确定的聚类个数K,选择与前K个最小密度距离值对应并且密度大于平均密度的数据对象最为初始聚类中心;步骤5、根据上述获得的初始聚类中心,利用K-means聚类方法对数据集进行聚类,直至输出聚类结果。本发明专利技术降低计算复杂度,提高分类的准确率,稳定性高,提高快速收敛。

【技术实现步骤摘要】

本专利技术涉及一种聚类方法,尤其是一种数据挖掘中基于密度优化初始中心的K均 值聚类方法,属于聚类分析的

技术介绍
数据挖掘是当今计算机研宄的热题之一,聚类分析作为一种无监督的机器学习方 法,是指对于一个数据对象集合,研宄如何自动把数据对象划分到不同的簇中,让相同簇内 的对象在某种衡量标准下具有较高的相似性,而不同簇中的数据对象具有低的相似性。聚 类分析被广泛的应用在机器学习、数据挖掘、语音识别、图像分割、商业分析和生物信息处 理等前沿领域。目前,传统的聚类算法主要包括五类,他们分别是:基于划分的聚类算法、基 于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的聚类算法。 在聚类算法当中,κ-means算法属于基于划分的聚类算法,它简洁而快速,以高效 而著称。但原始的K-means算法存在一些缺陷:1)、原始算法要求使用者给出K值,即类簇 的个数,这个值主要由经验得来,所以确定K值的难度较大;2)、算法对初始聚类中心敏感, 初始中心选择的优劣,会影响聚类结果,影响算法运行的效率;3)、该算法对异常数据较为 敏感,会导致结果陷入局部最优解。 目前,一些学者已对初始中心点问题做出了些改进,如为防止结果陷入局部最优, 通常是选择距离较远的比较分散的点作为初始中心点。但若仅仅考虑距离因素,则容易选 到异常点,进而影响到聚类效果。学者也都考虑到这些问题,进而从密度的角度出发,来过 滤掉异常点。还有一个问题是初始中心点有可能会被选成同一个类簇中的点,即尽管某个 点的密度比较大,但是该点对应的类簇中已经有点被选做中心点了,此时应该选择其它类 中的有代表性的点,否则,也会导致结果容易陷入局部最优解。
技术实现思路
本专利技术的目的是克服现有技术中存在的不足,提供一种数据挖掘中基于密度优化 初始中心的K均值聚类方法,其降低计算复杂度,提高分类的准确率,稳定性高,提高快速 收敛。 按照本专利技术提供的技术方案,一种数据挖掘中基于密度优化初始中心的K均值聚 类方法,所述聚类方法包括如下步骤: 步骤1、给定所需的数据集,并确定聚类个数K ; 步骤2、计算数据集内所有数据对象的密度,并根据得到数据对象的密度计算数据 集的平均密度; 步骤3、计算数据集内每个数据对象的最小密度距离值; 步骤4、对数据集内数据对象的最小密度距离值进行降序排序,根据确定的聚类个 数K,选择与前K个最小密度距离值对应并且密度大于平均密度的数据对象最为初始聚类 中心; 步骤5、根据上述获得的初始聚类中心,利用κ-means聚类方法对数据集进行聚 类,直至输出聚类结果。 所述步骤5包括如下步骤: 步骤5. 1、根据选定的初始聚类中心,将数据集内的数据对象分配到与所述数据对 象距离最近的初始聚类中心,并计算K个聚类内数据对象的误差平方和,以得到初始误差 平方和; 步骤5. 2、在将数据集内的数据对象分配到距离最近的初始聚类中心后,计算得到 K个聚类的聚类中心,以得到修正聚类中心; 步骤5. 3、根据修正聚类中心,确定K个聚类内数据对象的误差平方和,以得到修 正误差平方和; 步骤5. 4、当修正误差平方和与初始误差平方和之间的差值不满足收敛条件时,则 将得到的修正聚类中心重新作为初始聚类中心,并重复上述步骤,直至修正误差平方和与 初始误差平方和之间的差值满足收敛条件。【主权项】1. 一种数据挖掘中基于密度优化初始中心的K均值聚类方法,其特征是,所述聚类方 法包括如下步骤: 步骤1、给定所需的数据集,并确定聚类个数K; 步骤2、计算数据集内所有数据对象的密度,并根据得到数据对象的密度计算数据集的 平均密度; 步骤3、计算数据集内每个数据对象的最小密度距离值; 步骤4、对数据集内数据对象的最小密度距离值进行降序排序,根据确定的聚类个数 K,选择与前K个最小密度距离值对应并且密度大于平均密度的数据对象最为初始聚类中 心; 步骤5、根据上述获得的初始聚类中心,利用K-means聚类方法对数据集进行聚类,直 至输出聚类结果。2. 根据权利要求1所述的数据挖掘中基于密度优化初始中心的K均值聚类方法,其特 征是,所述步骤5包括如下步骤: 步骤5. 1、根据选定的初始聚类中心,将数据集内的数据对象分配到与所述数据对象距 离最近的初始聚类中心,并计算K个聚类内数据对象的误差平方和,以得到初始误差平方 和; 步骤5. 2、在将数据集内的数据对象分配到距离最近的初始聚类中心后,计算得到K个 聚类的聚类中心,以得到修正聚类中心; 步骤5. 3、根据修正聚类中心,确定K个聚类内数据对象的误差平方和,以得到修正误 差平方和; 步骤5. 4、当修正误差平方和与初始误差平方和之间的差值不满足收敛条件时,则将得 到的修正聚类中心重新作为初始聚类中心,并重复上述步骤,直至修正误差平方和与初始 误差平方和之间的差值满足收敛条件。3. 根据权利要求1所述的数据挖掘中基于密度优化初始中心的K均值聚类方法,其特 征是,对于数据集X = Ixi I i = 1,2, ...,η},数据对象具有m维特征,则数据对象的密度为其中,d(Xi,xp为数据对象Xi与数据对象^之间的欧式距离,=1,2,. . .,η ; j = 1,2,. . .,n ;R为数据对象Xi的邻域半径。4. 根据权利要求1所述的数据挖掘中基于密度优化初始中心的K均值聚类方法,其特 征是,对于数据对象Xi,计算数据对象X i到比它密度大的数据对象的距离,则最小密度距离 值为数据对象\到比它密度大数据对象的距离中的最小值;当所述数据对象X i为密度最大 的数据对象时,则最小密度距离值为数据对象\与数据集内数据对象间的最远距离。【专利摘要】本专利技术涉及一种数据挖掘中基于密度优化初始中心的K均值聚类方法,其包括如下步骤:步骤1、给定所需的数据集,并确定聚类个数K;步骤2、计算数据集内所有数据对象的密度,并根据得到数据对象的密度计算数据集的平均密度;步骤3、计算数据集内每个数据对象的最小密度距离值;步骤4、对数据集内数据对象的最小密度距离值进行降序排序,根据确定的聚类个数K,选择与前K个最小密度距离值对应并且密度大于平均密度的数据对象最为初始聚类中心;步骤5、根据上述获得的初始聚类中心,利用K-means聚类方法对数据集进行聚类,直至输出聚类结果。本专利技术降低计算复杂度,提高分类的准确率,稳定性高,提高快速收敛。【IPC分类】G06F17-30【公开号】CN104731916【申请号】CN201510131975【专利技术人】袁启龙, 史海波, 周晓锋 【申请人】无锡中科泛在信息技术研发中心有限公司【公开日】2015年6月24日【申请日】2015年3月24日本文档来自技高网
...

【技术保护点】
一种数据挖掘中基于密度优化初始中心的K均值聚类方法,其特征是,所述聚类方法包括如下步骤:步骤1、给定所需的数据集,并确定聚类个数K;步骤2、计算数据集内所有数据对象的密度,并根据得到数据对象的密度计算数据集的平均密度;步骤3、计算数据集内每个数据对象的最小密度距离值;步骤4、对数据集内数据对象的最小密度距离值进行降序排序,根据确定的聚类个数K,选择与前K个最小密度距离值对应并且密度大于平均密度的数据对象最为初始聚类中心;步骤5、根据上述获得的初始聚类中心,利用K‑means聚类方法对数据集进行聚类,直至输出聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:袁启龙史海波周晓锋
申请(专利权)人:无锡中科泛在信息技术研发中心有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1