数据挖掘中基于密度优化初始中心的K均值聚类方法技术

技术编号：11661548 阅读：73 留言：0更新日期：2015-06-29 15:48

本发明专利技术涉及一种数据挖掘中基于密度优化初始中心的K均值聚类方法，其包括如下步骤：步骤1、给定所需的数据集，并确定聚类个数K；步骤2、计算数据集内所有数据对象的密度，并根据得到数据对象的密度计算数据集的平均密度；步骤3、计算数据集内每个数据对象的最小密度距离值；步骤4、对数据集内数据对象的最小密度距离值进行降序排序，根据确定的聚类个数K，选择与前K个最小密度距离值对应并且密度大于平均密度的数据对象最为初始聚类中心；步骤5、根据上述获得的初始聚类中心，利用K-means聚类方法对数据集进行聚类，直至输出聚类结果。本发明专利技术降低计算复杂度，提高分类的准确率，稳定性高，提高快速收敛。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种聚类方法，尤其是一种数据挖掘中基于密度优化初始中心的K均值聚类方法，属于聚类分析的

技术介绍
数据挖掘是当今计算机研宄的热题之一，聚类分析作为一种无监督的机器学习方法，是指对于一个数据对象集合，研宄如何自动把数据对象划分到不同的簇中，让相同簇内的对象在某种衡量标准下具有较高的相似性，而不同簇中的数据对象具有低的相似性。聚类分析被广泛的应用在机器学习、数据挖掘、语音识别、图像分割、商业分析和生物信息处理等前沿领域。目前，传统的聚类算法主要包括五类，他们分别是：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法和基于模型的聚类算法。在聚类算法当中，κ-means算法属于基于划分的聚类算法，它简洁而快速，以高效而著称。但原始的K-means算法存在一些缺陷：1)、原始算法要求使用者给出K值，即类簇的个数，这个值主要由经验得来，所以确定K值的难度较大；2)、算法对初始聚类中心敏感，初始中心选择的优劣，会影响聚类结果，影响算法运行的效率；3)、该算法对异常数据较为敏感，会导致结果陷入局部最优解。目前，一些学者已对初始中心点问题做出了些改进，如为防止结果陷入局部最优，通常是选择距离较远的比较分散的点作为初始中心点。但若仅仅考虑距离因素，则容易选到异常点，进而影响到聚类效果。学者也都考虑到这些问题，进而从密度的角度出发，来过滤掉异常点。还有一个问题是初始中心点有可能会被选成同一个类簇中的点，即尽管某个点的密度比较大，但是该点对应的类簇中已经有点被选做中心点了，此时应该选...

【技术保护点】
一种数据挖掘中基于密度优化初始中心的K均值聚类方法，其特征是，所述聚类方法包括如下步骤：步骤1、给定所需的数据集，并确定聚类个数K；步骤2、计算数据集内所有数据对象的密度，并根据得到数据对象的密度计算数据集的平均密度；步骤3、计算数据集内每个数据对象的最小密度距离值；步骤4、对数据集内数据对象的最小密度距离值进行降序排序，根据确定的聚类个数K，选择与前K个最小密度距离值对应并且密度大于平均密度的数据对象最为初始聚类中心；步骤5、根据上述获得的初始聚类中心，利用K‑means聚类方法对数据集进行聚类，直至输出聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：袁启龙，史海波，周晓锋，
申请(专利权)人：无锡中科泛在信息技术研发中心有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人