聚类方法和设备技术

技术编号:4188502 阅读:148 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种聚类方法和设备。该方法包括以下步骤:在数据集中选取聚类中心,对于每个所述聚类中心确定特征点集合;根据所述特征点集合将所述数据集中的数据划分到聚类中;根据所述划分到聚类中的数据与所述特征点集合的关系确定新的特征点集合;根据所述新的特征点集合确定聚类结果。本发明专利技术所提出的聚类方法和设备对数据集不敏感,并且没有增加算法的复杂度。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,更具体地涉及聚类方法。
技术介绍
作为数据挖掘的重要组成部分,聚类分析在处理大规模数据中成为不可或缺的重要工具。聚类分析是一种重要的人类活动。通过适当聚类,事物才便于研究,事物的内部规律才可能为人类所掌握。在很多应用中,聚类分析作为一种数据预处理过程,是进一步分析和处理数据的基础。聚类分析已经广泛地用于许多应用领域,包括市场研究、模式识别、数据分析和图像处理。聚类可以帮助市场分析人员根据购买模式从顾客中发现不同的顾客群。在生物学中,聚类能用来推导植物和动物分类,根据相似功能进行分类。但是,传统的聚类算法对样本的分布形状敏感,不能满足大规模数据集和不同样本形状的需求。
技术实现思路
为了解决上述问题之一,本专利技术提出了一种聚类方法,包括以下步骤在数据集中选取聚类中心,对于每个所述聚类中心确定特征点集合;根据所述特征点集合将所述数据集中的数据划分到聚类中;根据所述划分到聚类中的数据与所述特征点集合的关系确定新的特征点集合;根据所述新的特征点集合确定聚类结果。 根据本专利技术的实施例,确定新的特征点集合的步骤包括根据所述数据与所述特征点集合的关系确定所述特征点集合中的特征点的修正值;根据所述特征点的当前值与所述特征点的修正值确定新的特征点。 根据本专利技术的实施例,根据所述数据与所述特征点集合的关系确定新的特征点集合的步骤之后还包括判断所述新的特征点集合与之前的特征点集合中的特征点的值是否相同;如果所述新的特征点集合与之前的特征点集合中的特征点的值相同,则根据所述新的特征点集合确定聚类结果;如果所述新的特征点集合与之前的特征点集合中的特征点的值不同,则重复根据所述新的特征点集合将所述数据划分到聚类中的步骤以及确定新的特征点集合的步骤。 根据本专利技术的实施例,根据所述特征点集合将所述数据集中的数据划分到聚类中的步骤包括计算所述数据与所述特征点集合的加权距离;将所述数据划分到所述加权距离最小的聚类。 根据本专利技术的实施例,计算所述数据与所述特征点集合的加权距离的步骤包括根据离散系数确定所述数据与所述特征点的距离的权值。 根据本专利技术的实施例,所述数据与所述特征点的距离d的权值根据以下公式得出w(d)=e-F×d,其中d为数据与特征点的距离,F为所述离散系数,w(d)为所述数据与所述特征点的距离的权值。 根据本专利技术的实施例,所述数据与特征点集合的加权距离通过以下公式得出其中,x为所述数据,c为所述特征点集合,ci为特征点集合c中的特征点,其中i=1,2......m,m为所述特征点集合中的特征点的数目,d(x,ci)为数据x与特征点ci的距离,w(d(x,ci))为数据x与特征点ci的距离的权值,D(x,c)为所述数据x与所述特征点集合c的加权距离。 根据本专利技术的实施例,所述确定新的特征点集合的步骤包括确定新的特征点集合使得所述特征点在所述聚类中更加均匀地分布。 根据本专利技术的实施例,所述特征点的修正值通过以下公式获得其中,x为数据,ci为所述特征点的当前值,ci’为所述特征点的修正值,其中i=1,2,......m,m为所述特征点集合中的特征点的数目,d(x,ci)为数据x与特征点ci的距离,w(d(x,ci))为数据x与特征点ci的距离的归一化值,cn为所述特征点集合中距离数据x距离最近的特征点。 根据本专利技术的实施例,所述新的特征点通过以下公式获得Ci″=(i×ci′+(m-i)×ci)/m,其中,ci为所述特征点的当前值,ci’为所述特征点的修正值,ci”为所述新的特征点,其中i=1,2,......m,m为所述特征点集合中的特征点的数目。 根据本专利技术的实施例,在数据集中选取聚类中心的步骤包括在所述数据集中随机选取所述聚类中心。 根据本专利技术的实施例,对于每个所述聚类中心确定特征点集合的步骤包括将所述特征点集合中的特征点的初始值均确定为与所述聚类中心重合。 本专利技术还提出了一种设备,包括初始化模块、聚类模块、特征点更新模块和聚类结果确定模块。其中,所述初始化模块用于在数据集中选取聚类中心,对于每个所述聚类中心确定特征点集合;所述聚类模块用于根据所述特征点集合将所述数据集中的数据划分到聚类中;所述特征点更新模块用于根据所述划分到聚类中的数据与所述特征点集合的关系确定新的特征点集合;所述聚类结果确定模块用于根据所述新的特征点集合确定聚类结果。 根据本专利技术的实施例,所述特征点更新模块包括特征点修正模块和特征点扰动模块。其中,所述特征点修正模块用于根据所述数据与所述特征点集合的关系确定所述特征点集合中的特征点的修正值;所述特征点扰动模块用于根据所述特征点的当前值与所述特征点的修正值确定新的特征点。 根据本专利技术的实施例,该设备还包括判断模块,其用于判断所述新的特征点集合与之前的特征点集合中的特征点的值是否相同;所述聚类结果确定模块用于在所述判断模块判断所述新的特征点集合与之前的特征点集合中的特征点的值相同时,根据所述新的特征点集合确定聚类结果;所述聚类模块还用于在所述判断模块判断所述新的特征点集合与之前的特征点集合中的特征点的值不同时,根据所述新的特征点集合将所述数据划分到聚类中;所述特征点更新模块还用于在所述判断模块判断所述新的特征点集合与之前的特征点集合中的特征点的值不同时,在所述聚类模块将所述数据划分到聚类中之后,确定新的特征点集合。 根据本专利技术的实施例,所述聚类模块包括加权模块和划分模块。其中,所述加权模块用于计算所述数据与所述特征点集合的加权距离;所述划分模块用于将所述数据划分到所述加权距离最小的聚类。 根据本专利技术的实施例,所述特征点更新模块还用于确定新的特征点集合使得所述特征点在所述聚类中更加均匀地分布。 本专利技术所提出的聚类方法和设备对数据集不敏感,并且算法复杂度和传统算法在同一数量级。 附图说明 本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中 图1为根据本专利技术的一个实施例的聚类方法的流程图; 图2为根据本专利技术的一个实施例的设备的结构示意图。 具体实施例方式 下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。 本专利技术提出了一种聚类方法,或称聚类算法,如图1所示为本专利技术的聚类方法的一个实施例的流程图。如图1所示,该实施例100包括以下步骤 S101在数据集中选取聚类中心,对于每个聚类中心确定特征点集合。 作为本专利技术的一个实施例,可以在数据集中随机选取聚类中心。例如,如果数据集需要划分为k个聚类,则随机选取k个聚类中心。当然,这仅是本专利技术的一个示例,也可以采用其他的方法确定聚类中心。 特征点集合中可以包括多个特征点,为了便于描述,在下文中称为m个特征点。作为本专利技术的一个实施例,m个特征点的初始值确定为均与聚类中心重合。 S102根据特征点集合将数据集中的数据划分到聚类中。 作为本专利技术的一个实施例,可以通过引入离散系数F计算数据点与特征点集合的加权距离。 例如,距离d的权值可以通过以下公式得出 w(d)=e-F×d,其中,d为数据点与特征点的距离,F为离散系数,w(d)为距离d的权值。 作为本专利技术的一个实施例,数据点x与特征本文档来自技高网...

【技术保护点】
一种聚类方法,其特征在于,包括以下步骤: 在数据集中选取聚类中心,对于每个所述聚类中心确定特征点集合; 根据所述特征点集合将所述数据集中的数据划分到聚类中; 根据所述划分到聚类中的数据与所述特征点集合的关系确定新的特征点集 合; 根据所述新的特征点集合确定聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:曹先彬汪中许言午李彤宁博林人俊吴长侠
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:34[中国|安徽]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1