当前位置: 首页 > 专利查询>武汉大学专利>正文

基于数据场划分网格的自动聚类方法技术

技术编号:6538286 阅读:334 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种基于数据场划分网格的自动聚类方法,将划分所得每个网格看作一个具有质量的数据点,它们之间彼此相互影响形成数据场,所有数据点之间的相互叠加作用表现为数据场的势值。本发明专利技术首先通过搜索数据场势值的局部极大值来发现数据的簇中心,进而根据簇中心向周围搜索并确定簇的边缘,最终将整个簇搜索出来,可以被应用于图像处理、社区发现、异常检测、市场研究等领域。与现有的聚类方法相比,本方法具有处理速度快,并且对噪声不敏感的特点。

【技术实现步骤摘要】

本专利技术涉及聚类分析
,尤其涉及一种。
技术介绍
聚类方法能够根据数据本身的相似性,自动地将数据分成若干个小的簇,使每个簇内部的数据之间彼此相似,而与其他簇内的数据相异。通过这样的自动聚合,聚类分析能够帮助人们发现隐藏在数据背后的潜在知识,对于信息的处理和知识的发现有着非常重要的意义。目前,聚类方法已经被广泛地应用于图像处理、异常检测、Web热点发现、社区发现、 信用卡欺诈检测、商务数据分析等方面。例如,在模式识别方面,通过对图片特征向量的处理,自动将一组动物的图片自动归类为羊、狗、蛇等;在异常检测方面,通过对产品属性的聚类,自动发现其中的次品;在市场研究方面,通过对用户进行聚类来将用户自动归类,进而辅助决策者制定市场策略。现有的聚类方法为了能够得到较好的处理效果大都采用了较为复杂的计算方式, 处理速度较慢,无法适用于大规模的数据处理。另外,噪声也是影响聚类方法质量的一个重要因素。
技术实现思路
针对以上存在的技术问题,本专利技术的目的是基于数据场,提出了一种快速高效的自动聚类方法,以解决对大量数据进行聚类处理时的速度和效率问题。为达到上述目的,本专利技术采用下的技术方案包括以下步骤步骤1,读取待进行聚类分析的所有数据,数据的维度为n,根据用户提供的网格划分参数k将数据空间等分为kn个网格,根并将每个数据分配到相应的网格中;步骤2,将数据场的影响因子ο设定为步骤1所划分网格的最大边长;步骤3,将每个网格看作一个具有一定质量的数据点,数据点的质量在数值上等于网格中包含的数据总数量,数据点的坐标为网格的重心坐标,计算由这些数据点相互作用形成的数据场在各个网格重心处的势值和一阶偏导绝对值;步骤4,遍历步骤1划分所得每个网格,如果其中某一网格的势值取值大于该网格每个维度上所有直接相邻网格的势值取值,则认为该网格包含聚类中心;步骤5,分别以步骤4找到的每个包含聚类中心的网格为起点,搜索满足条件的直接相邻网格,再以搜索到的网格为起点继续搜索满足条件的直接相邻网格,直到搜索不到满足条件的直接相邻网格为止,搜索得到的所有满足条件的网格构成聚类簇;所述条件为, 势值小于作为起点的网格,并且一阶偏导绝对值大于作为起点的网格;步骤6,计算步骤5找到的所有聚类簇中所有网格的质量平均值,将该平均值作为噪声阀值t ;步骤7,根据步骤6所得噪声阀值t,将步骤5找到的各聚类簇中的所有质量小于噪声阀值t的网格删除;步骤8,当存在两个或者以上聚类簇包含有相同的网格时,将这两个或者以上聚类簇合并;步骤9,将所得各聚类簇作为聚类结果输出。 本专利技术的技术方案与已有的聚类方法相比,利用划分网格的方式将运算复杂度降低为0(k),其中k为网格划分参数,极大地提高了方案实施的处理速度;通过一阶偏导来确定簇的中心和边缘,可以有效地避免对噪声的处理,从而使方法具有很好的健壮性。附图说明图1是数据场势函数的变化曲线;图2是数据场势函数及一阶偏导绝对值的变化曲线;图3是本专利技术实施例二维数据的坐标分布示意图;图4是本专利技术实施例划分网格示意图;图5是本专利技术实施例根据势值找到的局部聚类中心示意图;图6是本专利技术实施例根据聚类中心找到的聚类网格簇示意图;图7是本专利技术实施例的聚类结果示意图。具体实施例方式受到物理学中场论的启发,王树良等提出数据场的思想。数据通过数据辐射将其数据能量从样本空间辐射到整个母体空间,接受数据能量并被数据辐射所覆盖的空间,叫做数据场。数据场可视为一个充满数据能量的空间,数据通过自己的数据场,对场中的另一数据发射能量。数据场中的数据点之间会相互辐射能量,这些能量相互叠加形成数据场的势。根据数据对象的不同,数据场的场强函数可以定义为多种形式,在本专利技术中采用核辐射衍生场,则相应的势函数如公式(一)。、+ = tr— , ^^ 公式(一)其中,x,y为两个数据点,σ为数据场的影响因子,I |X-y| I2为两个数据点X,y之间的欧氏距离,m为数据点y的质量,e为数学常数。所求得丨表示数据点y在χ处的影响作用。公式(一)所定义的数据场势值函数具有很好的衰减性(如附图1中σ分别取值1、0. 5和2时的曲线),适用于聚类方法根据相似性划分簇的根本目的。附图1中横轴是数据场源点的距离,纵轴是m = 1时对应的势值和一阶偏导值。另外,由于数据场定义的势函数具有很好的连续性,所以只要选取合适的影响因子,数据场就能够很好地反映数据的分布特性。附图2即为附图3所示的数据集中划线区域的势值及一阶偏导绝对值,横轴是数据点的(图3中竖直方向)属性值,纵轴是势值和一阶偏导绝对值。从簇的边缘到中心再到边缘的变化过程中,数据场的势值是一个先增后减的变化过程,并且在簇中心处取取最大值。数据场势值的变化情况可以用一阶导数来进行描述。在本专利技术中,数据场势值的一阶偏导根据公式(二)来进行计算,即本文档来自技高网...

【技术保护点】
1.一种基于数据场划分网格的自动聚类方法,其特征在于, 包括以下步骤:步骤1,读取待进行聚类分析的所有数据,数据的维度为n,根据用户提供的网格划分参数k将数据空间等分为kn个网格,根并将每个数据分配到相应的网格中;步骤2,将数据场的影响因子σ设定为步骤1所划分网格的最大边长;步骤3,将每个网格看作一个具有一定质量的数据点,数据点的质量在数值上等于网格中包含的数据总数量,数据点的坐标为网格的重心坐标,计算由这些数据点相互作用形成的数据场在各个网格重心处的势值和一阶偏导绝对值;步骤4,遍历步骤1划分所得每个网格,如果其中某一网格的势值取值大于该网格每个维度上所有直接相邻网格的势值取值,则认为该网格包含聚类中心;步骤5,分别以步骤4找到的每个包含聚类中心的网格为起点,搜索满足条件的直接相邻网格,再以搜索到的网格为起点继续搜索满足条件的直接相邻网格,直到搜索不到满足条件的直接相邻网格为止,搜索得到的所有满足条件的网格构成聚类簇;所述条件为,势值小于作为起点的网格,并且一阶偏导绝对值大于作为起点的网格;步骤6,计算步骤5找到的所有聚类簇中所有网格的质量平均值,将该平均值作为噪声阀值                                                ;步骤7,根据步骤6所得噪声阀值,将步骤5找到的各聚类簇中的所有质量小于噪声阀值的网格删除;步骤8,当存在两个或者以上聚类簇包含有相同的网格时,将这两个或者以上聚类簇合并;步骤9,将所得各聚类簇作为聚类结果输出。...

【技术特征摘要】
1. 一种基于数据场划分网格的自动聚类方法,其特征在于,包括以下步骤 步骤1,读取待进行聚类分析的所有数据,数据的维度为n,根据用户提供的网格划分参数k将数据空间等分为kn个网格,根并将每个数据分配到相应的网格中; 步骤2,将数据场的影响因子ο设定为步骤1所划分网格的最大边长; 步骤3,将每个网格看作一个具有一定质量的数据点,数据点的质量在数值上等于网格中包含的数据总数量,数据点的坐标为网格的重心坐标,计算由这些数据点相互作用形成的数据场在各个网格重心处的势值和一阶偏导绝对值;步骤4,遍历步骤1划分所得每个网格,如果其中某一网格的势值取值大于该网格每个维度上所有直接相邻网格的势值取值,则认为该网格...

【专利技术属性】
技术研发人员:王树良陈亚森
申请(专利权)人:武汉大学
类型:发明
国别省市:83

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1