【技术实现步骤摘要】
本专利技术涉及聚类分析
,尤其涉及一种。
技术介绍
聚类方法能够根据数据本身的相似性,自动地将数据分成若干个小的簇,使每个簇内部的数据之间彼此相似,而与其他簇内的数据相异。通过这样的自动聚合,聚类分析能够帮助人们发现隐藏在数据背后的潜在知识,对于信息的处理和知识的发现有着非常重要的意义。目前,聚类方法已经被广泛地应用于图像处理、异常检测、Web热点发现、社区发现、 信用卡欺诈检测、商务数据分析等方面。例如,在模式识别方面,通过对图片特征向量的处理,自动将一组动物的图片自动归类为羊、狗、蛇等;在异常检测方面,通过对产品属性的聚类,自动发现其中的次品;在市场研究方面,通过对用户进行聚类来将用户自动归类,进而辅助决策者制定市场策略。现有的聚类方法为了能够得到较好的处理效果大都采用了较为复杂的计算方式, 处理速度较慢,无法适用于大规模的数据处理。另外,噪声也是影响聚类方法质量的一个重要因素。
技术实现思路
针对以上存在的技术问题,本专利技术的目的是基于数据场,提出了一种快速高效的自动聚类方法,以解决对大量数据进行聚类处理时的速度和效率问题。为达到上述目的,本专利技术采用下的技术方案包括以下步骤步骤1,读取待进行聚类分析的所有数据,数据的维度为n,根据用户提供的网格划分参数k将数据空间等分为kn个网格,根并将每个数据分配到相应的网格中;步骤2,将数据场的影响因子ο设定为步骤1所划分网格的最大边长;步骤3,将每个网格看作一个具有一定质量的数据点,数据点的质量在数值上等于网格中包含的数据总数量,数据点的坐标为网格的重心坐标,计算由这些数据点相互作用形成的数据场在各个 ...
【技术保护点】
1.一种基于数据场划分网格的自动聚类方法,其特征在于, 包括以下步骤:步骤1,读取待进行聚类分析的所有数据,数据的维度为n,根据用户提供的网格划分参数k将数据空间等分为kn个网格,根并将每个数据分配到相应的网格中;步骤2,将数据场的影响因子σ设定为步骤1所划分网格的最大边长;步骤3,将每个网格看作一个具有一定质量的数据点,数据点的质量在数值上等于网格中包含的数据总数量,数据点的坐标为网格的重心坐标,计算由这些数据点相互作用形成的数据场在各个网格重心处的势值和一阶偏导绝对值;步骤4,遍历步骤1划分所得每个网格,如果其中某一网格的势值取值大于该网格每个维度上所有直接相邻网格的势值取值,则认为该网格包含聚类中心;步骤5,分别以步骤4找到的每个包含聚类中心的网格为起点,搜索满足条件的直接相邻网格,再以搜索到的网格为起点继续搜索满足条件的直接相邻网格,直到搜索不到满足条件的直接相邻网格为止,搜索得到的所有满足条件的网格构成聚类簇;所述条件为,势值小于作为起点的网格,并且一阶偏导绝对值大于作为起点的网格;步骤6,计算步骤5找到的所有聚类簇中所有网格的质量平均值,将该平均值作为噪声阀值 ...
【技术特征摘要】
1. 一种基于数据场划分网格的自动聚类方法,其特征在于,包括以下步骤 步骤1,读取待进行聚类分析的所有数据,数据的维度为n,根据用户提供的网格划分参数k将数据空间等分为kn个网格,根并将每个数据分配到相应的网格中; 步骤2,将数据场的影响因子ο设定为步骤1所划分网格的最大边长; 步骤3,将每个网格看作一个具有一定质量的数据点,数据点的质量在数值上等于网格中包含的数据总数量,数据点的坐标为网格的重心坐标,计算由这些数据点相互作用形成的数据场在各个网格重心处的势值和一阶偏导绝对值;步骤4,遍历步骤1划分所得每个网格,如果其中某一网格的势值取值大于该网格每个维度上所有直接相邻网格的势值取值,则认为该网格...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。