当前位置: 首页 > 专利查询>长江大学专利>正文

一种大数据聚类方法及装置制造方法及图纸

技术编号:22075982 阅读:28 留言:0更新日期:2019-09-12 14:13
本发明专利技术涉及数据挖掘技术领域,公开了一种大数据聚类方法,包括以下步骤:S1、获取原始数据集;S2、采用分布式Canopy算法将所述原始数据集划分为多个全局Canopy中心集;S3、采用分布式K‑means聚类算法,以各所述全局Canopy中心集的全局Canopy中心作为所述分布式K‑means聚类算法的初始聚类中心,对所述原始数据集进行聚类处理。本发明专利技术提供的大数据聚类方法具有收敛速度快,聚类效果好的技术效果;同时,缓解了单服务器处理海量数据带来的硬件瓶颈问题,有利于对大规模数据进行快速、有效的数据挖掘。

A Clustering Method and Device for Large Data

【技术实现步骤摘要】
一种大数据聚类方法及装置
本专利技术涉及聚类分析
,具体涉及一种大数据聚类方法及装置。
技术介绍
目前,我们生活在一个被拥有4V特点的大数据时代,丰富的数据资源中蕴藏着大量的宝贵价值,从中获取有利的信息成为学术界和工业界的热点问题。聚类作为数据挖掘领域研究的主要内容之一,在揭示数据内在性质及规律方面具有极其重要的作用。维度高,数据结构复杂和体积庞大的数据使传统的聚类分析方法显得力不从心,并且传统的聚类方法,例如分布式K-means聚类算法无论是在串行化或者并行化的情况下始终都存在着初始聚类中心随机选择的缺点,严重影响最终收敛速度和聚类效果;同时,对大规模数据集进行聚类分析,单服务器的硬件瓶颈致使算法分析能力受到限制。
技术实现思路
本专利技术的目的在于克服上述技术不足,提供一种大数据聚类方法及装置,解决现有技术中收敛速度慢、聚类效果不好的技术问题。为达到上述技术目的,本专利技术的技术方案提供一种大数据聚类方法,包括以下步骤:S1、获取原始数据集;S2、采用分布式Canopy算法将所述原始数据集划分为多个全局Canopy中心集;S3、采用分布式K-means聚类算法,以各所述全局Canopy中数据样本的均值作为所述分布式K-means聚类算法的初始聚类中心,对所述原始数据集进行聚类处理。本专利技术还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述大数据聚类方法。本专利技术还提供一种大数据聚类装置,包括客户终端、名称节点服务器以及数据节点服务器,所述数据节点服务器的数量为多个,所述客户终端、名称节点服务器以及多个所述数据节点服务器组建Hadoop集群;所述客户终端用于上传原始数据集至所述名称节点服务器;所述名称节点服务器用于将所述原始数据集分配至空闲的数据节点服务器;所述数据节点服务器用于采用所述大数据聚类方法,对所述原始数据集进行聚类处理。与现有技术相比,本专利技术的有益效果包括:本专利技术首先采用分布式Canopy算法将所述原始数据集划分为多个全局Canopy中心集,并计算各所述全局Canopy中心集的均值,以该均值作为分布式K-means聚类算法的初始聚类中心进行聚类。从而利用分布式Canopy算法改进分布式K-means聚类算法存在的聚类数和初始聚类中心随机选择的缺陷,加快了收敛速度,提高了聚类效果。同时,Canopy算法和K-means聚类算法均结合分布式数据处理方法,从而缓解了单服务器处理海量数据带来的硬件瓶颈问题,有利于对大规模数据进行快速、有效的数据挖掘。附图说明图1是本专利技术提供的大数据聚类方法一实施方式的流程图;图2是本专利技术提供的分布式Canopy算法一实施方式的流程图;图3是本专利技术提供的分布式K-means聚类算法一实施方式的流程图;图4是本专利技术提供的大数据聚类装置的结构示意图。附图标记:1、客户终端,2、名称节点服务器,3、数据节点服务器。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例1如图1所示,本专利技术的实施例1提供了大数据聚类方法,包括以下步骤:S1、获取原始数据集;S2、采用分布式Canopy算法将所述原始数据集划分为多个全局Canopy中心集;S3、采用分布式K-means聚类算法,以各所述全局Canopy中心集的全局Canopy中心作为所述分布式K-means聚类算法的初始聚类中心,对所述原始数据集进行聚类处理。本专利技术中,分布式K-means聚类算法以分布式Canopy算法的全局Canopy中数据样本的均值为初始聚类中心进行聚类处理,利用分布式Canopy算法改进分布式K-means聚类算法存在的聚类数和初始聚类中心随机选择的缺陷,有效的提高了对大数据进行聚类分析时的聚类质量,加快了收敛速度。具体的,Canopy算法用来获取K-means聚类算法的聚类簇数和初始聚类中心值两个初始输入参数。以全局Canopy中心的个数作为聚类簇数,计算各全局Canopy中数据样本到其全局Canopy中心之间距离的均值,以各均值作为初始聚类中心值。同时,本专利技术结合分布式数据处理方法,实现聚类的并行化处理,避免了单服务器进行聚类分析时的硬件瓶颈。优选的,如图2所示,所述S2具体包括:S21、对所述原始数据集进行预处理,并将所述原始数据集分割成多个数据子集;S22、采用分布式Canopy算法将每一所述数据子集分别划分为多个局部Canopy中心集;S23、采用分布式Canopy算法将每一所述局部Canopy中心集分别划分为多个全局Canopy中心集。将原始数据集分割为多个数据子集分别进行处理,采用分布式Canopy算法进行分布式处理,提高处理效率,降低硬件损耗。优选的,如图2所示,所述S22具体为:S221、计算所述数据子集中每个数据样本的方差,选取方差最小的数据样本作为局部Canopy中心,并将其从所述数据子集中删除;S222、计算所述数据子集中除所述局部Canopy中心外的其他样本数据到所述局部Canopy中心的距离,将距离小于第一阈值的样本数据归入以所述局部Canopy中心为中心的局部Canopy中,将距离小于第二阈值的样本数据从所述数据子集中删除,所述第一阈值大于第二阈值;S223、判断所述数据子集是否为空,如果是,则获取所有所述局部Canopy中心集,否则转S221进行下一次分类。采用Canopy算法对数据子集进行划分。如果数据子集中数据样本到局部Canopy中心的距离小于第一设定阈值,将这些数据样本归入到以该局部Canopy中心为中心的局部Canopy中,划分为一类。如果数据样本到局部Canopy中心的距离不仅小于第一设定阈值,而且小于第二设定阈值,则将其从数据子集中删除,因为这些数据样本成为下一个局部Canopy中心的可能性很小;如果数据样本到局部Canopy中心的距离大于第二设定阈值,则将其保留在数据子集中,因为它们会成为下一个局部Canopy中心的候选者。数据子集不为空时,重复执行上述步骤,直至完成数据子集中所有数据样本的划分。本优选实施例对传统Canopy算法进行了改进,采用基于最小方差的分布式Canopy算法,基于最小方差的分布式Canopy算法是以数据子集中方差最小的样本点为Canopy中心进行MapReduce并行化划分获得最终的Canopy中心。基于方差的Canopy算法其基本思想为:依据样本方差原理可知,数据集中样本方差的大小,直接决定样本在数据集中的离散趋势。方差越小,则该样本点周围数据越稠密,准则函数收敛越快;反之,则越稀疏,收敛越慢。因此,对传统Canopy算法随机从待聚类样本中任选一点作为Canopy中心的方式进行优化,先计算数据子集中每个数据样本的方差,以方差最小的样本数据作为Canopy中心进行Canopy划分,进而获取优质的初始聚类中心作为分布式K-means聚类算法的输入。具体的,设待聚类的数据子集为:D={xi|xi∈Rm,i=1,2,3,...,n}数据子集中每个数据样本均拥有m个属性,则数据xi可表示为xi={xi1,xi2,xi3,...,xim}。方差的计算方法,通过下列定义公式计本文档来自技高网...

【技术保护点】
1.一种大数据聚类方法,其特征在于,包括以下步骤:S1、获取原始数据集;S2、采用分布式Canopy算法将所述原始数据集划分为多个全局Canopy中心集;S3、采用分布式K‑means聚类算法,以各所述全局Canopy中心集的全局Canopy中心作为所述分布式K‑means聚类算法的初始聚类中心,对所述原始数据集进行聚类处理。

【技术特征摘要】
1.一种大数据聚类方法,其特征在于,包括以下步骤:S1、获取原始数据集;S2、采用分布式Canopy算法将所述原始数据集划分为多个全局Canopy中心集;S3、采用分布式K-means聚类算法,以各所述全局Canopy中心集的全局Canopy中心作为所述分布式K-means聚类算法的初始聚类中心,对所述原始数据集进行聚类处理。2.根据权利要求1所述的大数据聚类方法,其特征在于,所述S2具体包括:S21、对所述原始数据集进行预处理,并将所述原始数据集分割成多个数据子集;S22、采用分布式Canopy算法将每一所述数据子集分别划分为多个局部Canopy中心集;S23、采用分布式Canopy算法将每一所述局部Canopy中心集分别划分为多个全局Canopy中心集。3.根据权利要求2所述的大数据聚类方法,其特征在于,所述S22具体为:S221、计算所述数据子集中每个数据样本的方差,选取方差最小的数据样本作为局部Canopy中心,并将其从所述数据子集中删除;S222、计算所述数据子集中除所述局部Canopy中心外的其他样本数据到所述局部Canopy中心的距离,将距离小于第一阈值的样本数据归入以所述局部Canopy中心为中心的局部Canopy中,将距离小于第二阈值的样本数据从所述数据子集中删除,所述第一阈值大于第二阈值;S223、判断所述数据子集是否为空,如果是,则获取所有所述局部Canopy中心集,否则转S221进行下一次分类。4.根据权利要求3所述的大数据聚类方法,其特征在于,所述S23具体为:S231、计算所述局部Canopy中心集中每个数据样本的方差,选取方差最小的数据样本作为全局Canopy中心,并将其从所述局部Canopy中心集中删除;S232、计算所述数据子集中除所述全局Canopy中心外的其他样本数据到所述全局Canopy中心的距离,将距离小于所述第一阈值的样本数据归入以所述全局Canopy中心为中心的全局Canopy中,将距离小于所述第二阈值的样本数据从所述局部Canopy中心集中删除;S233、判断所述局部Canopy中心集是否为空,如果是,则获取所有所述...

【专利技术属性】
技术研发人员:邹学玉汪晶
申请(专利权)人:长江大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1