一种基于分形技术的分布式聚类方法技术

技术编号:15499981 阅读:27 留言:0更新日期:2017-06-03 22:02
本发明专利技术公开了一种基于分形技术的分布式聚类方法;解决了以往的分布式聚类算法其通信量和中心节点的计算工作量大的难题,该算法比以往的分布式聚类算法减少了通信量和中心节点的计算工作量,该算法充分利用分形维度作为相似性衡量的标准,使得簇之间分形维度变化最大,簇内分形维度变化最小。通过将分析维度引入到聚类算法,利用分形维度固有的自相似性来提高聚类算法的适应性。

A distributed clustering method based on Fractal Technology

The invention discloses a distributed clustering method based on fractal technique; solve the calculation workload distributed clustering algorithm before its communication and the central node of the big problem, the algorithm is better than the previous distributed clustering algorithm reduces the computational work amount of communication and the central node, the algorithm makes full use of the fractal dimension as the similarity the standard, which makes cluster between fractal dimension changes, cluster fractal dimension change minimum. By introducing the analysis dimension into the clustering algorithm, the self similarity of the fractal dimension is used to improve the adaptability of the clustering algorithm.

【技术实现步骤摘要】
一种基于分形技术的分布式聚类方法
本专利技术涉及聚类处理相关领域,尤其是一种基于分形技术的分布式聚类方法。
技术介绍
聚类分析是数据挖掘领域的一项重要研究内容,聚类算法在金融业务员、保险业、市场营销、网络安全、科学决策等方面的应用越来越广泛。目前已有的聚类算法大多只适用于集中式数据的聚类。而实际中的数据却是分布在不同的站上,如果使用传统的聚类算法从这些分布式数据中提取信息,就必须把这些数据合并到一个中心站点上。由于传输速度和安全因素的限制,把各站点的数据合部集中到某一个中心站点上是十分困难的。而且所有站点数据集中在一起,数据量会非常庞大,聚类效率会显著降低。经过检索发现专利号CN200710156189.3的专利技术公开了一种面向互联网微内容的分布式聚类方法。本专利技术采用多机分布式聚类的方法,主控机器把要处理的微内容切分成多个小文件,并把这些小文件分配给多台聚类机器进行聚类操作。单台聚类机器对分配到的各个小文件循环进行元聚类,接着合并这些元聚类结果文件,得到相应的单机聚类合并文件,然后把它发送给主控机器。主控机器在接收到各个聚类机器发送过来的单机聚类合并文件后,从各个单机聚类合并文件中抽取微内容代表点,对这些微内容代表点进行再次元聚类,生成新的聚类项,并将对应的类别合并,得到最后的聚类结果。专利号CN201510747122.1的专利技术公开了一种海量负荷曲线的分布式聚类方法,其通过将受聚类区域内所有用户划分为M个用户子集,并对应每一个用户子集设置一个局部数据中心,用各个局部数据中心分别对各自处理得到的归一化日负荷曲线进行自适应局部聚类,以减少待分析的用电数据,再对应所述受聚类区域设置一个全局数据中心,并全局数据中心对接收到的所有局部典型曲线进行全局的聚类分析,从而使得每一个局部数据中心的每一条原始日负荷曲线能够归属到相应的全局聚类。传统聚类方法的一个前提是数据集中在一个站点,需要一次性载入内存。然而,在许多环境中,局域网、广域网、Internet网将多个数据源连成一个大型分布式异构数据库,用户需要处理大量、多计算节点、不同地理分布的数据,并需要保护数据的隐私和安全。集中式聚类算法不能很好地应用到分布式环境中,以往的分布式聚类算法其通信量和中心节点的计算工作量均较大,即使允许集中执行大量的数据,要么算法崩溃,要么执行效率太低,其长时间的执行,让用户难以接受。数据存储方式的变化对聚类算法的并行性和分布化都提出了要求。
技术实现思路
本专利技术的目的在于克服现有技术的不足,在此提供一种基于分形技术的分布式聚类方法。解决了以往的分布式聚类算法其通信量和中心节点的计算工作量大的难题,该算法比以往的分布式聚类算法减少了通信量和中心节点的计算工作量,该算法充分利用分形维度作为相似性衡量的标准,使得簇之间分形维度变化最大,簇内分形维度变化最小。通过将分析维度引入到聚类算法,利用分形维度固有的自相似性来提高聚类算法的适应性。本专利技术是这样实现的,构造一种基于分形技术的分布式聚类方法,其特征在于:该方法的步骤如下:步骤1:数据预处理;步骤2:抽样聚类:中心节点从各子节点抽取总数量为N的数据并聚类;步骤3:全局聚类;步骤4:迭代完成步骤2-步骤3,直到达到最大抽样次数L;步骤5:中心节点J0经过L次抽样聚类后;步骤6:各子节点计算本地数据点的平均分形维数;步骤7:各子节点计算本地数据点的平均分形维数与k个分形聚类中心的距离,将其划分为最近的那个聚类,即为最终聚类结果。根据本专利技术所述一种基于分形技术的分布式聚类方法,其特征在于:步骤1:数据预处理包括如下步骤;步骤1.1:中心节点J0发出指令获取各子节点本地数据集的分布情况;步骤1.2:各子节点计算本地数据集中的记录数ni及各属性的取值范围(Amin与Amax),并将数据上传至中心节点J0;步骤1.3:中心节点J0合并各子节点数据集中各属性的取值范围,得到全局数据集中各属性的取值范围(A′min与A′max),然后将全局数据量n、A′min与A′max广播至各子节点;步骤1.4:各子节点上本地数据中的各属性值按照属性的全局取值范围进行标准化;步骤1.5:各子节点上本地数据的抽样概率初始化为1/ni。根据本专利技术所述一种基于分形技术的分布式聚类方法,其特征在于:步骤2:抽样聚类包括如下步骤;步骤2.1:子节点按照比例抽样方式独立抽取本地数据并上传至中心节点,具体来说,子节点Ji将依据各数据点的抽样概率抽取总数为(ni/n)N的数据;步骤2.2:中心节点J0汇总各子节点的抽样数据,并对抽样数据进行聚类,形成k个聚类中心;步骤2.3:中心节点J0按照k个聚类中心将抽样数据集数据划分到各个聚类,计算每个聚类的局部分形维数,具体来说,第i个聚类分形维数表示为其中i=1,2,...,k;步骤2.4:中心节点J0计算全局聚类分形质量指数和第i个聚类的局部聚类分形质量指数步骤2.5:将k个聚类中心及其分形维数、全局与局部聚类分形质量指数广播至各个子节点。根据本专利技术所述一种基于分形技术的分布式聚类方法,其特征在于:步骤3:全局聚类包括如下步骤;步骤3.1:各个子节点遍历本地数据集,计算各个数据点与k个聚类中心的距离,将各个数据点标记为距离最近的那个聚类中心成员,具体来说,第i个子节点的第j个数据点所属聚类用表示;步骤3.2:子节点更新本地数据集中各聚类数据的抽样概率:其中根据本专利技术所述一种基于分形技术的分布式聚类方法,其特征在于:步骤5包括如下步骤;步骤5.1:计算全局抽样聚类质量指数Ω=∑i,j|Qi-Qj|和第r次抽样的局部抽样聚类质量指数Ωr=∑j|Qr-Qj|,其中r=1,...,L;步骤5.2:L次抽样聚类共产生了L×k个聚类,每个聚类的分形维数为其中i=1,2,...,k,r=1,2,...,L;我们将这L×k个分形维数进行k-means聚类,产生k个分形聚类中心;步骤5.3:将新的k各分形聚类中心以及Ω和Ωr广播到各子节点。本专利技术的优点在于:本专利技术通过改进提出了一种有效的分布式聚类算法,该算法比以往的分布式聚类算法减少了通信量和中心节点的计算工作量,该算法充分利用分形维度作为相似性衡量的标准,使得簇之间分形维度变化最大,簇内分形维度变化最小。通过将分析维度引入到聚类算法,利用分形维度固有的自相似性来提高聚类算法的适应性。具体实施方式下面将结合具体步骤对本专利技术进行详细说明,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术通过改进提出了一种有效的分布式聚类算法,该算法比以往的分布式聚类算法减少了通信量和中心节点的计算工作量,该算法充分利用分形维度作为相似性衡量的标准,使得簇之间分形维度变化最大,簇内分形维度变化最小。通过将分析维度引入到聚类算法,利用分形维度固有的自相似性来提高聚类算法的适应性。本专利技术所提出的方法假定数据集分散在通过局域网或广域网连接的不同子节点上,每个子节点都是独立工作,具有相应的计算和存储功能,存储本地数据集。同时,设置一个中心节点,用于协调各计算机节点完成全局聚类与通信协同。我们用J0,J本文档来自技高网
...

【技术保护点】
一种基于分形技术的分布式聚类方法,其特征在于:该方法的步骤如下:步骤1:数据预处理;步骤2:抽样聚类:中心节点从各子节点抽取总数量为N的数据并聚类;步骤3:全局聚类;步骤4:迭代完成步骤2‑步骤3,直到达到最大抽样次数L;步骤5:中心节点J

【技术特征摘要】
1.一种基于分形技术的分布式聚类方法,其特征在于:该方法的步骤如下:步骤1:数据预处理;步骤2:抽样聚类:中心节点从各子节点抽取总数量为N的数据并聚类;步骤3:全局聚类;步骤4:迭代完成步骤2-步骤3,直到达到最大抽样次数L;步骤5:中心节点J0经过L次抽样聚类后;步骤6:各子节点计算本地数据点的平均分形维数;步骤7:各子节点计算本地数据点的平均分形维数与k个分形聚类中心的距离,将其划分为最近的那个聚类,即为最终聚类结果。2.根据权利要求1所述一种基于分形技术的分布式聚类方法,其特征在于:步骤1:数据预处理包括如下步骤;步骤1.1:中心节点J0发出指令获取各子节点本地数据集的分布情况;步骤1.2:各子节点计算本地数据集中的记录数ni及各属性的取值范围(Amin与Amax),并将数据上传至中心节点J0;步骤1.3:中心节点J0合并各子节点数据集中各属性的取值范围,得到全局数据集中各属性的取值范围(A′min与A′max),然后将全局数据量n、A′min与A′max广播至各子节点;步骤1.4:各子节点上本地数据中的各属性值按照属性的全局取值范围进行标准化;步骤1.5:各子节点上本地数据的抽样概率初始化为1/ni。3.根据权利要求1所述一种基于分形技术的分布式聚类方法,其特征在于:步骤2:抽样聚类包括如下步骤;步骤2.1:子节点按照比例抽样方式独立抽取本地数据并上传至中心节点,具体来说,子节点Ji将依据各数据点的抽样概率抽取总数为(...

【专利技术属性】
技术研发人员:张岩龙邓军幸勇
申请(专利权)人:成都数联易康科技有限公司西南交通大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1