The invention discloses a distributed clustering method based on fractal technique; solve the calculation workload distributed clustering algorithm before its communication and the central node of the big problem, the algorithm is better than the previous distributed clustering algorithm reduces the computational work amount of communication and the central node, the algorithm makes full use of the fractal dimension as the similarity the standard, which makes cluster between fractal dimension changes, cluster fractal dimension change minimum. By introducing the analysis dimension into the clustering algorithm, the self similarity of the fractal dimension is used to improve the adaptability of the clustering algorithm.
【技术实现步骤摘要】
一种基于分形技术的分布式聚类方法
本专利技术涉及聚类处理相关领域,尤其是一种基于分形技术的分布式聚类方法。
技术介绍
聚类分析是数据挖掘领域的一项重要研究内容,聚类算法在金融业务员、保险业、市场营销、网络安全、科学决策等方面的应用越来越广泛。目前已有的聚类算法大多只适用于集中式数据的聚类。而实际中的数据却是分布在不同的站上,如果使用传统的聚类算法从这些分布式数据中提取信息,就必须把这些数据合并到一个中心站点上。由于传输速度和安全因素的限制,把各站点的数据合部集中到某一个中心站点上是十分困难的。而且所有站点数据集中在一起,数据量会非常庞大,聚类效率会显著降低。经过检索发现专利号CN200710156189.3的专利技术公开了一种面向互联网微内容的分布式聚类方法。本专利技术采用多机分布式聚类的方法,主控机器把要处理的微内容切分成多个小文件,并把这些小文件分配给多台聚类机器进行聚类操作。单台聚类机器对分配到的各个小文件循环进行元聚类,接着合并这些元聚类结果文件,得到相应的单机聚类合并文件,然后把它发送给主控机器。主控机器在接收到各个聚类机器发送过来的单机聚类合并文件后,从各个单机聚类合并文件中抽取微内容代表点,对这些微内容代表点进行再次元聚类,生成新的聚类项,并将对应的类别合并,得到最后的聚类结果。专利号CN201510747122.1的专利技术公开了一种海量负荷曲线的分布式聚类方法,其通过将受聚类区域内所有用户划分为M个用户子集,并对应每一个用户子集设置一个局部数据中心,用各个局部数据中心分别对各自处理得到的归一化日负荷曲线进行自适应局部聚类,以减少待分析的用 ...
【技术保护点】
一种基于分形技术的分布式聚类方法,其特征在于:该方法的步骤如下:步骤1:数据预处理;步骤2:抽样聚类:中心节点从各子节点抽取总数量为N的数据并聚类;步骤3:全局聚类;步骤4:迭代完成步骤2‑步骤3,直到达到最大抽样次数L;步骤5:中心节点J
【技术特征摘要】
1.一种基于分形技术的分布式聚类方法,其特征在于:该方法的步骤如下:步骤1:数据预处理;步骤2:抽样聚类:中心节点从各子节点抽取总数量为N的数据并聚类;步骤3:全局聚类;步骤4:迭代完成步骤2-步骤3,直到达到最大抽样次数L;步骤5:中心节点J0经过L次抽样聚类后;步骤6:各子节点计算本地数据点的平均分形维数;步骤7:各子节点计算本地数据点的平均分形维数与k个分形聚类中心的距离,将其划分为最近的那个聚类,即为最终聚类结果。2.根据权利要求1所述一种基于分形技术的分布式聚类方法,其特征在于:步骤1:数据预处理包括如下步骤;步骤1.1:中心节点J0发出指令获取各子节点本地数据集的分布情况;步骤1.2:各子节点计算本地数据集中的记录数ni及各属性的取值范围(Amin与Amax),并将数据上传至中心节点J0;步骤1.3:中心节点J0合并各子节点数据集中各属性的取值范围,得到全局数据集中各属性的取值范围(A′min与A′max),然后将全局数据量n、A′min与A′max广播至各子节点;步骤1.4:各子节点上本地数据中的各属性值按照属性的全局取值范围进行标准化;步骤1.5:各子节点上本地数据的抽样概率初始化为1/ni。3.根据权利要求1所述一种基于分形技术的分布式聚类方法,其特征在于:步骤2:抽样聚类包括如下步骤;步骤2.1:子节点按照比例抽样方式独立抽取本地数据并上传至中心节点,具体来说,子节点Ji将依据各数据点的抽样概率抽取总数为(...
【专利技术属性】
技术研发人员:张岩龙,邓军,幸勇,
申请(专利权)人:成都数联易康科技有限公司,西南交通大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。