基于MapReduce模型的改进型灰狼分簇算法制造技术

技术编号:25757666 阅读:38 留言:0更新日期:2020-09-25 21:06
本发明专利技术涉及超大规模数据分簇领域,尤其涉及一种基于MapReduce模型的改进型灰狼分簇算法,其特征在于:在对原有灰狼分簇进行改进,设计改进型灰狼分簇算法,将灰狼行为规则与灰狼的狩猎策略相混合,加大攻击祈祷次数,同时引入狄利克雷分布实现先验以增强祈祷的搜索能力;最后,使用MapReduce体系结构实施IGWCA的并行化处理,达到对大型数据集实施有效分簇的目的。本发明专利技术有效解决大型数据集的分簇问题。

【技术实现步骤摘要】
基于MapReduce模型的改进型灰狼分簇算法
本专利技术涉及超大规模数据分簇领域,尤其涉及一种基于MapReduce模型的改进型灰狼分簇算法。
技术介绍
1、背景分簇属于无监督学习,其目的是发现数据的特征并对数据进行有效处理,分簇算法被广泛应用于图像多尺度分割,生物地理优化数据处理,遥感图像实时分类,社交网络信息分类处理,大数据分析等方面。当前最常用、最简单、应用较广的是K-均值分簇算法,由于该算法的分簇结果与簇质心的初始状态息息相关,因此K-均值算法极易于陷入局部最优。为了解决这一问题,大量元启发式算法被用来解决数据分簇问题。例如:巧妙利用遗传算法的特性,在特征空间找到最优质心优化所得簇的密度;使用微粒群算法优化分簇结果,解决社交网络用户信息数据分析问题;基于引力搜索和K-均值算法初始化簇质心,用来找到图像多尺度分割的最佳阈值;基于蝙蝠算法的主要优势优化原有分簇过程。但是,由于以上分簇算法均为顺序执行,所以在解决大规模数据集的分簇问题上无法达到高效的时间和空间复杂度。为了有效提高大型数据集分簇计算的性能,并行化执行分簇算法是更具有吸引力解决方案。ApacheHadoop是一种被广泛使用的免费、开源并行化工具,可用来解决大型数据集的分簇问题。Hadoop使用自身分布式文件系统(HDFS),能有效利用硬件来分析处理ZB级商用数据。MapReduce作为并行计算模型被成功应用于元启发式算法的并行化处理,达到分析大型数据集的目的。灰狼算法是借助于灰狼狩猎行为的一种新型元启发式算法。其性能优于现有的元启发式算法,如:粒子群优化(PSO),蝙蝠算法(BA),重力搜索算法(GSA)等。灰狼算法已在许多领域得到广泛应用,例如使用灰狼算法优化干扰资源效能,解决作业车间节能调度问题,优化带容量约束的车辆路径问题,实现移动机器人路径优化等。尽管灰狼算法的应用范围极广,但其缺点是缺乏族群多样性,收敛速度慢、易于陷入局部最优。2、相关技术2.1、数据分簇方法监督学习使用标记数据的方法对训练集实施分簇。而数据分簇无需进行任何学习,仅根据数据的结构对数据对象进行分簇,因此数据分簇是一种无监督学习方法。基于数据的相似性,将维数t的数据集进行分簇,就是将N个数据对象组装成K个簇,使簇内的数据对象具有最大相似度。IGWCA可以根据规定的簇数完成分簇。首先,选择K个簇的簇内相似度作为评估分簇质量的标准。设Z={z1,z2,z3…,zn}是t维空间中N个数据对象的集合。该数据集由n行、t列的矩阵Zn×t表示,每个数据对象为一个行向量。数据分簇的过程就是将N个数据对象分为K个簇,即C={C1,C2,C3…,Ck},并找到各簇的簇质心。分簇目的就是让每个数据对象Zi与其所属质心Ci之间的相似度最大。通常,分簇过程需要满足以下两个条件:条件1即每个簇至少要有一个数据对象。条件2即每个数据对象只能唯一属于一个簇。除了满足上述两个分簇条件之外,还要使用簇相似系数评估公式来衡量分簇质量,数据对象之间的相似系数如公式(1)所示。相似系数的绝对值越接近1,表示数据对象越相似,越接近0,表示数据对象越不相似。其中和的定义如公式(2)。2.2、灰狼算法(GWO)灰狼算法(GWO)是Mirjalili等人于2014年模仿灰狼捕猎机制提出的一种群智能元启发式算法。其具有参数少、易实现等特点。GWO根据狼的社会等级,将所有狼分为α狼、β狼、δ狼和ω狼。α狼是狼群中的指挥官,其他狼均服从α狼的命令。β狼服从于α狼,并协助α狼做出决策。δ狼服从于α狼和β狼并支配其余阶层的狼。ω狼的社会等级最低,但是如果没有ω狼的存在,狼群会因内部问题出现自相残杀的现象。由于狼群缺乏多样性,因此GWO存在收敛速度慢,更易于陷入局部最优,难以平衡探索和开发能力。在灰狼算法中,灰狼具有识别潜在猎物的能力,其狩猎过程主要在α、β和δ狼的指导下完成,ω狼负责包围猎物,狼群通力协作以寻找最优的解决方案。灰狼搜索猎物,逐渐接近猎物并包围猎物的数学模型由公式(3)、(4)、(5)、(6)定义:其中,i为迭代次数,Xp是猎物的位置向量,X(i)是在第i次迭代中灰狼的位置向量;和为协同向量系数;在整个迭代的过程中,系数向量由2线性减少到0,r1、r2是[0,1]之间的随机向量。在每次迭代的过程中,要保留当前群中α、β、δ狼的位置信息,并根据他们的位置信息更新ω狼的位置信息。该行为的数学模型如公式(7)、(8)、(9)所示。在第i次迭代时,ω狼的位置由公式(10)计算得到。其中,由公式(11)、(12)、(13)计算得到:其中,为随机向量。
技术实现思路
本专利技术的目的是为了提供一种基于MapReduce模型的改进型灰狼分簇算法,有效解决大型数据集的分簇问题。为解决以上技术问题,本专利技术的技术方案为:一种基于MapReduce模型的改进型灰狼分簇算法,其步骤包括:步骤1:输入数据集,输入为t维N个数据对象,簇数为K;每个灰狼的位置X代表了K个簇(C1,C2,C3,…,Ck)的簇质心;算法最终输出的是最优质心位置,α狼的位置表示质心位置;步骤2:启动MapReduce框架读取数据信息,并将接收到的数据集分块,通过Hadoop节点均匀分配各分割好的数据块;步骤3:执行MapReduce模型中的Map函数,以灰狼ID为键,以簇质心为值,将每个数据对象转换为键值对的形式进行并行处理,根据狼位置计算簇质心,通过计算相似系数,迭代更新簇质心;Map函数以{灰狼ID,质心ID}为键,相应的质心ID相似度为值,以键值对的形式进行输出;步骤4:执行MapReduce模型中的Reduce函数,Reduce函数将根据相同键的值获取最大相似度,并根据其更改每只灰狼的适应度值;在每次迭代的过程中更新α狼、β狼、δ狼的位置,直至满足停止条件为止完成迭代,得到最优质心,完成分簇。按以上方案,所述步骤3中,根据狼位置计算簇质心的步骤为:步骤3.1:根据公式(10)更新每只灰狼的位置,具体为:在每次迭代的过程中,当前群中α、β、δ狼的位置信息,并根据他们的位置信息更新ω狼的位置信息;该行为的数学模型如公式(7)、(8)、(9)所示;在第i次迭代时,ω狼的位置由公式(10)计算得到:其中,分别为α、β、δ狼当前位置,为三个随机向量,表示当前解的位置;其中,由公式(11)、(12)、(13)计算得到:其中,为随机向量;步骤3.2:采用公式(14)根据灰狼行为规则提升攻击行为:其中,IPij是改进后编号为i的灰狼在维度j上的位置;步骤3.3:采用公式(17)引入狄利克雷分布先本文档来自技高网
...

【技术保护点】
1.基于MapReduce模型的改进型灰狼分簇算法,其特征在于:其步骤包括:/n步骤1:输入数据集,输入为t维N个数据对象,簇数为K;每个灰狼的位置X代表了K个簇(C

【技术特征摘要】
1.基于MapReduce模型的改进型灰狼分簇算法,其特征在于:其步骤包括:
步骤1:输入数据集,输入为t维N个数据对象,簇数为K;每个灰狼的位置X代表了K个簇(C1,C2,C3,…,Ck)的簇质心;算法最终输出的是最优质心位置,α狼的位置表示质心位置;
步骤2:启动MapReduce框架读取数据信息,并将接收到的数据集分块,通过Hadoop节点均匀分配各分割好的数据块;
步骤3:执行MapReduce模型中的Map函数,以灰狼ID为键,以簇质心为值,将每个数据对象转换为键值对的形式进行并行处理,根据狼位置计算簇质心,通过计算相似系数,迭代更新簇质心;Map函数以{灰狼ID,质心ID}为键,相应的质心ID相似度为值,以键值对的形式进行输出;
步骤4:执行MapReduce模型中的Reduce函数,Reduce函数将根据相同键的值获取最大相似度,并根据其更改每只灰狼的适应度值;在每次迭代的过程中更新α狼、β狼、δ狼的位置,直至满足停止条件为止完成迭代,得到最优质心,完成分簇。


2.根据权利要求1所述的基于MapReduce模型的改进型灰狼分簇算法,其特征在于:所述步骤3中,根据狼位置计算簇质心的步骤为:
步骤3.1:根据公式(10)更新每只灰狼的位置,具体为:在每次迭代的过程中,当前群中α、β、δ狼的位置信息,并根据他们的位置信息更新ω狼的位置信息;该行为的数学模型如公式(7)、(8)、(9)所示;在第i次迭代时,ω狼的位置由公式(10)计算得到:

【专利技术属性】
技术研发人员:赵彦吴冬冬续祥
申请(专利权)人:江苏信息职业技术学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1