基于MapReduce模型的改进型灰狼分簇算法制造技术

技术编号：25757666 阅读：38 留言：0更新日期：2020-09-25 21:06

本发明专利技术涉及超大规模数据分簇领域，尤其涉及一种基于MapReduce模型的改进型灰狼分簇算法，其特征在于：在对原有灰狼分簇进行改进，设计改进型灰狼分簇算法，将灰狼行为规则与灰狼的狩猎策略相混合，加大攻击祈祷次数，同时引入狄利克雷分布实现先验以增强祈祷的搜索能力；最后，使用MapReduce体系结构实施IGWCA的并行化处理，达到对大型数据集实施有效分簇的目的。本发明专利技术有效解决大型数据集的分簇问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于MapReduce模型的改进型灰狼分簇算法
本专利技术涉及超大规模数据分簇领域，尤其涉及一种基于MapReduce模型的改进型灰狼分簇算法。
技术介绍
1、背景分簇属于无监督学习，其目的是发现数据的特征并对数据进行有效处理，分簇算法被广泛应用于图像多尺度分割，生物地理优化数据处理，遥感图像实时分类，社交网络信息分类处理，大数据分析等方面。当前最常用、最简单、应用较广的是K-均值分簇算法，由于该算法的分簇结果与簇质心的初始状态息息相关，因此K-均值算法极易于陷入局部最优。为了解决这一问题，大量元启发式算法被用来解决数据分簇问题。例如：巧妙利用遗传算法的特性，在特征空间找到最优质心优化所得簇的密度；使用微粒群算法优化分簇结果，解决社交网络用户信息数据分析问题；基于引力搜索和K-均值算法初始化簇质心，用来找到图像多尺度分割的最佳阈值；基于蝙蝠算法的主要优势优化原有分簇过程。但是，由于以上分簇算法均为顺序执行，所以在解决大规模数据集的分簇问题上无法达到高效的时间和空间复杂度。为了有效提高大型数据集分簇计算的性能，并行化执行分簇算法是更具有吸引力解决方案。ApacheHadoop是一种被广泛使用的免费、开源并行化工具，可用来解决大型数据集的分簇问题。Hadoop使用自身分布式文件系统(HDFS)，能有效利用硬件来分析处理ZB级商用数据。MapReduce作为并行计算模型被成功应用于元启发式算法的并行化处理，达到分析大型数据集的目的。灰狼算法是借助于灰狼狩猎行为的一种新型元启发式算法。其性能优于现有的元启发式...

【技术保护点】
1.基于MapReduce模型的改进型灰狼分簇算法，其特征在于：其步骤包括：/n步骤1：输入数据集，输入为t维N个数据对象，簇数为K；每个灰狼的位置X代表了K个簇(C

【技术特征摘要】
1.基于MapReduce模型的改进型灰狼分簇算法，其特征在于：其步骤包括：
步骤1：输入数据集，输入为t维N个数据对象，簇数为K；每个灰狼的位置X代表了K个簇(C1,C2,C3,…,Ck)的簇质心；算法最终输出的是最优质心位置，α狼的位置表示质心位置；
步骤2：启动MapReduce框架读取数据信息，并将接收到的数据集分块，通过Hadoop节点均匀分配各分割好的数据块；
步骤3：执行MapReduce模型中的Map函数，以灰狼ID为键，以簇质心为值，将每个数据对象转换为键值对的形式进行并行处理，根据狼位置计算簇质心，通过计算相似系数，迭代更新簇质心；Map函数以{灰狼ID,质心ID}为键，相应的质心ID相似度为值，以键值对的形式进行输出；
步骤4：执行MapReduce模型中的Reduce函数，Reduce函数将根据相同键的值获取最大相似度，并根据其更改每只灰狼的适应度值；在每次迭代的过程中更新α狼、β狼、δ狼的位置，直至满足停止条件为止完成迭代，得到最优质心，完成分簇。

2.根据权利要求1所述的基于MapReduce模型的改进型灰狼分簇算法，其特征在于：所述步骤3中，根据狼位置计算簇质心的步骤为：
步骤3.1：根据公式(10)更新每只灰狼的位置，具体为：在每次迭代的过程中，当前群中α、β、δ狼的位置信息，并根据他们的位置信息更新ω狼的位置信息；该行为的数学模型如公式(7)、(8)、(9)所示；在第i次迭代时，ω狼的位置由公式(10)计算得到：

【专利技术属性】
技术研发人员：赵彦，吴冬冬，续祥，
申请(专利权)人：江苏信息职业技术学院，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人