基于MapReduce的分布式粒子群分簇算法制造技术

技术编号:25710207 阅读:44 留言:0更新日期:2020-09-23 02:56
本发明专利技术涉及人工智能大数据分析领域,尤其涉及一种基于MapReduce的分布式粒子群分簇算法,其特征在于:算法步骤为:步骤1:采用MapReduce作业更新粒子群质心;步骤2:采用MapReduce作业评估步骤1生成的具有新粒子质心的群体的适应性,计算更新后群的新适应度值,适应度评估基于适应度函数,通过获取粒子质心之间的平均距离来测量所有数据点与粒子质心之间的距离;步骤3:将步骤2计算出的适应度值与步骤1中生成的更新群合并,同时更新最佳个人质心和最佳全局质心;返回步骤1,进行下一次迭代。本发明专利技术有效解决超大规模商用数据集的分簇问题,实现高质量分簇。

【技术实现步骤摘要】
基于MapReduce的分布式粒子群分簇算法
本专利技术涉及人工智能大数据分析领域,尤其涉及一种基于MapReduce的分布式粒子群分簇算法。
技术介绍
随着互联网技术的发展,需要存储、分析、处理的数据呈现爆炸式增长,除了数据量庞大之外,创建或收集的数据也越来越复杂。要解决如何有效地生成、管理和分析数据并获取结果信息,就需要一种全面的、端到端的方法,涵盖从初始数据获取到最终分析的所有阶段。分簇是分析数据时使用的一种数据挖掘技术。分簇算法的主要目标是将一组未标记的数据对象划分为不同簇,使簇成员间具有共同的规范和较近似的成员资格。为了获得高质量的分簇,簇内数据对象之间的相似度被最大化,簇间的数据对象的相似性被最小化。对社交网用户信息分簇、图书馆文章分类、智慧教学学生学情分析、购物者兴趣偏好分析等,均属于对大量高维度记录的超大数据集进行分簇的问题。目前,大多数顺序分簇算法在数据集规模的增长与扩展性方面成反比,高昂的时间复杂度和空间复杂度加剧了分簇算法的成本。MapReduce编程模型MapReduce是Google推出的一种编程模型,本文档来自技高网...

【技术保护点】
1.基于MapReduce的分布式粒子群分簇算法,其特征在于:所述算法步骤为:/n步骤1:采用MapReduce作业更新粒子群质心;/n步骤2:采用MapReduce作业评估步骤1生成的具有新粒子质心的群体的适应性,计算更新后群的新适应度值,适应度评估基于适应度函数,通过获取粒子质心之间的平均距离来测量所有数据点与粒子质心之间的距离;/n步骤3:将步骤2计算出的适应度值与步骤1中生成的更新群合并,同时更新最佳个人质心和最佳全局质心;返回步骤1,进行下一次迭代。/n

【技术特征摘要】
1.基于MapReduce的分布式粒子群分簇算法,其特征在于:所述算法步骤为:
步骤1:采用MapReduce作业更新粒子群质心;
步骤2:采用MapReduce作业评估步骤1生成的具有新粒子质心的群体的适应性,计算更新后群的新适应度值,适应度评估基于适应度函数,通过获取粒子质心之间的平均距离来测量所有数据点与粒子质心之间的距离;
步骤3:将步骤2计算出的适应度值与步骤1中生成的更新群合并,同时更新最佳个人质心和最佳全局质心;返回步骤1,进行下一次迭代。


2.根据权利要求1所述的基于MapReduce的分布式粒子群分簇算法,其特征在于:所述步骤1具体为:MapReduce中的Map函数用来接收带有标识号的粒子,此时以粒子ID为键,以粒子本身为值;Map值包含粒子的质心矢量、速度矢量、适应度值、最佳个人形心、最佳个人适应度值、最佳全局质心和最佳总体适应度值;
在Map函数中,质心根据下列公式完成更新:
Xi(t+1)=Xi(t)+Vi(t+1)(3)
Vi(t+1)=W×Vi(t)+(r1×cons1)×[XPi-Xi(t)]+(r2×cons2)×[XG-Xi(t)](4)
公式(3)在问题搜索空间内移动粒子,其中Xi是粒子i的位置,t是迭代次数,Vi是粒子i的速度;公式(4)更新粒子速度,其中W是惯性权重,r1和r2是随机生成的数字,cons1、cons2是常数系数,XPi是粒子i的当前最佳位置,XG是整个群的当前最佳全局位置;从配置文件中检索出公式(4)要使用的PSO系数cons1和cons2、惯性权重W信息;之后,Map函数将质心更新后的粒子发射到Reduce函数;
步骤1中MapReduce中的Reduce函数为IdentityReduce函数,该函数用于对Map的结果进行排序并将所有结果组合到输出文件中;粒子群保存在分布式文件系统中,以供步骤2和3使用。...

【专利技术属性】
技术研发人员:赵彦
申请(专利权)人:江苏信息职业技术学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1