The invention relates to a Hadoop load balancing task scheduling method based on hybrid meta heuristic algorithm, and establishes a resource trough pressure model. This model aims at making the computing pressure of all Slave nodes in the cluster at the same horizontal line as the target, and adopts a hybrid meta heuristic algorithm based on simulated annealing and particle swarm optimization. The optimal task scheduling solution is implemented to achieve load balancing task scheduling in Hadoop cluster environment. Further through high performance and widely portable message transfer interface MPICH (MPI over CHameleon), the parallel programming of the algorithm is implemented. The calculation process of the heuristic optimization algorithm is transferred to the additional computing node, and the calculation pressure of Master nodes is reduced and the optimal task within the unit time is improved by solving multiple groups at the same time. The ability to solve the scheduling scheme. The invention can allocate the computing resources of the Hadoop cluster as a whole, balancing the nodes of the cluster, avoiding the waste of the node computing resources and maximizing the profit of the equipment invested in the data center. One
【技术实现步骤摘要】
一种基于混合元启发式算法的Hadoop负载均衡任务调度方法
本专利技术涉及HadoopMapReduce结构下的任务调度领域。更具体的是,利用粒子群算法和基于模拟退火和粒子群优化算法的混合元启发式算法,以及MPICH并行编程方法,使集群负载均衡为目标的Hadoop任务调度算法。
技术介绍
随着移动智能设备的高速发展,信息化时代的发展变得越来越迅捷,与之同时而来的便是随着用户对网络的使用,随之主动或被动产生的海量数据,这些数据通过传统的统计或计算方法通常是无法挖掘出其中的价值,然而一旦能挖掘出这些数据背后的潜在价值,便能为企业和政府带来巨大的收益,例如淘宝网便能通过对用户商品浏览记录的分析来判断用户的商品喜好和需求,同时定向进行首页商品推送,从而达到商品导购的目的;视频音乐资源服务商能够从用户历史使用数据中总结出用户喜爱,通过定向推荐来提升自己的服务能力,从而使用户获得更好的用户体验。但是想要对这些大数据进行处理,传统的计算方式已经不能够满足需求,企业和政府机构需要计算能力强大的计算机集群才能达到自己的目的。然而建设维护一个数据中心的成本是极其昂贵的,对于绝大多数的中小型企业来说自身并没有能力去搭建一个规模足够庞大的数据中心来满足自身的业务需求,此时按需计价的云服务模式为企业提供了极大的帮助。通过购买云数据中心的服务,企业可以在短短几个小时的时间内部署成百上千的服务器集群,而使用这些云计算资源所耗费的成本同传统的数据中心建设相比,显得十分廉价与便捷,同时随着后期的业务变化,用户能够积极便捷的实现云计算资源的变化与调整,实时的满足自身的业务需求。同时云数据中心 ...
【技术保护点】
1.一种基于混合元启发式算法的Hadoop负载均衡任务调度方法,其特征在于,包括如
【技术特征摘要】
1.一种基于混合元启发式算法的Hadoop负载均衡任务调度方法,其特征在于,包括如下步骤:S1、针对平衡任务处理节点的处理任务的计算压力,根据资源槽原理,建立资源槽压力模型;S2、采用粒子群优化算法的求解资源槽压力模型;S3、采用基于模拟退火与粒子群优化算法的混合元启发式优化算法求解资源槽压力模型;S4、采用MPICH并行编程方法,转移启发式优化算法的复杂计算过程于额外计算节点,通过同时运行多个粒子群,让多个种群找到更多的局部最优解,然后提取其中效果最好的解用于任务调度。2.根据权利要求1所述的基于混合元启发式算法的Hadoop负载均衡任务调度方法,其特征在于,所述资源槽压力模型的优化目标为最小化Hadoop集群Slave节点计算压力间的方差Variance,所述的资源槽压力模型为:其中,Pressure表示Slave节点时间待处理的m个Map子任务所需的Map资源槽总和相较于该节点的Map资源槽总数M所造成待处理任务计算压力;ti表示第i个待处理任务所需的Map资源槽数量;Average表示集群中所有Slave节点待处理任务计算压力的平均值;Mi表示集群中第i个Slave节点的Map资源槽数量;S表示集群中Slave节点的数量;Variance表示集群中各Slave节点待处理任务计算压力间的方差。3.根据权利要求2所述的基于混合元启发式算法的Hadoop负载均衡任务调度方法,其特征在于根据所建立的资源槽压力模型,将任务调度编码入了粒子群优化算法的粒子坐标中,同时设计的目标函数能够从粒子坐标中计算出当前粒子坐标表示的任务调度方案下,集群的Slave节点计算压力方差。所述的基于资源槽压力模型的粒子群优化算法具体参数与公式如下:Xi(x1,x2,x3,...,xm);Vi(v1,v2,v3,...,vm);Vi'=w*Vi+c1*r1*(pBesti-Xi)+c2*r2*(gBest-Xi);Xi′=Xi+Vi′;其中,Xi(x1,x2,x3,...,xm)表示第i个粒子在解空间中的坐标;xm表示第m个待处理任务被分配到第xm个Slave节点上运行;Vi(v1,v2,v3,...,vm)表示第i个粒子的速度;Vi′表示第i个粒子根据上一轮迭代的学习经验更新后的速度w为惯性权重;c1和c2为学习因子;r1和r2为[0,1]上的随机数;pBesti为第i个粒子的个体最优点;gBest为种群的最优点;Xi'表示第i个粒子经过一轮迭代后的坐标;pBesti'为第i个粒子一轮迭代更新后的个体最优点;gBest'为一轮迭代更新后的种群最优点;f(Xi)为粒子群优化算法的目标函数,该函数的功能为根据例子坐标X...
【专利技术属性】
技术研发人员:毕敬,程煜东,乔俊飞,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。