基于强化学习的集群调度系统技术方案

技术编号:19542966 阅读:57 留言:0更新日期:2018-11-24 20:28
本发明专利技术提供一种基于强化学习的集群调度系统,其特征在于,所述集群调度系统包括连接至少一个计算节点的调度节点,所述调度节点包括集群作业管理器和基于强化学习的负载均衡器;其中,集群作业管理器,接收到所述中断请求后发送当前集群的运算状态至基于强化学习的负载均衡器;基于强化学习的负载均衡器,根据采集到的当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S,根据集群状态矩阵S判断各个计算节点未来宕机或者报错概率,反馈调优动作a至集群作业管理器,计算当前中断时刻t的动作回报r,并利用强化学习方式构建Q函数模型,以获得当前中断时刻t应对集群采用的优化操作。本发明专利技术能够提高集群整体利用率,缩短用户平均等待时间偏长。

Cluster Scheduling System Based on Reinforcement Learning

The invention provides a cluster scheduling system based on reinforcement learning, which is characterized in that the cluster scheduling system includes a scheduling node connecting at least one computing node, the scheduling node includes a cluster job manager and a load balancer based on reinforcement learning, wherein the cluster job manager is received by the cluster job manager. After interrupting the request, the current cluster operation state is sent to the load balancer based on reinforcement learning; based on the load balancer based on reinforcement learning, according to the collected current cluster operation state, the cluster state matrix S is composed of computing node state vector, and the cluster state matrix S is used to judge the future outage or report of each computing node. Error probability, feedback tuning action a to cluster job manager, calculating the action return r of current interruption time t, and using reinforcement learning to construct Q function model to obtain the optimal operation of current interruption time t to cluster. The invention can improve the overall utilization rate of the cluster and shorten the average waiting time of the user.

【技术实现步骤摘要】
基于强化学习的集群调度系统
本专利技术涉及计算机
,尤其涉及一种基于强化学习的集群调度系统。
技术介绍
HPC(HighPerformanceComputing,高性能计算)集群通常采用大规模计算节点进行计算,伴随着大型集群的普及应用,高性能计算集群的用户数量也越来越多。目前,HPC集群通常采用单个调度节点,或者独立的多个调度节点进行程序编译、计算作业的提交和资源分配。然而在HPC领域服务器同时接入用户数量不像互联网集群那样众多,相应的单个作业资源消耗却更加巨大。因此,HPC集群通常都会根据自身接入用户的应用特性做自定义的负载均衡策略,并借助选用的调度器,例如PBS或Slurm,进行负载均衡优化。在实现本专利技术的过程中,专利技术人发现现有技术中至少存在如下技术问题:现有的自定义负载均衡手段往往是以应用的具体需求做划分的,如:单个作业需求的CPU/GPU数量,对异构计算的需求,运算量需求等。然而这种调度策略是从满足具体作业需求的角度出发,虽然能保证应用需求,却无法保证集群性能被最大化利用。换言之集群整体利用率不高,且可能造成用户平均等待时间偏长。
技术实现思路
本专利技术提供的一种基于强化学习的集群调度系统,能够提高集群整体利用率,缩短用户平均等待时间偏长。本专利技术提供一种基于强化学习的集群调度系统,所述集群调度系统包括连接至少一个计算节点的调度节点,所述调度节点包括集群作业管理器和基于强化学习的负载均衡器;其中,所述集群作业管理器,接收所述基于强化学习的负载均衡器时钟间隔为△t的中断请求,并接收到所述中断请求后发送当前集群的运算状态至所述基于强化学习的负载均衡器;所述基于强化学习的负载均衡器,根据采集到的所述当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S,根据所述集群状态矩阵S判断各个计算节点未来宕机或者报错概率,反馈调优动作a至所述集群作业管理器,计算当前中断时刻t的动作回报r,并利用强化学习方式构建基于各个计算节点的节点温度、资源利用率、作业总数以及所述集群状态矩阵S的Q函数模型,以估计每一中断时刻的集群状态矩阵S所对应的预期未来收益值Q,从而获得当前中断时刻t应对集群采用的优化操作。本专利技术实施例提供的基于强化学习的集群调度装置,通过根据采集的集群实时信息判断计算节点未来宕机或者报错概率,从而对集群进行调优。与现有技术相比,本专利技术利用基于强化学习的负载均衡策略来优化集群调度,不仅能够满足作业本身对硬件资源的需求,而且能够提高集群整体利用率,降低节点宕机和故障概率,从而降低用户整体等待时间,达到对整个集群资源的更优化利用的目的。附图说明图1为本专利技术一实施例基于强化学习的集群调度系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例还提供一种基于强化学习的集群调度系统,如图1所示,所述集群调度系统包括连接至少一个计算节点的调度节点,所述调度节点包括集群作业管理器和基于强化学习的负载均衡器。这里集群作业管理为SlumJobManager。其中,所述集群作业管理器,接收所述基于强化学习的负载均衡器时钟间隔为△t的中断请求,并接收到所述中断请求后发送当前集群的运算状态至所述基于强化学习的负载均衡器;所述基于强化学习的负载均衡器,根据采集到的所述当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S,根据所述集群状态矩阵S判断各个计算节点未来宕机或者报错概率,反馈调优动作a至所述集群作业管理器,计算当前中断时刻t的动作回报r,并利用强化学习方式构建基于各个计算节点的节点温度、资源利用率、作业总数以及所述集群状态矩阵S的Q函数模型,以估计每一中断时刻的集群状态矩阵S所对应的预期未来收益值Q,从而获得当前中断时刻t应对集群采用的优化操作。本专利技术实施例提供的基于强化学习的集群调度系统,通过根据采集的集群实时信息判断新作业队计算节点造成未来宕机或者报错概率,从而对集群进行调优。与现有技术相比,本专利技术利用基于强化学习的负载均衡策略来优化集群调度,不仅能够满足作业本身对硬件资源的需求,而且能够提高集群整体利用率,降低节点宕机和故障概率,从而降低用户整体等待时间,达到对整个集群资源的更优化利用的目的。其中,所述当前集群的运算状态包括所述至少一个计算节点的实时信息,其中,所述实时信息包括计算节点编号、计算节点健康度和作业应用类型。其中,所述计算节点状态向量包括计算节点编号、计算节点健康度和作业应用类型。具体地,计算节点健康度可以采用基于nodemanager的计算方式,也可以根据具体需求自行编写脚本获取。可选地,所述当前中断时刻t对应的动作回报使用集群健康度增加的幅度来表示,具体表示如下:rt=t+1时刻的集群健康度-t时刻的集群健康度。其中,所述预期未来收益值Q用于表示所有作业完成时集群健康度的累积增加量。其中,所述当前中断时刻t应对集群采用的优化操作为在有限的动作a中选取使得Q+r值最大的动作。其中,所述调优动作包括重启应用、关闭进程和重启节点。以下为基于Q-Learning的强化学习中的参数定义以及获取方式:本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。以上所述,仅为本专利技术的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本专利技术的保护范围之内。因此,本专利技术的保护范围应该以权利要求的保护范围为准。本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的集群调度系统,其特征在于,所述集群调度系统包括连接至少一个计算节点的调度节点,所述调度节点包括集群作业管理器和基于强化学习的负载均衡器;所述集群作业管理器,接收所述基于强化学习的负载均衡器时钟间隔为△t的中断请求,并接收到所述中断请求后发送当前集群的运算状态至所述基于强化学习的负载均衡器;所述基于强化学习的负载均衡器,根据采集到的所述当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S,根据所述集群状态矩阵S判断各个计算节点未来宕机或者报错概率,反馈调优动作a至所述集群作业管理器,计算当前中断时刻t的动作回报r,并利用强化学习方式构建基于各个计算节点的节点温度、资源利用率、作业总数以及所述集群状态矩阵S的Q函数模型,以估计每一中断时刻的集群状态矩阵S所对应的预期未来收益值Q,从而获得当前中断时刻t应对集群采用的优化操作。

【技术特征摘要】
1.一种基于强化学习的集群调度系统,其特征在于,所述集群调度系统包括连接至少一个计算节点的调度节点,所述调度节点包括集群作业管理器和基于强化学习的负载均衡器;所述集群作业管理器,接收所述基于强化学习的负载均衡器时钟间隔为△t的中断请求,并接收到所述中断请求后发送当前集群的运算状态至所述基于强化学习的负载均衡器;所述基于强化学习的负载均衡器,根据采集到的所述当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S,根据所述集群状态矩阵S判断各个计算节点未来宕机或者报错概率,反馈调优动作a至所述集群作业管理器,计算当前中断时刻t的动作回报r,并利用强化学习方式构建基于各个计算节点的节点温度、资源利用率、作业总数以及所述集群状态矩阵S的Q函数模型,以估计每一中断时刻的集群状态矩阵S所对应的预期未来收益值Q,从而获得当前中断时刻t应对集群采用的优化操作。2.根...

【专利技术属性】
技术研发人员:王新雷
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1