基于强化学习的集群调度系统技术方案

技术编号：19542966 阅读：57 留言：0更新日期：2018-11-24 20:28

本发明专利技术提供一种基于强化学习的集群调度系统，其特征在于，所述集群调度系统包括连接至少一个计算节点的调度节点，所述调度节点包括集群作业管理器和基于强化学习的负载均衡器；其中，集群作业管理器，接收到所述中断请求后发送当前集群的运算状态至基于强化学习的负载均衡器；基于强化学习的负载均衡器，根据采集到的当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S，根据集群状态矩阵S判断各个计算节点未来宕机或者报错概率，反馈调优动作a至集群作业管理器，计算当前中断时刻t的动作回报r，并利用强化学习方式构建Q函数模型，以获得当前中断时刻t应对集群采用的优化操作。本发明专利技术能够提高集群整体利用率，缩短用户平均等待时间偏长。

Cluster Scheduling System Based on Reinforcement Learning

The invention provides a cluster scheduling system based on reinforcement learning, which is characterized in that the cluster scheduling system includes a scheduling node connecting at least one computing node, the scheduling node includes a cluster job manager and a load balancer based on reinforcement learning, wherein the cluster job manager is received by the cluster job manager. After interrupting the request, the current cluster operation state is sent to the load balancer based on reinforcement learning; based on the load balancer based on reinforcement learning, according to the collected current cluster operation state, the cluster state matrix S is composed of computing node state vector, and the cluster state matrix S is used to judge the future outage or report of each computing node. Error probability, feedback tuning action a to cluster job manager, calculating the action return r of current interruption time t, and using reinforcement learning to construct Q function model to obtain the optimal operation of current interruption time t to cluster. The invention can improve the overall utilization rate of the cluster and shorten the average waiting time of the user.

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的集群调度系统
本专利技术涉及计算机
，尤其涉及一种基于强化学习的集群调度系统。
技术介绍
HPC(HighPerformanceComputing，高性能计算)集群通常采用大规模计算节点进行计算，伴随着大型集群的普及应用，高性能计算集群的用户数量也越来越多。目前，HPC集群通常采用单个调度节点，或者独立的多个调度节点进行程序编译、计算作业的提交和资源分配。然而在HPC领域服务器同时接入用户数量不像互联网集群那样众多，相应的单个作业资源消耗却更加巨大。因此，HPC集群通常都会根据自身接入用户的应用特性做自定义的负载均衡策略，并借助选用的调度器，例如PBS或Slurm，进行负载均衡优化。在实现本专利技术的过程中，专利技术人发现现有技术中至少存在如下技术问题：现有的自定义负载均衡手段往往是以应用的具体需求做划分的，如：单个作业需求的CPU/GPU数量，对异构计算的需求，运算量需求等。然而这种调度策略是从满足具体作业需求的角度出发，虽然能保证应用需求，却无法保证集群性能被最大化利用。换言之集群整体利用率不高，且可能造成用户平均等待时间偏长。
技术实现思路
本专利技术提供的一种基于强化学习的集群调度系统，能够提高集群整体利用率，缩短用户平均等待时间偏长。本专利技术提供一种基于强化学习的集群调度系统，所述集群调度系统包括连接至少一个计算节点的调度节点，所述调度节点包括集群作业管理器和基于强化学习的负载均衡器；其中，所述集群作业管理器，接收所述基于强化学习的负载均衡器时钟间隔为△t的中断请求，并接收到所述中断请求后发送当前集群的运算状态至所述基于强化学习...

【技术保护点】
1.一种基于强化学习的集群调度系统，其特征在于，所述集群调度系统包括连接至少一个计算节点的调度节点，所述调度节点包括集群作业管理器和基于强化学习的负载均衡器；所述集群作业管理器，接收所述基于强化学习的负载均衡器时钟间隔为△t的中断请求，并接收到所述中断请求后发送当前集群的运算状态至所述基于强化学习的负载均衡器；所述基于强化学习的负载均衡器，根据采集到的所述当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S，根据所述集群状态矩阵S判断各个计算节点未来宕机或者报错概率，反馈调优动作a至所述集群作业管理器，计算当前中断时刻t的动作回报r，并利用强化学习方式构建基于各个计算节点的节点温度、资源利用率、作业总数以及所述集群状态矩阵S的Q函数模型，以估计每一中断时刻的集群状态矩阵S所对应的预期未来收益值Q，从而获得当前中断时刻t应对集群采用的优化操作。

【技术特征摘要】
1.一种基于强化学习的集群调度系统，其特征在于，所述集群调度系统包括连接至少一个计算节点的调度节点，所述调度节点包括集群作业管理器和基于强化学习的负载均衡器；所述集群作业管理器，接收所述基于强化学习的负载均衡器时钟间隔为△t的中断请求，并接收到所述中断请求后发送当前集群的运算状态至所述基于强化学习的负载均衡器；所述基于强化学习的负载均衡器，根据采集到的所述当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S，根据所述集群状态矩阵S判断各个计算节点未来宕机或者报错概率，反馈调优动作a至所述集群作业管理器，计算当前中断时刻t的动作回报r，并利用强化学习方式构建基于各个计算节点的节点温度、资源利用率、作业总数以及所述集群状态矩阵S的Q函数模型，以估计每一中断时刻的集群状态矩阵S所对应的预期未来收益值Q，从而获得当前中断时刻t应对集群采用的优化操作。2.根...

【专利技术属性】
技术研发人员：王新雷，
申请(专利权)人：曙光信息产业北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人