当前位置: 首页 > 专利查询>白紫星专利>正文

一种基于强化学习的无模型数据中心资源调度算法制造技术

技术编号:22329865 阅读:23 留言:0更新日期:2019-10-19 12:14
本发明专利技术公开了一种基于强化学习的无模型数据中心资源调度算法,包括环境模型和DRL模型,环境模型包括时间模型,VM模型,Task模型,Task模型用于存放还未执行的任务,VM模型用于执行任务,DRL模型包括Agent1模型与Agent2模型,Agent1模型用于判断任务是否执行,Agent2模型用于增减虚拟机,Agent1模型与Agent2模型分别包括状态空间、动作空间、回报函数和深度神经网络四个部分组成。本发明专利技术中,针对数据中心到达的任务大小波动较大,提出了cost来衡量任务的等待时间,较传统的公平调度、最短的任务先执行策略和先到先执行策略相比,对任务的分配更加科学化合理化,同时对因任务到达数量变化造成的资源浪费,做到了动态调整集群中VM数量,实现数据中心资源的高效利用和负载平衡。

【技术实现步骤摘要】
一种基于强化学习的无模型数据中心资源调度算法
本专利技术属于数据资源调度
,具体为一种基于强化学习的无模型数据中心资源调度算法。
技术介绍
随着时代的发展,大数据与云计算越发重要,大数据与云计算技术的发展与成熟促进了国内数据中心的建设,但随着数据中心的规模越发庞大,环境越发复杂,传统的资源分配方案已无法应对数据中心多变的环境,传统的资源分配方案大多基于启发式算法,例如:公平调度、最短的任务先执行策略、先到先执行策略等。传统的启发式算法为了应对复杂的数据中心环境,需要对对算法本身精心设计,并且大多只针对特定的某一类资源进行调度,而数据中心大多拥有数千,甚至上万台的服务器,其环境较为复杂,并且数据中心的规模还在不断扩大,复杂且多变的环境给调度带来了极大的困难。传统的启发式算法无法满足现今的需要,我们需要一种新的技术来解决传统调度方案无法解决的问题。问题如下:1.数据中心的环境不是固定而是变化的,调度方案需要根据不同的环境调整自身的调度策略,以适应环境的改变;2.数据中心的环境复杂,直接或间接影响调度方案的因素很多,想对环境准确建模几乎是不可能实现的。例如:在数据中心调度系统中,任务的执行时间受任务需要文件大小,网络带宽,磁盘读写速度,cpu,内存等一系列因素影响;3.在数据中心中,下一个时刻到达的任务大小和数量是未知的,如何在未知的情况下执行调度。因此为了实现在数据中心复杂的环境下对任务的高效调度和数据中心集群规模的动态调整及负载平衡,我们提出一种基于强化学习的无模型数据中心资源调度算法。
技术实现思路
本专利技术的目的在于:为了解决现有云计算算法无法适应多变环境、建模难和任务分配不够科学合理的问题,提供一种基于强化学习的无模型数据中心资源调度算法。本专利技术采用的技术方案如下:一种基于强化学习的无模型数据中心资源调度算法,包括环境模型和DRL模型,环境模型包括时间模型,VM模型,Task模型,Task模型用于存放还未执行的任务,VM模型用于执行任务,DRL模型包括Agent1模型与Agent2模型,Agent1模型用于判断任务是否执行,Agent2模型用于增减虚拟机,实现负载平衡,Agent1模型与Agent2模型分别包括状态空间、动作空间、回报函数和深度神经网络四个部分组成。其中,所述Agent1模型在判断任务是否执行前需要获取任务的优先级值cost,cost=(et+dt)/et;其中et表示任务的执行时间,dt表示任务在队列中的等待时间。其中,所述Agent1模型的状态空间1为(et,ct,mt,nt);其中et为任务的执行时间,ct为该任务的cost,mt为当前环境中所有任务的cost的平均值,nt为忙碌的虚拟机的比例;Agent2模型的状态空间2为其中代表单位时刻内环境的负载,代表时刻内到达的任务数量和上一时刻未执行完的任务数量之和,代表当前所有开启的VM的数量占最大允许的VM数量比例。其中,所述Agent1模型的动作空间1为a1∈(0,1),其中0代表该任务不执行,1代表该任务执行。Agent2模型的动作空间2为a2∈[-N,N]。其中,所述Agent1模型的回报函数为r1=μ*mt+η*nt;Agent2模型的回报函数为其中,所述Agent1模型与Agent2模型的深度神经网络分别包括Actor网络,Critic网络和经验池,经验池用于储存样本,Actor网络用于输出调度策略πθ(st,at),得到每一个样本是否执行,Critic网络用于判断St状态下采取策略πθ(st,at)价值,价值表示为使用优势函数A(st,at)来表示策略πθ(st,at),优势函数的定义如下:Actor网络的超参数θ和Critic网络的超参数θv的更新公式如下:θ←θ+α∑▽θlogπθ(st,at)+β▽θH(πθ(·|st));其中H(πθ(·|st))指策略的熵。其中,所述Actor网络的输出层比Critic网络多一层softmax,softmax用于归一化输出数据,实现动作的选择。其中,所述Agent1模型的输出是0或1,Agent2模型的输出为[-N,N]之间的整数。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1、本专利技术中,使用由深度学习与强化学习组合成的DRL(深度强化学习)来实现复杂环境下的高效决策,DRL只用关注环境的状态值和回报函数值,有效的避免了数据中心环境建模困难这一难题。2、本专利技术中,本算法能根据环境变化不断调整自身的策略,做到动态调整,能适用于各种环境之下,相比于传统算法只针对某一特定环境或资源类型来说,更适用于数据中心这类复杂多变的环境。3、本专利技术中,针对数据中心到达的任务大小波动较大,提出了cost来衡量任务的等待时间,较传统的公平调度、最短的任务先执行策略和先到先执行策略相比,对任务的分配更加科学化合理化。4、本专利技术中,针对数据中心因任务到达数量变化造成的资源浪费,做到了动态调整集群中VM数量,实现数据中心资源的高效利用和负载平衡。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。实施例一:一种基于强化学习的无模型数据中心资源调度算法,包括环境模型和DRL模型,环境模型包括时间模型,VM模型,Task模型,Task模型用于存放还未执行的任务,VM模型用于执行任务,DRL模型包括Agent1模型与Agent2模型,Agent1模型用于判断任务是否执行,Agent2模型用于增减虚拟机,实现负载平衡,Agent1模型与Agent2模型分别包括状态空间、动作空间、回报函数和深度神经网络四个部分组成;所述Agent1模型的状态空间1为(et,ct,mt,nt);其中et为任务的执行时间,ct为该任务的cost,nt为忙碌的虚拟机的比例;Agent2模型的状态空间2为其中代表单位时刻内环境的负载,代表时刻内到达的任务数量和上一时刻未执行完的任务数量之和,代表当前所有开启的VM的数量占最大允许的VM数量比例;所述Agent1模型的动作空间1为a1∈(0,1),其中0代表该任务不执行,1代表该任务执行,Agent2模型的动作空间2为a2∈[-N,N],所述Agent1模型的回报函数为r1=μ*mt+η*nt;Agent2模型的回报函数为所述Agent1模型与Agent2模型的深度神经网络分别包括Actor网络,Critic网络和经验池,经验池用于储存样本,Actor网络用于输出调度策略πθ(st,at),得到每一个样本是否执行,Critic网络用于判断St状态下采取策略πθ(st,at)价值,价值表示为使用优势函数A(st,at)来表示策略πθ(st,at),优势函数的定义如下:Actor网络的超参数θ和Critic网络的超参数θv的更新公式如下:θ←θ+α∑▽θlogπθ(st,at)+β▽θH(πθ(·|st))其中H(πθ(·|st))指策略的熵。实施例二:一种基于强化学习的无模型数据中心资源调度算法,包括环境模型和DRL模型,环境模型包括时间模型,VM模型,Task模型,Task模型用于存放还未执行的任务,VM模型用于执行任务,DRL模型包括Agent1模型与Age本文档来自技高网...

【技术保护点】
1.一种基于强化学习的无模型数据中心资源调度算法,包括环境模型和DRL模型,其特征在于,环境模型包括时间模型,VM模型,Task模型,Task模型用于存放还未执行的任务,VM模型用于执行任务,DRL模型包括Agent1模型与Agent2模型,Agent1模型用于判断任务是否执行,Agent2模型用于增减虚拟机,实现负载平衡,Agent1模型与Agent2模型分别包括状态空间、动作空间、回报函数和深度神经网络四个组成部分。

【技术特征摘要】
1.一种基于强化学习的无模型数据中心资源调度算法,包括环境模型和DRL模型,其特征在于,环境模型包括时间模型,VM模型,Task模型,Task模型用于存放还未执行的任务,VM模型用于执行任务,DRL模型包括Agent1模型与Agent2模型,Agent1模型用于判断任务是否执行,Agent2模型用于增减虚拟机,实现负载平衡,Agent1模型与Agent2模型分别包括状态空间、动作空间、回报函数和深度神经网络四个组成部分。2.如权利要求1所述的一种基于强化学习的无模型数据中心资源调度算法,其特征在于,所述Agent1模型在判断任务是否执行前需要获取任务的优先级值cost,cost=(et+dt)/et;其中et表示任务的执行时间,dt表示任务在队列中的等待时间。3.如权利要求2所述的一种基于强化学习的无模型数据中心资源调度算法,其特征在于,所述Agent1模型的状态空间1为(et,ct,mt,nt);其中et为任务的执行时间,ct为该任务的cost,mt为当前环境中所有任务的cost的平均值,nt为忙碌的虚拟机的比例;Agent2模型的状态空间2为其中代表单位时刻内环境的负载,代表时刻内到达的任务数量和上一时刻未执行完的任务数量之和,代表当前所有开启的VM的数量占最大允许的VM数量比例。4.如权利要求3所述的一种基于强化学习的无模型数据中心资源调度算法,其特征在于,所述Agent1模型的动作空间1为a1∈(0,1),其中0代表该任务不执...

【专利技术属性】
技术研发人员:白紫星
申请(专利权)人:白紫星
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1