基于深度强化学习的任务调度网络训练方法技术

技术编号:37466501 阅读:9 留言:0更新日期:2023-05-06 09:41
本发明专利技术实施例公开了一种基于深度强化学习的任务调度网络训练方法,基于深度强化学习的任务调度网络训练方法,包括:获取待执行作业;采用任务调度网络对多个任务进行调度;根据任务调度网络的调度结果,确定多个时间步的奖励,各个时间步的奖励包括碳奖励、电费奖励和任务延迟奖励;根据多个时间步的奖励,计算回报G

【技术实现步骤摘要】
基于深度强化学习的任务调度网络训练方法


[0001]本专利技术涉及数据中心任务调度领域,尤其涉及一种基于深度强化学习的任务调度网络训练方法。

技术介绍

[0002]数据中心所包含的服务器集群及辅助冷却系统等是不间断运行的高能耗设备。2021年全国数据中心能源消耗约为2166亿千瓦时,占全国总用电量的2.6%,因用电产生的间接温室气体排放约达1.35亿吨,占全国碳排放量的1.14%左右。并且过去十年间,我国各个数据中心行业整体用电量以年均超10%的速度逐年增加,数据中心能耗问题正越来越得到人们的关注。数据中心的低碳、经济运行,正成为数据中心改造的一个重要方向。
[0003]数据中心包括若干的服务器,数据中心在工作过程中,接收到的作业内容也会包括若干的任务,对这些任务进行合理的调度,从而将其分配给合适的服务器进行处理,对降低数据中心能耗、提高数据中心对任务处理的及时性等方面具有重要的意义。然而现有任务调度算法通常忽略数据中心低碳经济运行的要求,无法做到在保证任务处理及时性的基础上实现数据中心低碳经济运行,因此数据中心的运行成本居高不下。
[0004]因此,相关技术中的任务调度算法无法在保证任务处理及时性的基础上实现数据中心低碳经济运行。针对上述的问题,目前尚未提出有效的解决方案。
[0005]在
技术介绍
部分中公开的以上信息只是用来加强对本文所描述技术的
技术介绍
的理解。因此,
技术介绍
中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在已知的现有技术。

技术实现思路

[0006]本专利技术实施例提供了一种基于深度强化学习的任务调度网络训练方法,以至少解决相关技术中的任务调度算法无法在保证任务处理及时性的基础上实现数据中心低碳经济运行的技术问题。
[0007]根据本专利技术实施例的第一个方面,提供了一种基于深度强化学习的任务调度网络训练方法,包括:获取待执行作业,待执行作业包括多个任务;采用任务调度网络对多个任务进行调度;根据任务调度网络的调度结果,确定多个时间步的奖励,各个时间步的奖励均包括碳奖励、电费奖励和任务延迟奖励,碳奖励表征数据中心在时间步的碳排放成本,电费奖励表征数据中心在时间步的电费成本,任务延迟奖励表征数据中心在时间步的任务延迟情况;根据多个时间步的奖励,计算回报G
t
,回报G
t
为从时间步t到调度过程结束的累积奖励;至少根据回报G
t
,基于梯度算法对任务调度网络的参数进行调整。
[0008]进一步地,根据任务调度网络的调度结果,确定多个时间步的奖励包括:对于任意的时间步t,根据公式计算时间步t的奖励;其中,为时间步t的碳奖励,为时间步t的电费奖励,为时间步t的任务延迟奖励。
[0009]进一步地,
其中,F(M)=M(P
idle
+(PUE

1)
·
peak
),),为数据中心在时间步t的功率,e
t
为系统碳排放率,p
carbon
为碳排放价格,q
t
为时间步t的电价,N为大于1的整数,为任务i对CPU资源的占用率,p
cpu
为CPU使用的价格,为任务i对内存资源的占用率,p
MEM
为内存资源使用的价格,M为数据中心的服务器数量,F(M)为静态功率,为可变功率,P
idle
为服务器空闲时的额定功率,P
peak
为服务器完全占用时的额定功率,指数r为常数,PUE为数据中心能效指标。
[0010]进一步地,根据多个时间步的奖励,计算回报G
t
包括:对多个时间步的奖励进行放大或缩小,得到多个缩放奖励,其中,多个缩放奖励所属数值区间的范围窄于多个奖励所属数值区间的范围;根据多个缩放奖励,计算回报G
t

[0011]进一步地,对多个时间步的奖励进行放大或缩小,得到多个缩放奖励包括:对于任意的时间步t,根据公式r
t

=(r
t

μ)/(σ+ε)计算时间步t的缩放奖励r
t

,其中,r
t
为时间步t的奖励,μ通过公式μ

μ

+(r

μ)/随着k的值的增加而更新,σ通过公式σ

sqrt(s/k)随着k的值的增加而更新,s通过公式s

σ+(r

μ

)*(r

μ)计算更新,其中,k=n

1,n为时间步t的编号,在k=0的情况下,μ=r,σ=r,r为第一个时间步获得的奖励,在k不为0的情况下,μ=μ


[0012]进一步地,根据回报G
t
,基于梯度算法对任务调度网络的参数进行调整包括:确定当前状态价值的估计;根据回报G
t
和当前状态价值的估计,基于梯度算法对任务调度网络的参数进行调整。
[0013]进一步地,根据回报G
t
和当前状态价值的估计,基于梯度算法对任务调度网络的参数进行调整,包括:采用方程迭代更新任务调度网络的参数θ,其中,α
θ
为参数θ的学习率,δ为回报G
t
与当前状态价值的估计之间的差值,γ
t
为时间步t的折扣因子,π
θ
(a
t
|s
t
,θ
t
)为时间步t的s状态下,任务调度网络采取a动作的概率,为π
θ
(a
t
|s
t
,θ
t
)对θ的导数。
[0014]进一步地,确定当前状态价值的估计包括:计算参数向量w与特征向量x(s
t
)的内积,得到当前状态价值的估计其中,x(s
t
)为时间步t的状态的特征向量。
[0015]进一步地,参数向量w通过公式迭代更新;其中,α
w
为的学习率,为对w的导数。
[0016]进一步地,采用任务调度网络对多个任务进行调度包括:确定多个可执行的动作,动作用于指示将任意一个任务调度至任意一个服务器执行;将多个可执行的动作输入任务调度网络,输出各个可执行的动作被选中的概率;根据各个可执行的动作被选中的概率,从多个可执行的动作中确定多个调度动作;根据多个调度动作,对多个任务进行调度。
[0017]进一步地,确定多个可执行的动作包括:从待执行作业包括的多个任务中,确定一个或多个就绪任务,就绪任务包括不存在父任务的任务,和/或,就绪任务包括父任务执行
完毕的任务,父任务为就绪任务执行时依赖的任务;针对每一个就绪任务,确定一个或多个目标服务器,目标服务器为满足就绪任务所需的计算资源的服务器;确定将任意一个就绪任务调度至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的任务调度网络训练方法,包括:获取待执行作业,所述待执行作业包括多个任务;采用任务调度网络对多个所述任务进行调度;根据所述任务调度网络的调度结果,确定多个时间步的奖励,各个所述时间步的所述奖励均包括碳奖励、电费奖励和任务延迟奖励,所述碳奖励表征数据中心在所述时间步的碳排放成本,所述电费奖励表征所述数据中心在所述时间步的电费成本,所述任务延迟奖励表征所述数据中心在所述时间步的任务延迟情况;根据多个时间步的所述奖励,计算回报G
t
,所述回报G
t
为从时间步t到调度过程结束的累积奖励;至少根据所述回报G
t
,基于梯度算法对所述任务调度网络的参数进行调整。2.根据权利要求1所述的基于深度强化学习的任务调度网络训练方法,其中,根据所述任务调度网络的调度结果,确定多个时间步的奖励包括:对于任意的时间步t,根据公式计算所述时间步t的所述奖励;其中,为所述时间步t的碳奖励,为所述时间步t的电费奖励,为所述时间步t的任务延迟奖励。3.根据权利要求2所述的基于深度强化学习的任务调度网络训练方法,其中,其中,F(M)=M(P
idle
+(PUE

1)
·
P
peak
),),为数据中心在时间步t的功率,e
t
为系统碳排放率,p
carbon
为碳排放价格,q
t
为时间步t的电价,N为大于1的整数,为任务i对CPU资源的占用率,p
cpu
为CPU使用的价格,为任务i对内存资源的占用率,p
MEM
为内存资源使用的价格,M为数据中心的服务器数量,F(M)为静态功率,为可变功率,P
idle
为服务器空闲时的额定功率,P
peak
为服务器完全占用时的额定功率,指数r为常数,PUE为数据中心能效指标。4.根据权利要求1所述的基于深度强化学习的任务调度网络训练方法,其中,根据多个时间步的所述奖励,计算回报G
t
包括:对多个所述时间步的所述奖励进行放大或缩小,得到多个缩放奖励,其中,多个所述缩放奖励所属数值区间的范围窄于多个所述奖励所属数值区间的范围;根据多个所述缩放奖励,计算所述回报G
t
。5.根据权利要求4所述的基于深度强化学习的任务调度网络训练方法,其中,对多个所述时间步的所述奖励进行放大或缩小,得到多个缩放奖励包括:对于任意的时间步t,根据公式r
t

=(r
t

μ)/(σ+ε)计算所述时间步t的所述缩放奖励r
t

,其中,r
t
为所述时间步t的所述奖励,μ通过公式μ

μ

+(r

μ)/k随着k的值的增加而更新,σ通过公式σ

sqrt(s/k)随着k的值的增加而更新,ε通过公式s

σ+(r

μ

)*(r

μ)计算
更新,其中,k=n

1,n为所述时间步t的编号,在k=0的情况下,μ=r,σ=r,r为第一个所述时间步获得的奖励,在k不为0的情况下,ε=μ

。6.根据权利要求1所述的基于深度强化学...

【专利技术属性】
技术研发人员:程明闫月君毛宏举刘文宇
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1