基于深度强化学习的任务调度网络训练方法技术

技术编号：37466501 阅读：9 留言：0更新日期：2023-05-06 09:41

本发明专利技术实施例公开了一种基于深度强化学习的任务调度网络训练方法，基于深度强化学习的任务调度网络训练方法，包括：获取待执行作业；采用任务调度网络对多个任务进行调度；根据任务调度网络的调度结果，确定多个时间步的奖励，各个时间步的奖励包括碳奖励、电费奖励和任务延迟奖励；根据多个时间步的奖励，计算回报G

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的任务调度网络训练方法

[0001]本专利技术涉及数据中心任务调度领域，尤其涉及一种基于深度强化学习的任务调度网络训练方法。

技术介绍

[0002]数据中心所包含的服务器集群及辅助冷却系统等是不间断运行的高能耗设备。2021年全国数据中心能源消耗约为2166亿千瓦时，占全国总用电量的2.6％，因用电产生的间接温室气体排放约达1.35亿吨，占全国碳排放量的1.14％左右。并且过去十年间，我国各个数据中心行业整体用电量以年均超10％的速度逐年增加，数据中心能耗问题正越来越得到人们的关注。数据中心的低碳、经济运行，正成为数据中心改造的一个重要方向。
[0003]数据中心包括若干的服务器，数据中心在工作过程中，接收到的作业内容也会包括若干的任务，对这些任务进行合理的调度，从而将其分配给合适的服务器进行处理，对降低数据中心能耗、提高数据中心对任务处理的及时性等方面具有重要的意义。然而现有任务调度算法通常忽略数据中心低碳经济运行的要求，无法做到在保证任务处理及时性的基础上实现数据中心低碳经济运行，因此数据中心的运行成本居高不下。
[0004]因此，相关技术中的任务调度算法无法在保证任务处理及时性的基础上实现数据中心低碳经济运行。针对上述的问题，目前尚未提出有效的解决方案。
[0005]在
技术介绍
部分中公开的以上信息只是用来加强对本文所描述技术的
技术介绍
的理解。因此，
技术介绍
中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在已知的现有技术。

技术实现思路

[0006...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的任务调度网络训练方法，包括：获取待执行作业，所述待执行作业包括多个任务；采用任务调度网络对多个所述任务进行调度；根据所述任务调度网络的调度结果，确定多个时间步的奖励，各个所述时间步的所述奖励均包括碳奖励、电费奖励和任务延迟奖励，所述碳奖励表征数据中心在所述时间步的碳排放成本，所述电费奖励表征所述数据中心在所述时间步的电费成本，所述任务延迟奖励表征所述数据中心在所述时间步的任务延迟情况；根据多个时间步的所述奖励，计算回报G
t
，所述回报G
t
为从时间步t到调度过程结束的累积奖励；至少根据所述回报G
t
，基于梯度算法对所述任务调度网络的参数进行调整。2.根据权利要求1所述的基于深度强化学习的任务调度网络训练方法，其中，根据所述任务调度网络的调度结果，确定多个时间步的奖励包括：对于任意的时间步t，根据公式计算所述时间步t的所述奖励；其中，为所述时间步t的碳奖励，为所述时间步t的电费奖励，为所述时间步t的任务延迟奖励。3.根据权利要求2所述的基于深度强化学习的任务调度网络训练方法，其中，其中，F（M)＝M(P
idle
+(PUE
‑
1)
·
P
peak
)，)，为数据中心在时间步t的功率，e
t
为系统碳排放率，p
carbon
为碳排放价格，q
t
为时间步t的电价，N为大于1的整数，为任务i对CPU资源的占用率，p
cpu
为CPU使用的价格，为任务i对内存资源的占用率，p
MEM
为内存资源使用的价格，M为数据中心的服务器数量，F（M)为静态功率，为可变功率，P
idle
为服务器空闲时的额定功率，P
peak
为服务器完全占用时的额定功率，指数r为常数，PUE为数据中心能效指标。4.根据权利要求1所述的基于深度强化学习的任务调度网络训练方法，其中，根据多个时间步的所述奖励，计算回报G
t
包括：对多个所述时间步的所述奖励进行放大或缩小，得到多个缩放奖励，其中，多个所述缩放奖励所属数值区间的范围窄于多个所述奖励所属数值区间的范围；根据多个所述缩放奖励，计算所述回报G
t
。5.根据权利要求4所述的基于深度强化学习的任务调度网络训练方法，其中，对多个所述时间步的所述奖励进行放大或缩小，得到多个缩放奖励包括：对于任意的时间步t，根据公式r
t
′
＝(r
t
‑
μ)/(σ+ε)计算所述时间步t的所述缩放奖励r
t
′
，其中，r
t
为所述时间步t的所述奖励，μ通过公式μ
←
μ
′
+(r
‑
μ)/k随着k的值的增加而更新，σ通过公式σ
←
sqrt(s/k)随着k的值的增加而更新，ε通过公式s
←
σ+(r
‑
μ
′
)*(r
‑
μ)计算
更新，其中，k＝n
‑
1，n为所述时间步t的编号，在k＝0的情况下，μ＝r，σ＝r，r为第一个所述时间步获得的奖励，在k不为0的情况下，ε＝μ
′
。6.根据权利要求1所述的基于深度强化学...

【专利技术属性】
技术研发人员：程明，闫月君，毛宏举，刘文宇，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人