基于强化学习的云计算作业可共置执行方法及系统技术方案

技术编号:39060065 阅读:17 留言:0更新日期:2023-10-12 19:53
本发明专利技术提出一种基于强化学习的云计算作业可共置执行方法,包括:以神经网络构建策略模型,设置该策略模型的强化学习参数,基于云计算任务的单个作业和组合作业,对该策略模型进行强化学习训练;生成该云计算任务的批作业,通过该策略模型获取该批作业的执行策略,并根据该执行策略,将该批作业进行分配并执行。本发明专利技术还提出一种基于强化学习的云计算作业可共置执行系统,以及一种用于云计算作业可共置执行的数据处理装置。共置执行的数据处理装置。共置执行的数据处理装置。

【技术实现步骤摘要】
基于强化学习的云计算作业可共置执行方法及系统


[0001]本专利技术属于云计算
,特别涉及一种基于强化学习的云计算作业可共置执行方法及系统。

技术介绍

[0002]目前云计算领域最主流的环境是用K8S(Kubernetes)部署的。K8S给某一个任务分配资源时,只考虑资源量,不考虑资源的实际物理位置。因此某个任务具体被分配了哪个资源是不确定的,也就是说,云计算任务与资源之间属于不确定映射。例如,集群中有2个CPU,每个CPU包含32个核心,此时如果一个任务需要16个CPU核心,且两个CPU都有大于等于16个空闲核心,则该任务最终会被分配到哪个CPU上执行是确定的。
[0003]K8S中由资源调度器给某个任务分配相应的资源,分配遵循调度策略。虽然调度策略支持自定义,但是该接口中无法获取资源的ID(编号),只能获取剩余资源量,因此原生K8S无法实现为某个任务指定分配特定资源的调度算法。要实现云计算任务与资源的确定性映射,则需要先实现资源的可指定。
[0004]目前,各硬件加速器厂商都在尝试提供更好的支持使得多作业能够尽量不相互干扰地在同一个加速器上执行。例如,英伟达公司在Volta架构之前支持时分复用(time division multiplexing,TDM)方式的多作业共置;在Volta架构之后,英伟达在TDM的基础上又新增了MPS(multiple process service,多进程服务)以更好的支持多作业共置;在Ampere架构之后,更是支持了MIG(multi

instance GPU,多实例GPU)技术从物理层对GPU进行了划分使得多作业共置的干扰进一步降低。类似的,AMD和INTEL公司也分别提出了Multiuser GPU(多用户GPU)和SUB

DEVICE(子设备)技术来实现一个设备上执行多任务的需求。本专利技术的方法可利用TDM、MPS、MIG、Multiuser等多进程支持技术中的一个或多个来实现。
[0005]除了底层硬件厂商外,一些相关研究也在致力于研究多作业共置问题。其中一部分工作主要解决多作业互相干扰的问题。还有一部分工作主要研究核函数或算子的共置策略。共置的研究呈现自底向上的趋势,目前仅Abacus针对针对纯AI作业进行了共置研究,尚无对其他类型作业的进程级任务共置的研究工作。
[0006]而强化学习技术已经形成了比较成熟的结构,通常包含不同场景下的环境(ENV)、状态(State)、动作(Action)、奖励(Reward)、经验缓冲器(Replay Buffer)等单元。上述单元需要仔细设计以更好地适应特定的场景。如设计不当,则无法完成既定目标。

技术实现思路

[0007]针对上述问题,本专利技术通过对原生K8S的设备插件(DevicePlugin)进行修改以满足可指定资源给任务的需求。具体来说,本专利技术的基于强化学习的云计算作业可共置执行方法包括:以神经网络构建策略模型,设置该策略模型的强化学习参数,基于云计算任务的单个作业和组合作业,对该策略模型进行强化学习训练;生成该云计算任务的批作业,通过
该策略模型获取该批作业的执行策略,并根据该执行策略,将该批作业进行分配并执行。
[0008]本专利技术所述的云计算作业可共置执行方法,其中对该策略模型进行强化学习训练的步骤包括:定义边界,该边界是关于状态S、动作A、奖励R的函数,用于生成满足边界条件的合法动作A的集合legal(A);设置A的奖励函数R=

T(A)*0.1;对于任一合法动作A,有当前状态S,下一个状态S
next
=S+A,则Q
next
=max(Net(S,legal(A))),Q
next
表示该策略模型对S和legal(A)的评分结果的最大值;损失函数L=[Net(S,A)

Y
i
]2,其中,若S
next
为零向量,则Y
i
=R,终止对该策略模型的强化学习训练,反之,则Y
i
=R+Q
next
,更新该强化学习参数。
[0009]本专利技术所述的云计算作业可共置执行方法,其中该网络参数包括:训练轮数N_ITER、训练批尺度BATCH_SIZE、学习率LR、贪婪动作选择概率EPSILON、经验回放轮数TARGET_REPLACE_ITER、记忆容量MEMORY_CAPACITY、动作维度N_ACTIONS、随机初始化标记RANDOM_START、状态维度k、最大可共置作业数N_WORK、动作空间ACTIONS。
[0010]本专利技术所述的云计算作业可共置执行方法,其中该作业分配模型包括:第一特征提取网络,用于提取该批作业的第一特征;第二特征提取网络,与该第一特征提取网络并行,用于提取单步策略的第二特征;该单步策略指一次任务的提交策略,该一次任务包括一个或多个单个作业;策略评分网络,用于以该第一特征和该第二特征为输入,输出该单步策略的评分,作为该执行策略。
[0011]本专利技术还提出一种基于强化学习的云计算作业可共置执行系统,包括:模型训练模块,用于以神经网络构建策略模型,设置该策略模型的强化学习参数,基于云计算任务的单个作业和组合作业,对该策略模型进行强化学习训练;策略生成模块,用于生成该云计算任务的批作业,通过该策略模型获取该批作业的执行策略,并根据该执行策略,将该批作业进行分配并执行。
[0012]本专利技术所述的云计算作业可共置执行系统,其中该模型训练模块包括:初始化模块,用于定义边界,该边界是关于状态S、动作A、奖励R的函数,用于生成满足边界条件的合法动作A的集合legal(A);设置A的奖励函数R=

T(A)*0.1;训练模块,用于对该策略模型进行强化学习训练;对于任一合法动作A,有当前状态S,下一个状态S
next
=S+A,则Q
next
=max(Net(S,legal(A))),Q
next
表示该策略模型对S和legal(A)的评分结果的最大值;损失函数L=[Net(S,A)

Y
i
]2,其中,若S
next
为零向量,则Y
i
=R,终止对该策略模型的强化学习训练,反之,则Y
i
=R+Q
next,
更新该强化学习参数。
[0013]本专利技术所述的云计算作业可共置执行系统,其中该网络参数包括:训练轮数N_ITER、训练批尺度BATCH_SIZE、学习率LR、贪婪动作选择概率EPSILON、经验回放轮数TARGET_REPLACE_ITER、记忆容量MEMORY_CAPACITY、动作维度N_ACTIONS、随机初始化标记RANDOM_START、状态维度k、最大可共置作业数N_WORK、动作空间ACTIONS。
[0014]本专利技术所述的云计算作业可共置执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的云计算作业可共置执行方法,其特征在于,包括:以神经网络构建策略模型,设置该策略模型的强化学习参数,基于云计算任务的单个作业和组合作业,对该策略模型进行强化学习训练;生成该云计算任务的批作业,通过该策略模型获取该批作业的执行策略,并根据该执行策略,将该批作业进行分配并执行。2.如权利要求1所述的云计算作业可共置执行方法,其特征在于,对该策略模型进行强化学习训练的步骤包括:定义边界,该边界是关于状态S、动作A、奖励R的函数,用于生成满足边界条件的合法动作A的集合legal(A);设置A的奖励函数R=

T(A)*0.1;对于任一合法动作A,有当前状态S,下一个状态S
next
=S+A,则Q
next
=max(Net(S,legal(A))),Q
next
表示该策略模型对S和legal(A)的评分结果的最大值;损失函数L=[Net(S,A)

Y
i
]2,其中,若S
next
为零向量,则Y
i
=R,终止对该策略模型的强化学习训练,反之,则Y
i
=R+Q
next
,更新该强化学习参数。3.如权利要求2所述的云计算作业可共置执行方法,其特征在于,该网络参数包括:训练轮数N_ITER、训练批尺度BATCH_SIZE、学习率LR、贪婪动作选择概率EPSILON、经验回放轮数TARGET_REPLACE_ITER、记忆容量MEMORY_CAPACITY、动作维度N_ACTIONS、随机初始化标记RANDOM_START、状态维度k、最大可共置作业数N_WORK、动作空间ACTIONS。4.如权利要求1所述的云计算作业可共置执行方法,其特征在于,该作业分配模型包括:第一特征提取网络,用于提取该批作业的第一特征;第二特征提取网络,与该第一特征提取网络并行,用于提取单步策略的第二特征;该单步策略指一次任务的提交策略,该一次任务包括一个或多个单个作业;策略评分网络,用于以该第一特征和该第二特征为输入,输出该单步策略的评分,作为该执行策略。5.一种基于强化学习的云计算作业可共置执行系统,其特征在于,包括:模型训练模块,用于以神经网络构建策略模型,设置该策略模型的强化学习参数,基于云计算任务的单个作业和组合作业,对该策略模型进行强化学习训练;策略生成模块,用于生成该...

【专利技术属性】
技术研发人员:周悦媛赵曈马俊杰贾伟乐邵恩谭光明孙凝晖
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1