算力网任务调度方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号：41148888 阅读：5 留言：0更新日期：2024-04-30 18:15

本申请公开了一种算力网任务调度方法、装置、设备及计算机可读存储介质，涉及云计算技术领域，包括：将当前时段的环境状态输入策略网络；环境状态包括待调度的对象中的任务信息与工作节点的状态信息；对策略网络输出的策略进行过滤，得到有效动作选择概率；根据有效动作选择概率执行动作，将对象调度到动作对应的工作节点上执行；根据奖励函数计算执行动作的奖励；每完成一次调度后，将经验序列存入经验池；当经验池满后，每更新一次经验池，从经验池选取预设数量的经验序列，根据选取的经验序列更新评判网络以及采用策略梯度更新策略网络。该方法能够实现各工作节点的负载均衡，适应不同调度场景与环境，执行效率高。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及云计算，特别涉及一种算力网任务调度方法；还涉及一种算力网任务调度装置、设备以及计算机可读存储介质。

技术介绍

1、随着云计算，边缘计算和智能设备的快速发展，各种算力节点被孤立的部署在网络各处，而传统的网络架构不能有效地利用这些算力节点，为了解决这些问题，需要一个新的网络架构即算力网。算力网的核心思想是连接分布式计算节点，可以动态的实时感知用户需求和多维资源，如应用、网络资源、计算能力资源和存储资源。算力网联合分配算力资源和网络资源，协调调度计算任务，使应用程序可以按需、及时地调用不同位置的算力资源。为了实现算力网集群资源的管理和调度，通常使用kubernetes作为实现这一目的的工具。在kubernetes中进行集群调度，按一定的顺序将任务分配给满足该任务需求的工作节点，在工作节点中任务被部署到pod上进行执行。pod是kubernetes中最小的可部署单元，通常包含一个或多个容器，容器封装了任务及其依赖，它隔离了任务的运行环境，使任务能在不同的环境中一致的运行。目前的kubernetes默认调度算法存在诸多不足，因此产生了许多基于kubernetes调度的算法，主要由两种实现路径。一是基于某种确定性规则的启发式算法，然而，基于确定性规则的启发式算法通常依赖于人工制定的规则集，这些规则可能只适用于特定问题或特定环境。在处理新问题或不同环境时可能不够灵活，需要经常调整和修改规则。规则制定困难，确定性规则制定可能需要领域专业知识和经验，而且这些规则的设计可能是一项耗时的任务。寻找一组优秀的规则集可能是困难的，尤其是在复杂问

2、因此，提供一种能够适应不同调度场景与环境，执行效率高的任务调度方案已成为本领域技术人员亟待解决的技术问题。

技术实现思路

1、本申请的目的是提供一种算力网任务调度方法，能够实现各工作节点的负载均衡，适应不同调度场景与环境，执行效率高。本申请的另一个目的是提供一种算力网任务调度装置、设备以及计算机可读存储介质，均具有上述技术效果。

2、为解决上述技术问题，本申请提供了一种算力网任务调度方法，包括：

3、将当前时段的环境状态输入策略网络；所述环境状态包括待调度的对象中的任务信息与工作节点的状态信息；

4、对所述策略网络输出的策略进行过滤，得到有效动作选择概率；

5、根据所述有效动作选择概率执行动作，将所述对象调度到所述动作对应的工作节点上执行；

6、根据奖励函数计算执行所述动作的奖励；

7、每完成一次调度后，将经验序列存入经验池；

8、当所述经验池满后，每更新一次所述经验池，从所述经验池选取预设数量的经验序列，根据选取的经验序列更新评判网络以及采用策略梯度更新所述策略网络。

9、可选的，所述任务信息包括表示任务所需的算力类型的算力特征，表示任务的计算总量的算力总量以及表示任务所需的内存资源大小的内存总量；所述状态信息包括所述工作节点的算力标识，算力剩余量，内存剩余量，算力芯片的周期频率，网络传输速率。

10、可选的，根据奖励函数计算执行所述动作的奖励包括：

11、根据计算得到执行所述动作的奖励；

12、其中，reward表示奖励，t表示时段，v＝1/(1+e-σ)，σ表示所有工作节点的已使用资源的标准差，α表示权重因子，β表示在时间区间内被调度过的任务在时间区间结束时处于挂起状态的比率，t0表示时间区间的下限，l表示时间区间的长度。

13、可选的，根据选取的经验序列更新评判网络包括：

14、根据选取的经验序列，以评判网络损失函数最小为目标，更新所述评判网络的参数；所述评判网络损失函数为θv表示评判网络的参数，st表示t时段的环境状态，表示st在评判网络的输出，rewardt表示t时段执行动作的奖励，γ为折扣因子，st+1表示t+1时段的环境状态，θ`v表示目标评判网络的参数，表示st+1在目标评判网络的输出。

15、可选的，还包括：

16、当迭代次数达到预设次数后，将所述目标评判网络的参数更新为所述评判网络的参数。

17、可选的，根据选取的经验序列，采用策略梯度算法更新所述策略网络包括：

18、根据选取的经验序列，以策略网络损失函数最大为目标，更新所述策略网络的参数；策略网络策略梯度为▽表示梯度，j(θp)表示策略网络损失函数，θp表示所述策略网络的参数，表示所述策略网络的策略，a表示动作，st表示t时段的环境状态，表示在t时段的环境状态下选择将pod调度到工作节点i的概率，rewardt表示t时段的执行调动动作的奖励，γ为折扣因子，表示st+1在目标评判网络的输出，表示st在评判网络的输出。

19、可选的，还包括：

20、初始化环境状态、动作、奖励以及状态转移概率。

21、为解决上述技术问题，本申请还提供了一种算力网任务调度装置，包括：

22、输入模块，用于将当前时段的环境状态输入策略网络；所述环境状态包括待调度的对象中的任务信息与工作节点的状态信息；

23、过滤模块，用于通过节点上下文过滤器对所述策略网络输出的策略进行过滤，得到有效动作选择概率；

24、调度模块，用于根据所述有效动作选择概率执行动作，将所述对象调度到所述动作对应的工作节点上执行；

25、计算模块，用于根据奖励函数计算执行所述动作的奖励；

26、存储模块，用于每完成一次调度后，将经验序列存入经验池；

27、更新模块，用于当所述经验池满后，每更新一次所述经验池，从所述经验池选取预设数量的经验序列，根据选取的经验序列更新评判网络以及采用策略梯度更新所述策略网络。

28、为解决上述技术问题，本申请还提供了一种算力网任务调度设备，包括：

29、存储器，用于存储计算机程序；

30、处理器，用于执行所述计算机程序时实现如上所述的算力网任务调度方法的步骤。

31、为解决上述技术问题，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的算力网任务调度方法的步骤。

32、本申请所提供的算力网任务调度方法，包括：将当前时段的环境状态输入策略网络；所述环境状态包括待调度的对象中的任务信息与工作节点的状态信息；对所述策略网络输出的策略进行过滤，得到有效动作选择概率；根据所述有效动作选择概率执行动作，将所述对象调度到所述动作对应的工作节点上执行；根据奖励函数计算执行所述动作的奖励；每完成一次调度后，将经验序列存入经验池；当所述经验池满后，每更新一次所述经验池，从所述经验池选本文档来自技高网...

【技术保护点】

1.一种算力网任务调度方法，其特征在于，包括：

2.根据权利要求1所述的算力网任务调度方法，其特征在于，所述任务信息包括表示任务所需的算力类型的算力特征，表示任务的计算总量的算力总量以及表示任务所需的内存资源大小的内存总量；所述状态信息包括所述工作节点的算力标识，算力剩余量，内存剩余量，算力芯片的周期频率，网络传输速率。

3.根据权利要求1所述的算力网任务调度方法，其特征在于，根据奖励函数计算执行所述动作的奖励包括：

4.根据权利要求1所述的算力网任务调度方法，其特征在于，根据选取的经验序列更新评判网络包括：

5.根据权利要求4所述的算力网任务调度方法，其特征在于，还包括：

6.根据权利要求4所述的算力网任务调度方法，其特征在于，根据选取的经验序列，采用策略梯度算法更新所述策略网络包括：

7.根据权利要求1所述的算力网任务调度方法，其特征在于，还包括：

8.一种算力网任务调度装置，其特征在于，包括：

9.一种算力网任务调度设备，其特征在于，包括：

10.一种计算机可读存储介

...

【技术特征摘要】

1.一种算力网任务调度方法，其特征在于，包括：

3.根据权利要求1所述的算力网任务调度方法，其特征在于，根据奖励函数计算执行所述动作的奖励包括：

4.根据权利要求1所述的算力网任务调度方法，其特征在于，根据选取的经验序列更新评判网络包括：

5.根...

【专利技术属性】
技术研发人员：张泽阳，龙勇，张会凯，
申请(专利权)人：量子科技长三角产业创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人