一种计算任务调度方法、装置、终端设备及存储介质制造方法及图纸

技术编号：43338305 阅读：13 留言：0更新日期：2024-11-15 20:33

本发明专利技术公开了一种计算任务调度方法、装置、终端设备及存储介质，其中方法包括：初始化多智能体强化学习模型的模型参数，对目标区域的每一无人机创建一个智能体；根据网络配置数据设定初始状态，开始对多智能体强化学习模型进行迭代；利用智能体对应的行为网络输出计算节点选择的概率分布，并基于计算节点选择的概率分布生成第一动作数组；利用行为网络输出链路权重的概率分布，并基于链路权重的概率分布生成第二动作数组；基于第一动作数组和第二动作数组组成综合动作，根据综合动作确定任务路径规划方案，路径规划方案包括计算任务选择的目的节点和转发路径。本发明专利技术能够有效降低计算任务卸载的时延，从而能够有效提高计算任务的处理效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算任务调度，尤其是涉及一种计算任务调度方法、装置、终端设备及存储介质。

技术介绍

1、泛在电力数据通信网作为综合性的电力业务网络传输平台，是电力公司系统内人、机、物及应用实现互联的基础。它在电力物联网的基础上，围绕电力系统各环节，充分应用移动互联、人工智能、ipv6+等现代信息技术、先进网络通信技术，实现电力系统各环节的互联互通的智慧服务系统，具有状态全面感知、信息高效处理、应用便捷灵活特征，支撑了电力生产运维和业务管理决策。我国电力需求越来越高，电力数据网中的业务也不断增加，使得电力物联网终端数量急剧上升，网络传输数据量爆发式增长，传统云计算已难以满足全部需求，因此边缘计算获得越来越多的关注。边缘计算旨在解决云计算遇到的数据处理、存储及传输问题，可采用边缘网关进行分布式部署，就近进行数据采集、处理、协议转换及数据分析等，极大缓解网络传输与数据中心的压力，结合ipv6+网络创新技术，在边缘侧保证终端业务的灵活调度和低时延交互，加快处理速度，提高服务响应性能和质量。

2、通常地，用户设备所产生的计算任务可以通过卸载到固定边缘服务器上进行计算。然而，一些电网设备比如火电、水电、核电、光伏发电和风电等各种能源系统、设备，可能会设置在无人或者环境较为恶劣的区域，电力设备依旧会产生很多计算密集型任务。在这个场景下，由于地面的计算服务器通常部署在固定基站(base station，bs)中，距离产生计算任务的用户设备较远，现有的计算任务调度方法将计算任务卸载到固定基站时会产生较大的时延，导致计算任务的处理效率较低。

技术实现思路

1、本专利技术提供一种计算任务调度方法、装置、终端设备及存储介质，以解决有的计算任务调度方法将计算任务卸载到固定基站时会产生较大的时延，导致计算任务的处理效率较低的技术问题。

2、本专利技术提供了一种计算任务调度方法，包括：

3、初始化多智能体强化学习模型的模型参数；对目标区域的每一无人机创建一个智能体，所述多智能体强化学习模型中每个智能体对应一个行为网络，所有智能体共享一个评价网络；

4、根据网络配置数据设定初始状态，开始对所述多智能体强化学习模型进行迭代；所述网络配置数据包括网络拓扑、任务列表、计算节点列表和网络链路状态；

5、利用所述智能体对应的行为网络输出计算节点选择的概率分布，并基于所述计算节点选择的概率分布生成第一动作数组；利用所述智能体对应的行为网络输出链路权重的概率分布，并基于所述链路权重的概率分布生成第二动作数组；

6、基于所述第一动作数组和所述第二动作数组组成综合动作，根据所述综合动作确定任务路径规划方案，所述路径规划方案包括计算任务选择的目的节点和转发路径。

7、进一步的，在基于所述第一动作数组和所述第二动作数组组成综合动作，根据所述综合动作确定任务路径规划方案之后，还包括：

8、基于无人机节点构成节点网络，根据所述节点网络中的网络状态数据计算得到网络性能统计数据，并根据所述网络性能统计数据的权重指数计算得到共享奖励；所述网络状态数据包括链路利用率和传输时延数据，所述网络性能统计数据包括链路利用率方差、最大等待运算时间方差和任务平均完成时间；

9、以当前的网络配置数据设定下一状态，将所述初始状态、所述综合动作、所述共享奖励和所述下一状态存放至经验回放池中，直至所述经验回放池放满；

10、基于所述经验回放池的存放记录更新评价网络和行为网络，结束当前迭代，并进行下一次迭代，在当前迭代次数达到设定的最大迭代次数时，停止迭代。

11、进一步的，所述第一动作数组的表达式如下：

12、

13、其中，ac为第一动作数组，λk表示任务列表里任务k被分配到的计算节点编号1～n，第一动作数组大小为任务列表长度；

14、所述第二动作数组的表达式如下：

15、an＝[w1,w2,…,w|ε|]

16、其中，an为第二动作数组，w为每条链路的权值。

17、进一步的，所述基于所述经验回放池的存放记录更新评价网络和行为网络，包括：

18、将所述下一状态和所述经验回放池中的所有状态输入至评价网络中，计算得到所当前策略的优势函数；

19、根据所述当前策略的优势函数计算所述评价网络的loss函数；

20、基于所述评价网络的loss函数，通过反向传播更新所述评价网络的网络参数，得到更新后评价网络。

21、进一步的，所述评价网络的loss函数的表达式如下：

22、

23、其中c_loss为评价网络的loss函数，为优势函数，为优势函数的平方

24、进一步的，所述基于所述经验回放池的存放记录更新评价网络和行为网络，包括：

25、确定每个智能体的行为网络对应的旧行为网络和新行为网络；

26、将所述经验回放池中的所有状态分别输入所述旧行为网络和新行为网络中，分别得到第一概率分布和第二概率分布；

27、获取所述经验回放池中所有综合动作在所述第一概率分布和所述第二概率分布对应的第一动作概率和第二动作概率；

28、将所述第二动作概率除以所述第一动作概率得到重要性权重；

29、根据所述重要性权重、所述当前策略的优势函数和学习率计算所述行为网络的loss函数；

30、基于所述行为网络的loss函数，通过反向传播更新所述行为网络的网络参数，得到更新后行为网络。

31、进一步的，所述行为网络的loss函数的表达式如下：

32、

33、其中，a_loss行为网络的loss函数，ratio为重要性权重值，∈是学习率，clip(ratio,1-∈,1+∈)表示将超出(1-∈,1+∈)范围的重要性权重裁剪掉。

34、本专利技术还提供了一种计算任务调度装置，包括：

35、智能体创建模块，用于初始化多智能体强化学习模型的模型参数，对目标区域的每一无人机创建一个智能体，所述多智能体强化学习模型中每个智能体对应一个行为网络，所有智能体共享一个评价网络；

36、迭代开始模块，用于根据网络配置数据设定下一状态，开始对所述多智能体强化学习模型进行迭代；所述网络配置数据包括网络拓扑、任务列表、计算节点列表和网络链路状态；

37、动作数组生成模块，用于利用所述智能体对应的行为网络输出计算节点选择的概率分布，并基于所述计算节点选择的概率分布生成第一动作数组；利用所述智能体对应的行为网络输出链路权重的概率分布，并基于所述链路权重的概率分布生成第二动作数组；

38、任务路径规划方案确定模块，用于基于所述第一动作数组和所述第二动作数组组成综合动作，根据所述综合动作确定任务路径规划方案，所述路径规划方案包括计算任务选择的目的节点和转发路径。

39、本专利技术还提供了一种终端设备，包括：处理器、存储器以及存储在存储本文档来自技高网...

【技术保护点】

1.一种计算任务调度方法，其特征在于，包括：

2.如权利要求1所述的计算任务调度方法，其特征在于，在基于所述第一动作数组和所述第二动作数组组成综合动作，根据所述综合动作确定任务路径规划方案之后，还包括：

3.如权利要求1所述的计算任务调度方法，其特征在于，所述第一动作数组的表达式如下：

4.如权利要求2所述的计算任务调度方法，其特征在于，所述基于所述经验回放池的存放记录更新评价网络和行为网络，包括：

5.如权利要求4所述的计算任务调度方法，其特征在于，所述评价网络的loss函数的表达式如下：

6.如权利要求4所述的计算任务调度方法，其特征在于，所述基于所述经验回放池的存放记录更新评价网络和行为网络，包括：

7.如权利要求6所述的计算任务调度方法，其特征在于，所述行为网络的loss函数的表达式如下：

8.一种计算任务调度装置，其特征在于，包括：

9.一种终端设备，其特征在于，包括：处理器、存储器以及存储在存储器中且被配置为由处理器执行的计算机程序，处理器执行计算机程序时实现如权利要求1-

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1-7任一项所述的计算任务调度方法。

...

【技术特征摘要】

1.一种计算任务调度方法，其特征在于，包括：

3.如权利要求1所述的计算任务调度方法，其特征在于，所述第一动作数组的表达式如下：

4.如权利要求2所述的计算任务调度方法，其特征在于，所述基于所述经验回放池的存放记录更新评价网络和行为网络，包括：

5.如权利要求4所述的计算任务调度方法，其特征在于，所述评价网络的loss函数的表达式如下：

6.如权利要求4所述的计算任务调度方法，其特征在于，所述基于所...

【专利技术属性】
技术研发人员：张珮明，付佳佳，亢中苗，李星南，施展，吴赞红，李涵宇，
申请(专利权)人：广东电网有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人