基于DQN的自适应边缘计算任务调度方法技术

技术编号：36605079 阅读：15 留言：0更新日期：2023-02-04 18:25

本发明专利技术公开了一种用于边缘计算系统的基于DQN的自适应边缘计算任务调度方法，该方法中代理分别获取任务配置信息、计算节点配置信息并以此作为输入神经网络的环境状态信息；根据以往训练的损失值进行神经网络最终输出的计算，再根据最终输出和近几次训练的损失值为任务选择计算节点，最后基于损失值进行学习经验的存储。最终实现任务与计算节点的最优匹配，本发明专利技术为充分利用边缘计算资源，提升任务处理的实时性，降低系统开销提供了一个有效的解决方法。解决方法。

全部详细技术资料下载

【技术实现步骤摘要】
基于DQN的自适应边缘计算任务调度方法

[0001]本专利技术属于计算机系统结构领域，涉及自适应任务调度方法，尤其涉及一种用于边缘计算系统的基于DQN的自适应任务调度方法。

技术介绍

[0002]如何充分利用边缘计算系统中的计算资源，提高任务处理的实时性，降低系统开销是边缘计算系统面临的关键问题。随着机器学习技术的发展，越来越多的深度强化学习算法（如DQN、DDPG、Actor
‑
Critic等）被用于解决边缘计算下的任务调度问题。但任务调度问题属于连续性问题，这一特性要求在算法中进行动作空间与状态空间的离散化或选择适用于处理该类问题的算法。能够进行更细划分的任务被作为整体进行调度时不利于计算资源的有效利用。如果运用DQN等适用于连续问题的算法时，如何进行更加有效的离散化和在降低由此算法自身引起的“过估计”问题的影响同时兼顾神经网络的收敛速度。如果无法在神经网络的训练过程中有效地调整动作空间的探索度不利于神经网络的收敛和稳定。将深度强化学习算法运用到边缘计算解决任务调度问题时，同时考虑有限的计算资源、任务内部特性、算法收敛速度与稳定，选择相对计算量小的算法，对任务进行合理划分，提高算法对解空间的探索效率，减小算法收敛后的波动，实现任务与计算节点的最优匹配，才能提高系统计算资源的利用率，任务处理的实时性，降低系统开销。
[0003]已有的研究工作，大多数均将任务视为一个整体进行调度这不能有效利用计算资源且计算节点的选择策略中的概率值为固定值这不利于动作空间的有效探索从而造成算法收敛速度慢和不稳...

【技术保护点】

【技术特征摘要】
1.一种基于DQN的自适应边缘计算任务调度方法，其特征在于，包括如下步骤：1）当神经网络的训练步数为指定复制参数步数的倍数，则将DQN中评估网络参数复制到目标网络；当神经网络的训练步数为指定回放经验步数的倍数，则回放经验池中的学习经验且清空经验池；2）获取计算节点配置信息、终端设备配置信息和任务配置信息作为环境状态信息，正规化后作为深度强化学习神经网络的输入；所述环境状态信息由计算任务数据大小、所需计算资源数、所需存储资源数和所有计算节点可用计算资源数、可用存储资源数信息组成，即其中，state
i
表示计算任务与第i个计算节点的状态信息；ds，tc，ts分别为计算任务的数据大小、所需计算资源数、所需存储资源数；nc，ns分别为计算节点可用计算资源数、可用存储资源数；3）分别获得评估网络和目标网络的输出并结合上一次训练的损失值通过综合性Q值计算方法计算神经网络的最终输出并以此作为任务与计算节点的适配度值；综合性Q值具体计算公式如下：其中，TNet、ENet分别为目标网络和评估网络，OT、OE分别为目标网络和评估网络的输出，Loss为上一次迭代的损失；4）基于自适应动态动作空间探索度调整策略，以神经网络的最终输出和近几次训练的损失值以一定概率为任务选择最大适配度值所对应的计算节点，否则随机选择计算节点；所述自适应动态动作空间探索度调整策略具体如下：其中，rd为随机数生成函数，用于生成[0,1]范围内的随机数；F值为True，则为当前待处理任务选择非最大值对应的卸载动作，为False，...

【专利技术属性】
技术研发人员：巨涛，王志强，刘帅，火久元，张学军，
申请(专利权)人：兰州交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人