基于DQN的自适应边缘计算任务调度方法技术

技术编号:36605079 阅读:15 留言:0更新日期:2023-02-04 18:25
本发明专利技术公开了一种用于边缘计算系统的基于DQN的自适应边缘计算任务调度方法,该方法中代理分别获取任务配置信息、计算节点配置信息并以此作为输入神经网络的环境状态信息;根据以往训练的损失值进行神经网络最终输出的计算,再根据最终输出和近几次训练的损失值为任务选择计算节点,最后基于损失值进行学习经验的存储。最终实现任务与计算节点的最优匹配,本发明专利技术为充分利用边缘计算资源,提升任务处理的实时性,降低系统开销提供了一个有效的解决方法。解决方法。

【技术实现步骤摘要】
基于DQN的自适应边缘计算任务调度方法


[0001]本专利技术属于计算机系统结构领域,涉及自适应任务调度方法,尤其涉及一种用于边缘计算系统的基于DQN的自适应任务调度方法。

技术介绍

[0002]如何充分利用边缘计算系统中的计算资源,提高任务处理的实时性,降低系统开销是边缘计算系统面临的关键问题。随着机器学习技术的发展,越来越多的深度强化学习算法(如DQN、DDPG、Actor

Critic等)被用于解决边缘计算下的任务调度问题。但任务调度问题属于连续性问题,这一特性要求在算法中进行动作空间与状态空间的离散化或选择适用于处理该类问题的算法。能够进行更细划分的任务被作为整体进行调度时不利于计算资源的有效利用。如果运用DQN等适用于连续问题的算法时,如何进行更加有效的离散化和在降低由此算法自身引起的“过估计”问题的影响同时兼顾神经网络的收敛速度。如果无法在神经网络的训练过程中有效地调整动作空间的探索度不利于神经网络的收敛和稳定。将深度强化学习算法运用到边缘计算解决任务调度问题时,同时考虑有限的计算资源、任务内部特性、算法收敛速度与稳定,选择相对计算量小的算法,对任务进行合理划分,提高算法对解空间的探索效率,减小算法收敛后的波动,实现任务与计算节点的最优匹配,才能提高系统计算资源的利用率,任务处理的实时性,降低系统开销。
[0003]已有的研究工作,大多数均将任务视为一个整体进行调度这不能有效利用计算资源且计算节点的选择策略中的概率值为固定值这不利于动作空间的有效探索从而造成算法收敛速度慢和不稳定。在使用DQN等计算量较小但适用于离散空间问题算法的工作中必须进行离散化否则将会降低准确度,又离散化处理即取出经验池中部分学习经验进行回放的抽样策略多数为随机抽样这不能有效提高样本效率。由于DQN等算法持续选取与任务适配度值最大的计算节点将会导致“过估计”问题即估计值比实际值偏大。尽管使用DDPG等算法适用于任务调度这类连续问题,但其过大的计算量是计算资源相对有限的边缘计算系统所无法忍受的。

技术实现思路

[0004]本专利技术的目的在于克服上述现有技术中的问题,提供一种基于DQN的自适应边缘计算任务调度方法,该调度方法以任务配置信息和计算节点配置信息为基础,实现任务和计算节点的最优匹配,以充分利用计算资源,提升任务处理的实时性,降低系统开销。
[0005]为达到上述目的,本专利技术采用以下技术方案予以实现:一种基于DQN的自适应边缘计算任务调度方法,包括如下步骤:1)当神经网络的训练步数为指定复制参数步数的倍数,则将DQN中评估网络参数复制到目标网络;当神经网络的训练步数为指定回放经验步数的倍数,则回放经验池中的学习经验且清空经验池;2)获取计算节点配置信息、终端设备配置信息和任务配置信息作为环境状态信
息,正规化后作为深度强化学习神经网络的输入;所述环境状态信息由计算任务数据大小、所需计算资源数、所需存储资源数和所有计算节点可用计算资源数、可用存储资源数信息组成,即:其中,state
i
表示计算任务与第i个计算节点的状态信息;ds,tc,ts分别为计算任务的数据大小、所需计算资源数、所需存储资源数;nc,ns分别为计算节点可用计算资源数、可用存储资源数。
[0006]3)分别获得评估网络和目标网络的输出并结合上一次训练的损失值通过综合性Q值计算方法计算神经网络的最终输出并以此作为任务与计算节点的适配度值;综合性Q值具体计算公式如下:其中,TNet、ENet分别为目标网络和评估网络,OT、OE分别为目标网络和评估网络的输出,Loss为上一次迭代的损失。4)基于自适应动态动作空间探索度调整策略,以神经网络的最终输出和近几次训练的损失值以一定概率为任务选择最大适配度值所对应的计算节点,否则随机选择计算节点;所述自适应动态动作空间探索度调整策略具体如下:其中,rd为随机数生成函数,用于生成[0,1]范围内的随机数;F值为True,则为当前待处理任务选择非最大值对应的卸载动作,为False,则选择最大值对应的卸载动作;3)计算当前所有任务的损失值;具体计算方法如下:其中,output为评估网络的输出,action为动作选择;6)基于损失值利用自适应轻量级回放机制对当前任务进行优先级排序并将优先级最高的学习经验存储到经验池中;7)更新评估网络参数;8)直到满足结束条件。
[0007]进一步的:步骤2)中,以在任务下划分的子任务配置信息和每个计算节点配置信息作为环境状态信息。
[0008]步骤3)中, 所述综合性Q值计算方法中上一次训练的损失值用来衡量评估网络和目标网络在最终输出中占比,神经网络的训练初期将以目标网络的输出为主,随着训练的进行则转为评估网络的输出为主。
[0009]步骤4)中,所述自适应动态动作空间探索度调整策略中对近几次训练的损失值计算平均值并作为计算节点选择概率的设计基础。
[0010]步骤5)中,计算当前所有任务的损失值时采用交叉熵损失函数。
[0011]步骤6)中,所述自适应轻量级回放机制是将基于当前学习经验的损失值进行排
序,又因为损失值小的学习经验容易将神经网络引导向局部最优,损失值大则远离最优解,故将中间部分的学习经验存储至经验池。
[0012]与现有技术相比,本专利技术具有以下有益效果:本专利技术针对边缘计算下任务调度问题,将任务视为由互不相关的子任务组成,以子任务与每个计算节点配置信息作为神经网络输入,基于上次训练中获得的损失值计算神经网络的最终输出,再基于最终输出和近几次训练的损失值为任务进行计算节点的选择,最后根据所有任务的损失值进行优先级排序并将中间部分的学习样本存储至经验池,当满足指定条件时进行参数复制或者经验回放,以实现任务和计算节点的最优匹配,充分利用计算资源,提升任务处理实时性,降低系统开销。
附图说明
[0013]图1为本专利技术的总体框架:图2为本专利技术的处理流程:图3为本专利技术的损失值曲线:图4为DQN的损失值曲线:图5为D3DQN的损失值曲线:图6为损失值曲线的总体对比:图7为本专利技术与多种基准算法的累计能耗对比:图8为本专利技术与多种基准算法的累计加权开销对比。
具体实施方式
[0014]下面结合附图对本专利技术做进一步详细描述。
[0015]参见图1,本专利技术的应用场景可以为:在边缘计算系统中,存在一组位于边缘端的计算节点、一组终端设备和一个决策代理。当代理接收到来自终端设备的任务调度请求时代理通过无线网络收集终端设备提交的任务信息和计算节点信息并进行任务卸载决策,若卸载任务则将任务数据上传至边缘端的计算节点进行处理,并将处理结果返回至终端设备;若本地处理则在终端设备上处理任务。
[0016]参见图2,一种基于DQN的自适应边缘计算任务调度方法包括以下步骤:1)当神经网络的训练步数为指定复制参数步数的倍数,则将DQN中评估网络参数复制到目标网络;当神经网络的训练步数为指定回放经验步数的倍数,则回放经验池中的学习经验且清空经验池。具体的:处理开始时,初始化各项参数;若本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DQN的自适应边缘计算任务调度方法,其特征在于,包括如下步骤:1)当神经网络的训练步数为指定复制参数步数的倍数,则将DQN中评估网络参数复制到目标网络;当神经网络的训练步数为指定回放经验步数的倍数,则回放经验池中的学习经验且清空经验池;2)获取计算节点配置信息、终端设备配置信息和任务配置信息作为环境状态信息,正规化后作为深度强化学习神经网络的输入;所述环境状态信息由计算任务数据大小、所需计算资源数、所需存储资源数和所有计算节点可用计算资源数、可用存储资源数信息组成,即其中,state
i
表示计算任务与第i个计算节点的状态信息;ds,tc,ts分别为计算任务的数据大小、所需计算资源数、所需存储资源数;nc,ns分别为计算节点可用计算资源数、可用存储资源数;3)分别获得评估网络和目标网络的输出并结合上一次训练的损失值通过综合性Q值计算方法计算神经网络的最终输出并以此作为任务与计算节点的适配度值;综合性Q值具体计算公式如下:其中,TNet、ENet分别为目标网络和评估网络,OT、OE分别为目标网络和评估网络的输出,Loss为上一次迭代的损失;4)基于自适应动态动作空间探索度调整策略,以神经网络的最终输出和近几次训练的损失值以一定概率为任务选择最大适配度值所对应的计算节点,否则随机选择计算节点;所述自适应动态动作空间探索度调整策略具体如下:其中,rd为随机数生成函数,用于生成[0,1]范围内的随机数;F值为True,则为当前待处理任务选择非最大值对应的卸载动作,为False,...

【专利技术属性】
技术研发人员:巨涛王志强刘帅火久元张学军
申请(专利权)人:兰州交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1