基于深度强化学习的边缘云下任务调度方法及系统技术方案

技术编号:39262715 阅读:19 留言:0更新日期:2023-10-30 12:15
本发明专利技术公开了基于深度强化学习的边缘云下任务调度方法及系统,属于深度强化学习技术领域,要解决的技术问题为现有任务调度中平均响应时间长、能源消耗高和成本高。包括如下步骤:将边缘节点接收的任务请求存储于任务队列中,并将任务请求推送至其他边缘节点;通过边缘节点内状态监视器采集任务请求和虚拟机的状态信息作为环境状态;在边缘节点的任务调度器中配置有预训练后的调度决策模型,包括结构相同的主网络和目标网络,主网络用于以当前时刻的环境状态为输入,预测输出动作并返回环境,目标网络用于基于当前时刻的环境状态、动作、动作奖励以及下一刻的环境状态进行对主网络进行参数优化;边缘节点通过任务调度器对任务队列中任务请求处理。务队列中任务请求处理。务队列中任务请求处理。

【技术实现步骤摘要】
基于深度强化学习的边缘云下任务调度方法及系统


[0001]本专利技术涉及深度强化学习
,具体地说是基于深度强化学习的边缘云下任务调度方法及系统。

技术介绍

[0002]物联网(IoT)和5G技术的快速发展催生了计算密集型应用,如增强现实、人脸识别和自动驾驶。这些应用程序产生大量数据,并在延迟和计算处理能力方面提出了重大要求。然而,终端设备有限的资源导致其在处理大规模应用程序时出现瓶颈,以及在提供持久电源方面存在挑战。
[0003]用边缘计算处理边缘设备上的大量数据,有助于节省数据传输带宽,减少传输延迟,并最小化能源消耗。此外,它还可以保护用户数据隐私,防止敏感信息的泄露。通过将服务请求从集中的云计算中心转移到分散的边缘设备上进行处理,既减少响应时间也提高可靠性。此外,将边缘云部署在终端用户附近的小型服务器集群,能够实现在网络边缘执行资源密集型的应用程序。
[0004]任务卸载是边缘计算的关键优势之一,有效地降低了设备的能耗。在物联网的背景下,执行任务卸载需要有效的任务调度以优化资源利用率、减少延迟和节约能源。然而,由于到达任务的不同状态、类型和大小等因素,再加上边缘计算资源的异构性,位置的分散性,以及不同应用程序的性能、稳定性和成本要求的多样性,边缘计算中的高效任务调度具有挑战性。
[0005]现有的关于边缘云中任务调度的研究通常采用传统的策略,如启发式策略和随机策略。虽然这些策略已经被广泛采用,但它们可能不能保证所需的服务质量,特别是在任务响应时间至关重要的动态边缘计算环境中。一些研究已经探索了机器学习算法的应用,但也可能存在一些局限性,如缺乏对能源消耗和成本的同时优化。
[0006]如何解决现有任务调度中平均响应时间长、能源消耗高和成本高的问题,是需要解决的技术问题。

技术实现思路

[0007]本专利技术的技术任务是针对以上不足,提供基于深度强化学习的边缘云下任务调度方法及系统,来解决现有任务调度中平均响应时间长、能源消耗高和成本高的技术问题。
[0008]第一方面,本专利技术一种基于深度强化学习的边缘云下任务调度方法,包括如下步骤:
[0009]对于边缘云内每个边缘节点,将边缘节点接收的任务请求存储于任务队列中,并将任务请求推送至其他边缘节点,每个边缘节点均获得全局的任务请求;
[0010]对于边缘云内每个边缘节点,通过边缘节点内状态监视器采集任务请求和虚拟机的状态信息作为环境状态;
[0011]对于边缘云内每个边缘节点,在边缘节点的任务调度器中配置有预训练后的调度
决策模型,所述调度决策模型为基于DQN网络构建的网络模型,包括结构相同的主网络和目标网络,主网络用于以当前时刻的环境状态为输入,预测输出动作,并将动作返回环境,目标网络用于基于当前时刻的环境状态、动作、动作奖励以及下一刻的环境状态进行对主网络进行参数优化;
[0012]边缘节点通过任务调度器对任务队列中任务请求进行如下处理:
[0013]动作评估:以当前时刻的环境状态为输入,通过主网络预测输出每个虚拟机执行动作的Q值,并基于Q值选取一个动作,将动作发送至对应虚拟机并返回环境,从环境获取当前时刻对应的环境状态、动作和奖励以及下一时刻的环境状态作为四元的样本数据,将样本数据存储至经验回放池;
[0014]参数优化:从经验回放池获取样本数据,以下一时刻的环境状态为输入,通过目标网络预测每个虚拟机执行动作的Q值,并选取一个Q值作为输出,基于主网络预测的Q值和目标网络预测的Q值构建损失函数,基于损失函数对主网络进行参数优化,在参数优化过程中,当迭代次数得到预定步长时,周期性的将主网络的网络参数复制至目标网络,直至主网络的网络参数变化值小于阈值。
[0015]作为优选,动作评估过程中,通过主网络预测输出每个虚拟机执行动作的Q值,并基于Q值选取一个动作,包括如步骤:
[0016]以t时刻的环境状态s
t
为输入,通过评估网络预测输出每个虚机执行任务调度的Q值,虚拟执行任务调度作为动作;
[0017]通过softmax回归方法将Q值转换为概率分布,概率分布表示为:
[0018][0019]去掉概率小于阈值的Q值,并对剩余概率进行归一化,计算公式如下:
[0020][0021]对于归一化后剩余概率,将所有Q值的概率之和转换为1,计算公式如下:
[0022][0023]根据概率分布选择概率值最大的动作输出,并通过Bellman公式更新状态

动作对的Q值,计算公式如下:
[0024]Q(s
t
,a
t
)

Q(s
t
,a
t
)+α[r
t
+γmax
a
Q(s
t+1
,a
t
)

Q(s
t
,a
t
)][0025]其中,α表示学习率,γ表示学习因子,范围为0到1;
[0026]s
t
=s
r
+s
x
,其中,s
r
表示任务请求的状态,包括任务所需的CPU周期和任务所消耗的数据量,s
x
表示每个边缘节点中虚拟机的状态,包括虚拟机上剩余的CPU周期和CPU周期频率;
[0027]a
t
表示t时刻状态对应的动作;V表示所有动作总数,P表示概率小于阈值的Q值后剩余的动作总数,Q
max
表示最大Q值,Q
min
表示最小Q值。
[0028]作为优选,参数优化时,包括如下步骤:
[0029]L100、设定步长N;
[0030]L200、t时刻对应的环境状态、动作和动作奖励以及t+1时刻对应的环境状态作为样本数据存放至经验回放池后,从经验回放池读取样本数据,以t+1时刻对应的环境状态为输入,通过目标网络预测每个虚拟机执行任务调度的Q值,并选取最大Q值作为目标网络的输出;
[0031]L300、将Q(s
t
,a
t
,θ)作为主网络对应的值函数,将Q

(s
t+1
,a;θ

)作为目标网络对应的值函数,基于Q(s
t
,a
t
,θ)和Q

(s
t+1
,a;θ

/构造损失函数,损失函数表示为:
[0032]L(θ)=E[(r
t+
γmax
a
Q

(s
t+1
,a;θ

)

Q(s
t
,a;θ))2][0033]其中,θ表示评估网络的网络参数,θ

表示目标网络的网络参数;
[0034]L40本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的边缘云下任务调度方法,其特征在于,包括如下步骤:对于边缘云内每个边缘节点,将边缘节点接收的任务请求存储于任务队列中,并将任务请求推送至其他边缘节点,每个边缘节点均获得全局的任务请求;对于边缘云内每个边缘节点,通过边缘节点内状态监视器采集任务请求和虚拟机的状态信息作为环境状态;对于边缘云内每个边缘节点,在边缘节点的任务调度器中配置有预训练后的调度决策模型,所述调度决策模型为基于DQN网络构建的网络模型,包括结构相同的主网络和目标网络,主网络用于以当前时刻的环境状态为输入,预测输出动作,并将动作返回环境,目标网络用于基于当前时刻的环境状态、动作、动作奖励以及下一刻的环境状态进行对主网络进行参数优化;边缘节点通过任务调度器对任务队列中任务请求进行如下处理:动作评估:以当前时刻的环境状态为输入,通过主网络预测输出每个虚拟机执行动作的Q值,并基于Q值选取一个动作,将动作发送至对应虚拟机并返回环境,从环境获取当前时刻对应的环境状态、动作和奖励以及下一时刻的环境状态作为四元的样本数据,将样本数据存储至经验回放池;参数优化:从经验回放池获取样本数据,以下一时刻的环境状态为输入,通过目标网络预测每个虚拟机执行动作的Q值,并选取一个Q值作为输出,基于主网络预测的Q值和目标网络预测的Q值构建损失函数,基于损失函数对主网络进行参数优化,在参数优化过程中,当迭代次数得到预定步长时,周期性的将主网络的网络参数复制至目标网络,直至主网络的网络参数变化值小于阈值。2.根据权利要求1所述的基于深度强化学习的边缘云下任务调度方法,其特征在于,动作评估过程中,通过主网络预测输出每个虚拟机执行动作的Q值,并基于Q值选取一个动作,包括如步骤:以t时刻的环境状态s
t
为输入,通过评估网络预测输出每个虚机执行任务调度的Q值,虚拟执行任务调度作为动作;通过softmax回归方法将Q值转换为概率分布,概率分布表示为:去掉概率小于阈值的Q值,并对剩余概率进行归一化,计算公式如下:对于归一化后剩余概率,将所有Q值的概率之和转换为1,计算公式如下:根据概率分布选择概率值最大的动作输出,并通过Bellman公式更新状态

动作对的Q值,计算公式如下:Q(s
t
,a
t
)

Q(s
t
,a
t
)+α[r
t
+γmax
a
Q(s
t+1
,a
t
)

Q(s
t
,a
t
)]
其中,α表示学习率,γ表示学习因子,范围为0到1;s
t
=s
r
+s
x
,其中,s
r
表示任务请求的状态,包括任务所需的CPU周期和任务所消耗的数据量,s
x
表示每个边缘节点中虚拟机的状态,包括虚拟机上剩余的CPU周期和CPU周期频率;a
t
表示t时刻状态对应的动作;V表示所有动作总数,P表示概率小于阈值的Q值后剩余的动作总数,Q
max
表示最大Q值,Q
min
表示最小Q值。3.根据权利要求2所述的基于深度强化学习的边缘云下任务调度方法,其特征在于,参数优化时,包括如下步骤:L100、设定步长N;L200、t时刻对应的环境状态、动作和动作奖励以及t+1时刻对应的环境状态作为样本数据存放至经验回放池后,从经验回放池读取样本数据,以t+1时刻对应的环境状态为输入,通过目标网络预测每个虚拟机执行任务调度的Q值,并选取最大Q值作为目标网络的输出;L300、将Q(s
t
,a
t
,θ)作为主网络对应的值函数,将Q

(s
t+1
,a;θ

)作为目标网络对应的值函数,基于Q(s
t
,a
t
,θ)和Q

(s
t+1
,a;θ

)构造损失函数,损失函数表示为:L(θ)=E[(r
t+
γmax
a
Q

(s
t+1
,a;θ

)

Q(s
t
,a;θ))2]其中,θ表示评估网络的网络参数,θ

表示目标网络的网络参数;L400、基于损失函数、通过梯度下降方法更新评估网络的网络参数,公式如下:L500、执行步骤L200

L400进行多次迭代,当迭代次数达到步长N时,将评估网络的网络参数复制到目标网络的网络参数θ

中,基于优化的目标网络,执行步骤L200

L500进行多次迭代,直至评估网络的网络参数变化小于阈值。4.根据权利要求2所述的基于深度强化学习的边缘云下任务调度方法,其特征在于,所述主网络和目标网络均包括卷积层和全连接层,所述卷积层共两层,两次卷积层配合用于以环境状态为输入,提取特征,所述全连接层共两层;两层全连接层配合,用于以特征为输入、计算每个虚拟机执行任务调度的Q值,并以向量的形式输出。5.一种基于深强化度学习的边缘云下任务调度系统,其特征在于,用于通过如权利要求1

4任一项所述的一种基于深度强化学习的边缘云下任务调度方法进行任务调度,所述系统应用于边缘云,边缘云中配置有多个边缘节点,每个边缘...

【专利技术属性】
技术研发人员:寻梦姚艳禹继国
申请(专利权)人:曲阜师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1