一种基于深度强化学习的混合资源调度方法技术

技术编号:39595637 阅读:8 留言:0更新日期:2023-12-03 19:53
本发明专利技术公开了一种基于深度强化学习的混合资源调度方法,属于计算机技术领域;该方法包括以下步骤:构建马尔可夫决策过程的数学框架;构建深度强化学习模型;深度强化学习模型包括评价网络和目标网络;对构建的深度强化学习模型进行训练;利用深度强化学习模型获得初始化粒子群;采用分层学习划分粒子群,并计算粒子群的粒子适应值;对粒子群进行更新,位于低层的粒子随机选取高层的粒子作为参考进行速度及位置的更新,从而得到全局最优解即最优的资源调度方案

【技术实现步骤摘要】
一种基于深度强化学习的混合资源调度方法


[0001]本专利技术属于计算机
,具体涉及一种基于深度强化学的混合资源调度方法


技术介绍

[0002]近年来,
5G
技术和物联网行业飞速发展,随之而来的便是移动设备流量的快速增长和向云的海量数据传输以及巨大的计算能力需求

同时,智能移动设备和物联网对延迟

存储资源

计算资源

能耗以及可靠性等多方面都提出了更加严格的要求

此时,作为网络架构的新概念和云计算向边缘网络的扩展,移动边缘计算应运而生,它将计算和存储资源推向移动设备附近,并在分布式移动边缘服务器中部署应用程序,为移动设备提供各种计算密集型和时间关键型应用程序服务,移动设备能将计算任务卸载到临近的边缘服务器上进行处理,服务器再将计算结果返回给移动设备,这不仅有效的解决了移动设备计算资源不足的问题,也满足了设备对延迟的要求

[0003]为降低数据传输造成的时延,
Vijayasekaran
等针对物联网设备到云数据中心的远距离传输造成的延迟等问题,引入了边缘计算的概念并实现了混合数据的聚类设计了一种基于深度学习的资源调度算法,它与传统的云物联网系统相比具有更低的延迟和更高的效率

除缩短时延,提升用户体验以外,降低能耗也是资源调度的主要目标

边缘计算相较于云计算更节省能源因为计算单元更靠近用户设备,将数据传输到服务器相关的消耗也大大减少

此外,边缘服务器不需要强大的冷却系统

尽管如此,单靠边缘计算无法解决计算任务造成的过度能源消耗,只有通过仔细管理可用能源和计算资源,随着时间的推移,将工作量转移到更节能的计算单元,达到降低能耗的效果
。Xu
等研究了边缘计算环境下不确定性工作流调度的动态资源配置,提出了一种基于软件定义网络的边缘计算框架和一种动态资源配置方法,它不仅解决了不确定性问题,也降低了能耗,缩短了完工时间

[0004]深度强化学习巧妙的结合了深度学习的感知能力以及强化学习的决策能力,利用深度神经网络促进强化学习中智能体的学习,能有效解决复杂的决策问题

因此深度强化学习被广泛应用于资源调度中
。Wang
等提出了一种智能的基于深度强化学习的资源分配方案,该方案能自适应地分配计算资源和网络资源,减少平均服务时间并在不同的移动边缘环境中平衡资源的使用,缓解了复杂多变的边缘计算环境给服务器带来的巨大压力

[0005]但是在实际应用中,不同的边缘服务器具有不同的计算能力

任务通常由许多具有依赖性约束的子任务组成,这些子任务可以在不同的边缘服务器上执行

子任务的并行性和依赖性可以减少任务执行时间,但代价是增加了资源调度的难度

与此同时,移动设备的不同需求

请求生成区域的不同情况以及总体请求的变化量会导致边缘计算环境的不稳定性

突发请求量和多变的移动边缘计算环境也会给边缘计算服务器带来突然增加的计算负载以及它们之间的严重负载不平衡,某些区域的边缘网络链路也会变得拥塞

因此,如何有效的降低边缘服务器能耗,提高边缘服务器资源利用效率和服务器运算性能

减少能源消耗是资源调度算法中研究重点


技术实现思路

[0006]本专利技术的目的在于提供一种基于深度强化学习的混合资源调度方法,以解决上述
技术介绍
中提出的问题

[0007]本专利技术目的是这样实现的:一种基于深度强化学习的混合资源调度方法,其特征在于:该方法包括以下步骤:
[0008]步骤
S1
:构建马尔可夫决策过程的数学框架;马尔可夫决策过程用于解决资源调度的资源顺序分配;
[0009]步骤
S2
:构建深度强化学习模型;
[0010]所述深度强化学习模型包括评价网络和目标网络,评价网络用于评估计算当前状态动作下的
Q
值,目标网络用于产生目标
Q
值;
[0011]步骤
S3
:对构建的深度强化学习模型进行训练;
[0012]步骤
S4
:利用深度强化学习模型获得初始化粒子群;将深度强化学习模型得到的资源调度方案作为粒子群算法的初始粒子群;
[0013]步骤
S5
:采用分层学习划分粒子群,并计算粒子群的粒子适应值;
[0014]步骤
S6
:对粒子群进行更新,位于低层的粒子随机选取高层的粒子作为参考进行速度及位置的更新,从而得到全局最优解即最优的资源调度方案

[0015]优选的,所述步骤
S1
中构建马尔可夫决策过程的数学框架具体操作如下:
[0016]采用五元组
<S

A

r

P

γ
>
来构建尔可夫决策过程的数学框架;其中
S
是状态集
、A
是动作集
、P
是状态转移概率矩阵,
r
是奖励函数

γ
是折扣因子;
[0017]所述状态集
S
的状态描述包含移动设备向边缘服务器传输数据的能耗
E
T

边缘服务器的计算能耗
E
C
以及任务在服务器上的计算时间
TC

[0018]所述动作
A
表示为任务分配服务器资源,
r
是即时奖励表示执行当前动作获得的奖励,
P

(s
t+1
|s
t

a
t
)
表示在状态
s
t
经过动作
a
t
转移到状态
s
t+1
的概率,
γ
∈(0

1)
表示未来奖励的权重

[0019]优选的,所述深度强化学习模型根据奖励函数
r
选择最优的行动和策略,奖励函数
r
反应我们需要达到的总目标;
[0020]r

/
α1E
T
+
α2E
C
+
α3TC
[0021]其中,
α1+
α2+
α3=1,表示各因素所占的权重;
E
T
表示最小化边缘服务器传输数据的能耗,
E
...

【技术保护点】

【技术特征摘要】
1.
一种基于深度强化学习的混合资源调度方法,其特征在于:该方法包括以下步骤:步骤
S1
:构建马尔可夫决策过程的数学框架;马尔可夫决策过程用于解决资源调度的资源顺序分配;步骤
S2
:构建深度强化学习模型;所述深度强化学习模型包括评价网络和目标网络,评价网络用于评估计算当前状态动作下的
Q
值,目标网络用于产生目标
Q
值;步骤
S3
:对构建的深度强化学习模型进行训练;步骤
S4
:利用深度强化学习模型获得初始化粒子群;将深度强化学习模型得到的资源调度方案作为粒子群算法的初始粒子群;步骤
S5
:采用分层学习划分粒子群,并计算粒子群的粒子适应值;步骤
S6
:对粒子群进行更新,位于低层的粒子随机选取高层的粒子作为参考进行速度及位置的更新,从而得到全局最优解即最优的资源调度方案
。2.
根据权利要求1所述的一种基于深度强化学习的混合资源调度方法,其特征在于:所述步骤
S1
中构建马尔可夫决策过程的数学框架具体操作如下:采用五元组
<S

A

r

P

γ
>
来构建尔可夫决策过程的数学框架;其中
S
是状态集
、A
是动作集
、P
是状态转移概率矩阵,
r
是奖励函数

γ
是折扣因子;所述状态集
S
的状态描述包含移动设备向边缘服务器传输数据的能耗
E
T

边缘服务器的计算能耗
E
C
以及任务在服务器上的计算时间
TC
;所述动作集
A
表示为任务分配服务器资源,
r
是即时奖励表示执行当前动作获得的奖励,
P

(s
t+1
|s
t

a
t
)
表示在状态
s
t
经过动作
a
t
转移到状态
s
t+1
的概率,
γ
∈(0

1)
表示未来奖励的权重
。3.
根据权利要求2所述的一种基于深度强化学习的混合资源调度方法,其特征在于:所述深度强化学习模型根据奖励函数
r
选择最优的行动和策略,奖励函数
r
反应我们需要达到的总目标;
r

1/
α1E
T
+
α2E
C
+
α3TC
其中,
α1+
α2+
α3=1,表示各因素所占的权重;
E
T
表示最小化边缘服务器传输数据的能耗,
E
C
边缘服务器的计算能耗,任务在服务器上的计算时间
TC
;边缘服务器传输数据的能耗
E
T

边缘服务器的计算能耗
E
C
以及任务在服务器上的计算时间
TC
作为奖励函数考虑的主要因素
。4.
根据权利要求2所述的一种基于深度强化学习的混合资源调度方法,其特征在于:所述状态集
S

{E
T

E
C

TC}
;其中,
j∈[1

M]

task
i
∈[1

N]

M
是边缘服务器总数,
N
是所需处理的任务总数,表示移动设备传输任务
task
i
的数据到边缘服务器
j
的过程中的所产生数据传输能耗,表示边缘服务器
j
的数据传输功率,

【专利技术属性】
技术研发人员:季一木黄昕刘尚东邱华杰梁伟孙朕张骋
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1