【技术实现步骤摘要】
一种基于深度强化学习的混合资源调度方法
[0001]本专利技术属于计算机
,具体涉及一种基于深度强化学的混合资源调度方法
。
技术介绍
[0002]近年来,
5G
技术和物联网行业飞速发展,随之而来的便是移动设备流量的快速增长和向云的海量数据传输以及巨大的计算能力需求
。
同时,智能移动设备和物联网对延迟
、
存储资源
、
计算资源
、
能耗以及可靠性等多方面都提出了更加严格的要求
。
此时,作为网络架构的新概念和云计算向边缘网络的扩展,移动边缘计算应运而生,它将计算和存储资源推向移动设备附近,并在分布式移动边缘服务器中部署应用程序,为移动设备提供各种计算密集型和时间关键型应用程序服务,移动设备能将计算任务卸载到临近的边缘服务器上进行处理,服务器再将计算结果返回给移动设备,这不仅有效的解决了移动设备计算资源不足的问题,也满足了设备对延迟的要求
。
[0003]为降低数据传输造成的时延,
Vijayasekaran
等针对物联网设备到云数据中心的远距离传输造成的延迟等问题,引入了边缘计算的概念并实现了混合数据的聚类设计了一种基于深度学习的资源调度算法,它与传统的云物联网系统相比具有更低的延迟和更高的效率
。
除缩短时延,提升用户体验以外,降低能耗也是资源调度的主要目标
。
边缘计算相较于云计算更节省能源因为计算单元更靠近用户设备,将数据传输到服务器
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于深度强化学习的混合资源调度方法,其特征在于:该方法包括以下步骤:步骤
S1
:构建马尔可夫决策过程的数学框架;马尔可夫决策过程用于解决资源调度的资源顺序分配;步骤
S2
:构建深度强化学习模型;所述深度强化学习模型包括评价网络和目标网络,评价网络用于评估计算当前状态动作下的
Q
值,目标网络用于产生目标
Q
值;步骤
S3
:对构建的深度强化学习模型进行训练;步骤
S4
:利用深度强化学习模型获得初始化粒子群;将深度强化学习模型得到的资源调度方案作为粒子群算法的初始粒子群;步骤
S5
:采用分层学习划分粒子群,并计算粒子群的粒子适应值;步骤
S6
:对粒子群进行更新,位于低层的粒子随机选取高层的粒子作为参考进行速度及位置的更新,从而得到全局最优解即最优的资源调度方案
。2.
根据权利要求1所述的一种基于深度强化学习的混合资源调度方法,其特征在于:所述步骤
S1
中构建马尔可夫决策过程的数学框架具体操作如下:采用五元组
<S
,
A
,
r
,
P
,
γ
>
来构建尔可夫决策过程的数学框架;其中
S
是状态集
、A
是动作集
、P
是状态转移概率矩阵,
r
是奖励函数
、
γ
是折扣因子;所述状态集
S
的状态描述包含移动设备向边缘服务器传输数据的能耗
E
T
、
边缘服务器的计算能耗
E
C
以及任务在服务器上的计算时间
TC
;所述动作集
A
表示为任务分配服务器资源,
r
是即时奖励表示执行当前动作获得的奖励,
P
=
(s
t+1
|s
t
,
a
t
)
表示在状态
s
t
经过动作
a
t
转移到状态
s
t+1
的概率,
γ
∈(0
,
1)
表示未来奖励的权重
。3.
根据权利要求2所述的一种基于深度强化学习的混合资源调度方法,其特征在于:所述深度强化学习模型根据奖励函数
r
选择最优的行动和策略,奖励函数
r
反应我们需要达到的总目标;
r
=
1/
α1E
T
+
α2E
C
+
α3TC
其中,
α1+
α2+
α3=1,表示各因素所占的权重;
E
T
表示最小化边缘服务器传输数据的能耗,
E
C
边缘服务器的计算能耗,任务在服务器上的计算时间
TC
;边缘服务器传输数据的能耗
E
T
、
边缘服务器的计算能耗
E
C
以及任务在服务器上的计算时间
TC
作为奖励函数考虑的主要因素
。4.
根据权利要求2所述的一种基于深度强化学习的混合资源调度方法,其特征在于:所述状态集
S
=
{E
T
,
E
C
,
TC}
;其中,
j∈[1
,
M]
,
task
i
∈[1
,
N]
,
M
是边缘服务器总数,
N
是所需处理的任务总数,表示移动设备传输任务
task
i
的数据到边缘服务器
j
的过程中的所产生数据传输能耗,表示边缘服务器
j
的数据传输功率,
技术研发人员:季一木,黄昕,刘尚东,邱华杰,梁伟,孙朕,张骋,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。