【技术实现步骤摘要】
面向异质任务泛化的边缘缓存调度、任务卸载方法和系统
[0001]本专利技术涉及边缘计算技术和强化学习领域,尤其涉及一种面向异质任务泛化的边缘缓存调度、任务卸载方法和系统。
技术介绍
[0002]近年来,随着5G时代的到来和互联网设备的普及,万物互联的概念逐渐走进人们的生活,推动了大量时延敏感型的移动应用,如增强现实、实时导航以及自动驾驶等。虽然云技术逐渐成熟,但是随着移动设备的指数性增长,单纯依靠中央云服务器来控制广域网存在时延难以保证的瓶颈,从而难以保证时延敏感型应用的服务质量。因此,移动边缘计算应运而生,成为目前解决上述问题的一种可靠方案。移动边缘计算允许终端用户将自身产生的计算密集型和时延敏感型的计算任务卸载到边缘设备处执行,能大幅减少响应终端用户请求的网络时延,以及服务器资源的损耗,进而能很好地提升终端用户的体验质量。
[0003]边缘网络由M个同构的MEC(Mobile Edge Computing,移动边缘计算)设备构成,每个MEC设备配置一个服务器,每个MEC设备直接或间接与远端云服务器连接,远端云服务 ...
【技术保护点】
【技术特征摘要】
1.一种面向异质任务泛化的边缘缓存调度方法,其特征在于,适用于全连接边缘网络,全连接边缘网络指的是:边缘网络中任一MEC设备与其余所有MEC设备均协作缓存;所述边缘缓存调度方法包括以下步骤:S1、针对多边缘协作场景下服务缓存和计算任务卸载的联合优化需求,设置所述联合优化需求与强化学习两者之间的映射关系问题,建立该问题的Markov模型,将MEC设备作为智能体,设置每个智能体的状态、动作及奖励;S2、构建与各智能体对应的决策模型,决策模型基于神经网络构建,并结合奖励进行训练;决策模型的输入为对应的智能体在任一时隙上的状态,其输出为智能体的动作;S3、将同一时隙上各智能体的状态输入对应的决策模型,以获取各智能体的动作;决策模型的获取包括以下步骤:选取神经网络模型作为基础模型,基础模型与各智能体一一对应,且所有基础模型共用一个经验池;各基础模型从对应的智能体角度随机学习共用的经验池中的经验池样本以迭代参数,其中不同智能体关联的终端用户的服务请求服从不同分布;当各基础模型的参数迭代均达到设定的第一迭代条件,则对各基础模型的参数求平均值作为初始化参数,即δ
’
(m,
¢
)=[δ(1,
¢
)+δ(2,
¢
)+
…
+δ(m,
¢
)+
…
+δ(m
max
,
¢
)]/m
max
,1≦
¢
≦
č
;其中,
č
表示基础模型的参数总数量,m
max
表示智能体总数量,δ(m,
¢
)表示智能体m对应的基础模型的第
¢
个参数,δ
’
(m,
¢
)表示智能体m对应的初始化模型的第
¢
个参数;将初始化参数代入各基础模型以生成与各智能体对应的初始化模型,各初始化模型设有对应的经验池,各初始化模型从对应的智能体角度学习对应的经验池中的经验池样本以迭代参数,其中不同智能体关联的终端用户的服务请求均服从同一分布;直至初始化模型的参数迭代均达到设定的第二迭代条件,则固定初始化模型参数以获取决策模型。2.如权利要求1所述的面向异质任务泛化的边缘缓存调度方法,其特征在于,上述S1中,智能体m在时隙t的状态定义为:S(m,t)={P(m,t
‑
1),S(m,t
‑
1),R(m,t
‑
1),O(m,t
‑
1),C(m,t
‑
1),L(m,t
‑
1)}其中,t≥2,P(m,t
‑
1)表示智能体m在时隙t
‑
1时缓存的服务集合,S(m,t
‑
1)表示时隙t
‑
1时智能体m接收到的任务对应的服务集合,R(m,t
‑
1)表示时隙t
‑
1时智能体m选择加入缓存的服务集合,R(m,2
‑
1)全部元素记为0,O(m,t
‑
1)表示时隙t
‑
1时智能体m迁移到另一个智能体的任务对应的服务集合,C(m,t
‑
1)表示时隙t
‑
1时智能体m迁移到远端云服务器的任务对应的服务集合,L(m,t
‑
1)表示时隙t
‑
1时智能体m的负载情况;所述任务均为计算型任务;令智能体根据计算资源实际分配情况分为高负载设备和低负载设备两类;若智能体的任一个本地缓存命中任务不满足执行时延限制,则该智能体为高负载设备;反之,该智能体为低负载设备;所述本地缓存命中任务指的是智能体关联的终端用户请求的任务且智能体本地缓存有该任务对应的服务;若智能体m为高负载设备则L(m,t
‑
1)为1,若智能体m为低负载设备则L(m,t
‑
1)为0;智能体m在时隙t的动作定义为:A(m,t)={se(m,t,in),se(m,t,out)}其中se(m,t,in)为智能体m在时隙t决策加入缓存的服务集合,se(m,t,out)为智能体m在时隙t决策从缓存中移出的服务集合,se(m,t,in)和se(m,t,out)满足约束条件:
其中sto(s)表示服务s所占的缓存空间大小,se(m,t,to)为智能体m在时隙t开始时缓存的全部服务集合,S(m,max)表示智能体m的最大服务缓存容量;所述奖励根据决策模型的优化目标设置,所述优化目标为在任务执行时延限制条件下最小化任务整体执行时延,记作:其中,D
u
表示任务Task(u)的执行时延,u表示上传任务Task(u)的终端用户,M表示智能体集合,M包含全连接边缘网络中所有的智能体;U表示任务集合,U包含同一时隙上各智能体关联的终端用户请求的所有任务;任务的分配满足以下约束:其中,P(m,s,t)表示二进制数,智能体m在时隙t上缓存了服务s,则P(m,s,t)为1,反之为0;sto(s)为服务s占用缓存空间大小,S表示服务集合;S(m,max)表示智能体m缓存空间大小,C(m,u)表示智能体m给任务Task(u)分配的计算量,π(m,exe)表示本地执行任务集合;C(m,max)表示智能体m的最大计算量。3.如权利要求2所述的面向异质任务泛化的边缘缓存调度方法,其特征在于,智能体m在时隙的奖励Re(m,t)设置为:其中,U(m)表示智能体m关联的终端用户集合,D
u
表示任务Task(u)的执行时延;l(u)表示任务Task(u)的执行时延限制。4.如权利要求2所述的面向异质任务泛化的边缘缓存调度方法,其特征在于,所述决策模型的获得,包括以下步骤:SD1、构建Actor
‑
Critic神经网络作为基础模型,其包括Online
‑
Actor网络、Online
‑
Critic网络、Target
‑
Actor网络和Target
‑
Critic网络;基础模型与智能体数量相等并一一对应,且所有基础模型共用同一个经验池;通过以下步骤SD2
‑
SD5对各基础模型进行参数更新;SD2、获取任意智能体的状态S(t),将状态S(t)输入Online
‑
Actor网络,Online
‑
Actor网络输出各动作打分,选取打分最高动作作为智能体的决策动作A(t);智能体执行决策动作A(t)后的状态记作下一个状态S(t+1);结合下一个状态S(t+1)执行任务卸载位置的分配,并根据任务卸载位置的分配结果计算奖励Re(t);构建经验池样本{S(t),A(t),Re(t),S
(t+1)};SD3、设置轮询,一个轮询包含n个时隙;每个时隙均产生各个智能体对应的经验池样本;SD4、时隙数每达到n的倍数,则进行一次参数更新,即每个轮询进行一次基础模型参数更新,更新方法为:首先从经验池中随机选择一个经验池样本,将S(t)和A(t)输入Online
‑
Critic网络获得评价值Q;将S(t+1)输入Target
‑
Actor网络,Target
‑
Actor网络输出各动作打分,选取打分最高动作作为智能体的下一个决策动作A(t+1);将S(t+1)和A(t+1)输入Target
‑
Critic网络获得评价值Q
’
;将
‑
Q作为损失对Online
‑
Actor网络的参数进行梯度更新,将|Q
‑
Q
’
|2作为损失对Online
‑
Critic网络的参数进行梯度更新,对Target
‑
Actor网络和Target
‑
Critic网络进行滑动更新;SD5、设第一迭代条件为轮询数量达到设定数量;当轮询数量达到设定数量,则对各基础模型的参数求平均值作为初始化参数;将初始化参数代入各基础模型以生成与各智能体对应的初始化模型;通过以下步骤SD6
‑
SD8对初始化模型进行网络更新;SD6、获取智能体m的状态S(m,t),将状态S(m,t)输入智能体m对应的初始化模型的Online
‑
Actor网络,Online
‑
Actor网络输出各动作打分,选取打分最高动作作为智能体m...
【专利技术属性】
技术研发人员:魏振春,赵阳,吕增威,张本宏,石雷,樊玉琦,
申请(专利权)人:合肥工业大学智能制造技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。