基于迁移和强化学习的移动边缘计算系统任务调度方法技术方案

技术编号：26170260 阅读：40 留言：0更新日期：2020-10-31 13:36

本发明专利技术针对边缘计算服务器的任务调度问题，提出一种基于迁移和强化学习的移动边缘计算系统任务调度方法，首先为每个服务器构建一个Actor‑Critic网络来训练它的调度策略；其中，Actor网络通过自身状态来决定动作，而Critic网络则根据所有服务器的动作和状态来评价该动作的好坏。所有服务器共享一个Critic网络。在使用多智能体强化学习训练多个边缘服务器调度策略的时候，为每个服务器的调度策略构建相同结构的策略网络。这些策略网络不仅拥有相同的网络层，并且每层的节点数目也相同。使用集中训练分散执行的机制来训练这些策略，以此来避免因为服务器数目过多而引起的维数灾难问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于迁移和强化学习的移动边缘计算系统任务调度方法
本专利技术用于实现移动边缘计算的任务分配调度，属于机器学习与边缘计算领域，具体涉及一种基于迁移和强化学习的移动边缘计算系统任务调度方法。
技术介绍
以智能手机和平板电脑为主的移动设备已经成了人们的必需品。随着移动设备的不断升级，5G和AI技术的不断成熟，人们对移动设备的要求越来越高，用移动设备来进行网络游戏，图像处理和虚拟现实等应用的呼声也日益增多。由于移动设备自身大小的限制，难以依靠独立的处理器实现复杂计算，更何况对于计算密集和资源密集的计算。为了着手解决这一问题，研究人员提出了移动云计算和移动边缘计算(MobileEdgeComputing,MEC)。云计算与边缘计算为独立用户处理复杂计算任务提供了可能。用户通过基站将计算任务传输给相应的边缘服务器，并接受服务器计算得到的结果，这个过程让只拥有移动设备的用户能够实现更多的应用。相比起云计算，边缘计算减少了经过骨干网络的多跳传输。移动边缘计算的理念是在移动云计算的基础上，通过把计算数据中心中的一部分计算任务和资源存储...

【技术保护点】
1.一种基于迁移和强化学习的移动边缘计算系统任务调度方法，其特征在于，包括如下步骤：/n步骤1，为移动边缘计算服务器组构建多智能体强化学习优化目标；/n设定环境中有N个用户，第n个用户的计算任务为R

【技术特征摘要】
1.一种基于迁移和强化学习的移动边缘计算系统任务调度方法，其特征在于，包括如下步骤：
步骤1，为移动边缘计算服务器组构建多智能体强化学习优化目标；
设定环境中有N个用户，第n个用户的计算任务为Rn；
在同一个基站中，有M个服务器被同时部署在不同位置为用户服务，用第m个基站处理Rn的综合延迟和能耗的加权总开销可以表示为：cm,n＝λ1Tm.n+λ2Em,n，其中λ1和λ2是权重因子，Tm.n和Em.n分别是第m个服务器处理第n个任务的延迟和能耗；
在以服务器为学习智能体的该多智能体强化学习模型中，智能体的目的是最小化总消耗：C＝∑mEn～π(m)(cm,n)+∑n∈N′ln，其中π(m)是第m个服务器的部署策略，N′是未获得服务器的用户集合，ln是该用户在本地执行的消耗；
步骤2，建立完整的多智能体强化学习模型；
其中，智能体的状态s为服务器到基站的相对位置，用户的相对位置和任务量；策略π是状态到动作的映射函数；动作a＝π(s)是根据策略π在当前状态s下所执行的任务调度方案；回报函数r与总消耗C负相关；γ为折扣因子，用来平衡当前奖励和延时奖励的关系；α是学习效率，即一个单步更新时的更新程度；
步骤3，构建每个服务器的策略；
用集中的critic网络来估计值函数，分散的actor网络来进行决策；所有服务器共享一个critic网络，在这个网络中，输入是状态s以及所有服务器在当前状态下的动作(a1,a2,...,aM)，输出的是联合动作值Q(s,a1,a2,...,aM)，每个服务器的actor网络则根据状态s输出一个确定性的动作a；
步骤4，建立横向链接；
每个服务器被随机分配一个预训练的策略π′，在actor网络的每个网络层，都与策略π′的actor网络在该层输出的隐藏状态用线性层整合；
在第i层，上一层传递下来的隐藏值为hi-1，而π′的第i-1层输出为h′i-1，线性层处理得到ui-1＝Linear(hi-1,h′i-1)，则actor网络第i层的输出为hi＝f(ui-1；θi)，其中θi是第i层的参数；
步骤5，根据步骤2、3和4构造的训练模型开始训练；
每个时隙，先从环境中得到状态s，然后每个智能体都根据自己的策略网络选择动作，其探索和利用的平衡用ε-greedy算法来实现；
在获得联合动作(a1,a2,...,aM)后执行，环境返回一个reward，并获得下一个状态s′；最后，将经验元组<s,s′,(a1,a2,...,aM),r>存入经验回放池中；
步骤6，策略网络通过采样经验进行更新；
在更新时，预训练的策略π′被冻结，其参数不会改变；集中的Critic网络计算出状态值函数v(s′)，每个Actor网络计算对应的梯度，网络参数和横向链接的线性层通过反向传播更新，Critic网络则根据环境真实反馈的奖励r，用均方误差计算损失函数；
步骤7，通过观察平均回报是否增加来判断训练是否结束，如果没有结束则重复步骤5和6；如果结束则训练完成。

2.根据权利要求1所述的基于迁移和强化学习的移动边缘计算系统任务调度方法，其特征在于：在步骤1和2当中，建立多智能体模拟训练环境，构建环境的回报函数r，其跟总消耗负相关：r＝K·e-C，其中K是可调节系数，将回报函数的值域约束在(0,K)之间；
训练环境时间步设置为T，在连续的T时间内，服务器组要学习合适的任务调度策略来使得最大。

3.根据权利要求2所述的基于迁移和强化学习的移动边缘计算系统任务调度方法，其特征在于：在步骤2当中，服务器的任务调度策略为确定性策略a＝π(s)，因此每个策略π的状态值...

【专利技术属性】
技术研发人员：冷立雄，马占国，宫业国，
申请(专利权)人：航天欧华信息技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人