当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于多智能体辅助边缘云服务器的任务调度方法技术

技术编号:39289881 阅读:10 留言:0更新日期:2023-11-07 10:59
本发明专利技术公开了一种基于多智能体辅助边缘云服务器的任务调度方法,包括描述多智能体辅助MEC系统场景,构造用户、服务器、与多智能体的任务调度问题;建立多智能体马尔可夫模型,重新构造任务调度问题;通过TD3算法进行集中训练处理,同时采用Attention机制,构造改进的多智能体TD3算法;采用改进的多智能体TD3算法、处理后的多智能体进行重新训练,使得每个智能体得到一个全局最优策略模型;通过每个智能体独立的执行最优策略,完成系统的调度任务;本发明专利技术方法有效的减少用户任务的计算时延,减轻边缘云服务器的负担,大大提高用户的体验质量,并且能够更有效的处理用户移动的问题。题。题。

【技术实现步骤摘要】
一种基于多智能体辅助边缘云服务器的任务调度方法


[0001]本专利技术属于深度强化学习以及边缘计算的交叉
,具体涉及一种基于多智能体辅助边缘云服务器的任务调度方法。

技术介绍

[0002]近年来,以智能手机为代表的智能移动终端被广泛普及,直接推动了数字生活的繁荣,随之而来的是海量的用户需求,其中包括了大量的计算密集型任务以及对延迟敏感的任务,这些任务会给计算能力有限的用户设备带来巨大的压力,可能无法满足用户需求。
[0003]为了解决上述问题,开始引入多址边缘计算MEC技术,用于移动网络环境中的数据计算和通信,用户无需将任务经过层层路由转发到具体的应用服务器上,而是直接发送给就近的接入点,如WIFI接入点或者蜂窝基站,在接入点上部署通用服务器,及时快捷地处理用户的任务、满足用户需求,从而达到延迟低,响应快的效果,大大提高了用户的体验质量。
[0004]然而,处于热点地区时,大量的用户同时进行计算密集型任务请求,可能会使MEC服务器无法满足需求,也无法保证提供给用户的服务质量;同时,由于地理环境等因素,MEC服务器的部署可能会较为稀疏,也无法达到预期要求。
[0005]进而引入移动多智能体作为辅助MEC系统的“移动MEC服务器”,具有高灵活性和覆盖范围广等特点的移动多智能体,可以弥补MEC服务器的不足;近年来关于移动多智能体辅助MEC系统的研究已经得到很多成果,如无人机方向,但大多数研究都是在单架无人机的场景下进行任务卸载或者都是基于固定移动终端的场景,但在实际中的用户可能具有高移动性,同时,单架无人机计算能力有限,无法满足需求,所以需要引入多架无人机。
[0006]需要同时考虑用户的移动性和多架无人机的移动性,以及多架无人机之间的协同配合,包括联合运动轨迹、计算任务卸载和能量消耗等问题,在实际使用中,多架无人机需要能够根据实际的环境(包括用户位置,用户数量)变化做出决策,以达到系统成本最少,同时满足用户的需求。
[0007]现在已有一些研究期望使用强化学习的方法来解决上述问题,但是当移动多智能体的数量或者移动用户的数量很大时,智能体的状态空间和行动空间是成指数增长的,导致收敛效率较差。
[0008]深度强化学习是一种end

to

end的感知和控制系统,在每个时刻t,智能体和环境进行交互得到一个观察,并利用深度学习的方法来感知观察,得到具体的状态特征;然后基于预期的回报评价智能体动作的价值函数,通过某种策略对于当前状态选择对应的动作;做出动作后,环境会给这个动作做出反应,奖励或惩罚,并得到下一个观察;通过不断循环上述过程,最终可以得到实现目标的最优策略。
[0009]针对多智能体的深度强化学习场景而言,通过训练得到的多智能体的策略处于不断变化之中,导致每个智能体都处于不稳定的环境;在这种不稳定的环境中学习到的策略将是毫无意义的,所以不能将单智能体强化学习的方法之间移植到多智能体场景。
[0010]深度强化学习一般有三种主要的学习算法;第一种是独立式学习,通过把单智能
体方法直接移植到多智能体场景,把其他智能体看成环境的一部分,不去管别人,一般在小规模的多智能体问题中有一定的效果,但是对于高维度

动作空间的复杂问题就无法得到有效的结果;第二种是集中式学习,通过把所有智能体的状态和动作集中到一起,形成一个增广augmented的状态

动作空间,使用单智能体算法直接学习,一旦智能体的数量很大,那么这个增广空间的大小将以指数级增长,以至于难以进行充分的探索,并且将耗费大量的资源;第三种方法就是集中式训练

分布式执行,在训练期间,所有的智能体能看到全局信息,但执行的时候每个智能体仅依靠局部的状态信息做决策;这种算法结构在训练时相对费力,但是可以实际部署应用,因为每个智能体仅依赖局部信息就能够作决策,不需要复杂的通讯网络和所有其他智能体保持联络。
[0011]对于巡逻车而言,由于移动能力有限,所以巡逻车的运动存在物理限制,在t时刻确定了坐标后,通过计算得到t+1时刻的位置;并且多个巡逻车之间需要满足存在的物理约束,包括信号区域不能重叠,不能碰撞,否则存在一定的惩罚;综合考虑上述因素,现有的研究针提出,在多智能体之间进行广播通信,保证所有智能体都能够接收到来自其他智能体的所有信息,然后对多智能体进行集中训练;但在实际情况下,单个智能体作出有效决策,可能并不需要所有智能体的信息,甚至关联性不大的信息会影响智能体的学习效率,增加通信负担。
[0012]综上所述,当前的任务调度方法并不能够独立的满足用户的需求,通过多智能体辅助边缘云服务器共同完成任务的方法在满足用户需求的同时也存在一定的问题。

技术实现思路

[0013]本专利技术的目的在于提供一种用户需求充分满足、系统总成本最小的基于多智能体辅助边缘云服务器的任务调度方法。
[0014]本专利技术提供的这种基于多智能体辅助边缘云服务器的任务调度方法,包括如下步骤:
[0015]S1.描述多智能体辅助MEC系统场景,构造用户、服务器、与多智能体的任务调度问题;
[0016]S2.采用步骤S1描述的系统场景,和构造的任务调度问题,建立多智能体马尔可夫模型,重新构造步骤S1提出的任务调度问题;
[0017]S3.采用步骤S2构建的多智能体马尔可夫模型,通过TD3算法进行集中训练处理,同时采用Attention机制,构造改进的多智能体TD3算法;
[0018]S4.采用步骤S3构造的改进多智能体TD3算法和集中训练处理后的多智能体进行重新训练,使得每个智能体得到一个全局最优策略模型;
[0019]S5.采用步骤S4训练后的多智能体,通过每个智能体独立的执行最优策略,完成系统的调度任务;
[0020]步骤S1所述的描述多智能体辅助MEC系统场景,构造用户、服务器、与多智能体的任务调度问题,具体包括:
[0021]在一个多智能体辅助MEC系统的场景中,假定存在M个用户,N辆巡逻车,以及K个边缘云服务器;在所述场景中,考虑多智能体为巡逻车;M个用户会不断产生计算密集型任务M
m
={D
m
,C
m

m
},D
m
表示任务数据大小,C
m
表示CPU周期数,λ
m
表示任务到达率;当用户无法独
自处理所有的任务时,会将若干任务卸载到巡逻车上,通过巡逻车完成相应任务的计算;如果仍不能够满足用户需求,将若干任务卸载到边缘云服务器上,最后通过边缘云服务器计算后将计算结果返回给巡逻车,巡逻车将结果整合后返回给用户;
[0022]采用二维坐标L
m
(t)={x
m
(t),y
m
(t)}表示用户的位置,L
n
(t)={x
n
(t),y
n
(t)}本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体辅助边缘云服务器的任务调度方法,包括如下步骤:S1.描述多智能体辅助MEC系统场景,构造用户、服务器、与多智能体的任务调度问题;S2.采用步骤S1描述的系统场景,和构造的任务调度问题,建立多智能体马尔可夫模型,重新构造步骤S1提出的任务调度问题;S3.采用步骤S2构建的多智能体马尔可夫模型,通过TD3算法进行集中训练处理,同时采用Attention机制,构造改进的多智能体TD3算法;S4.采用步骤S3构造的改进多智能体TD3算法和集中训练处理后的多智能体进行重新训练,使得每个智能体得到一个全局最优策略模型;S5.采用步骤S4训练后的多智能体,通过每个智能体独立的执行最优策略,完成系统的调度任务。2.根据权利要求1所述的基于多智能体辅助边缘云服务器的任务调度方法,其特征在于步骤S1所述的描述多智能体辅助MEC系统场景,构造用户、服务器、与多智能体的任务调度问题,具体包括:在一个多智能体辅助MEC系统的场景中,假定存在M个用户,N辆巡逻车,以及K个边缘云服务器;在所述场景中,考虑多智能体为巡逻车;M个用户会不断产生计算密集型任务M
m
={D
m
,C
m

m
},D
m
表示任务数据大小,C
m
表示CPU周期数,λ
m
表示任务到达率;当用户无法独自处理所有的任务时,会将若干任务卸载到巡逻车上,通过巡逻车完成相应任务的计算;如果仍不能够满足用户需求,将若干任务卸载到边缘云服务器上,最后通过边缘云服务器计算后将计算结果返回给巡逻车,巡逻车将结果整合后返回给用户;采用二维坐标L
m
(t)={x
m
(t),y
m
(t)}表示用户的位置,L
n
(t)={x
n
(t),y
n
(t)}表示巡逻车的位置,得到二者的距离为d
mn
(t)=||L
m
(t)

L
n
(t)||;采用下述公式得到二者之间的任务传输速率:其中,B
u
是带宽;M
n
(t)表示巡逻车n在t时刻服务的用户数量;P
m
是用户的传输功率;是高斯噪声;h
mn
(t)是用户m与巡逻车n之间的信道增益,计算公式如下所示:其中,g0表示参考距离为1米时的信道增益;d
mn
(t)表示用户m与巡逻车n之间的距离;在任务卸载过程中,假设带宽平均分配给每个用户;从而得到用户m与巡逻车n之间的传输延迟、能量消耗,计算公式如下所示;其中,是用户m与巡逻车n之间的传输延迟,D
m
是任务的数据大小,R
mn
(t)是传输数据速率;
其中,是用户m与巡逻车n之间的能量消耗,P
n
是巡逻车n的接收功率;巡逻车n和边缘云服务器k之间的任务传输速率采用下述公式表示:其中,R
nk
(t)是传输速率;B
k
是提前分配给边缘云服务器k的带宽;h
nk
(t)是巡逻车n和边缘云服务器k之间的信道增益;P
n
(t)是巡逻车n在t时刻的传输功率;是每个边缘云服务器的高斯噪声功率;进而得到巡逻车n和边缘云服务器k之间的传输延迟、能量消耗,计算公式如下所示:其中,是用户m与巡逻车n之间的传输延迟,D
m
是任务的数据大小,R
mn
(t)是传输数据速率;其中,是用户m与巡逻车n之间的能量消耗,P
n
是巡逻车n的接收功率;当巡逻车和边缘云服务器接收到任务后开始进行计算延迟、能量消耗的计算。3.根据权利要求2所述的基于多智能体辅助边缘云服务器的任务调度方法,其特征在于步骤S2所述的采用步骤S1描述的系统场景,和构造的任务调度问题,建立多智能体马尔可夫模型,重新构造步骤S1提出的任务调度问题,具体包括:针对步骤S1描述的多智能体场景,进行多智能体马尔可夫建模:

智能体集合N:每辆巡逻车能够学习自己的行动路线、信号传输功率和任务分配比,以达到最小化系统成本的目的,得到N={1,

,N};

状态空间S:由人员操控所有的巡逻车,巡逻车学习最佳路线,并根据实际情况给出最佳建议;状态空间需要考虑所有智能体的位置以及障碍物的位置,包括用户位置;

行动空间A
n
:每辆巡逻车需要决定自身的行动距离L,行动方向θ,传输功率P和任务卸载率γ;根据物理限制,得到变量的取值范围,基于速度有限,使得行动距离L≤L
max
,L
max
为最大行动距离;行动方向θ∈{前,后,左,右};传输功率P∈[0,P
max
],P
max
为最大传输功率;任务卸载率γ∈[0,1];

奖励函数R
n
:在场景里,每个智能体需要协同合作,满足用户需求并且最小化系统成本,同时需要满足物理约束比如不能和其他智能体和障碍物发生碰撞;对于智能体n,如果满足所有约束,定义系统总成本的负数

U
n
(t)为奖励,如果不满足某些约束,将会受到惩罚,采用下述公式定义R
n
(t):
其中,η1是不满足重叠约束时的惩罚,或认为两个智能体信号覆盖范围有重叠;η2是两个智能体碰撞的惩罚;η3是智能体和障碍物碰撞的惩罚;是存在没有被信号覆盖的用户时,所有智能体受到的惩罚,其中,η4是惩罚系数,M是总的用户数量,M
n
(t)表示巡逻车n在时刻t服务的用户数量,n是智能体n,N是智能体数量。4.根据权利要求3所述的基于多智能体辅助边缘云服务器的任务调度方法,其特征在于步骤S3所述的采用步骤S2构建的多智能体马尔可夫模型,通过TD3算法进行集中训练处理,同时采用Attention机制,构造改进的多智能体TD3算法,具体包括:(3

1)针对TD3算法中的参数进行初始化设置:TD3算法包括actor、critic两种角色;在actor网络中,包括:一个评估网络μ,其中,μ是评估网络的网络参数;一个目标网络μ

,其中,μ

是目标网络的网络参数,μ

用于稳定训练;在critic网络中,包括:两个评估网络θ1、θ2,评估网络θ1、θ2通过对actor网络输出的状态

动作对进行打分来判断actor网络执行的策略的好坏;两个目标网络θ
′1、θ
′2,目标网络θ
′1、θ
′2用于稳定训练;初始化TD3算法中actor网络的一个评估网络和critic网络的两个评估网络,参数分别为μ、θ1、θ2;将三个网络的参数分别复制给对应的target网络,对应的参数分别为μ

、θ
′1、θ
′2,进而完成target网络的初始化处理;初始化每一个智能体的经验回放池replay bufferβ,经验回放池存储智能体与环境交互产生的经验,并用于后续的训练;采用协作式多智能体架构,将最大预期折扣定义为所有智能体的奖励之和;(3

2)智能体与环境的...

【专利技术属性】
技术研发人员:杨科华姚成伟赵欢王鹏
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1