【技术实现步骤摘要】
一种基于多智能体辅助边缘云服务器的任务调度方法
[0001]本专利技术属于深度强化学习以及边缘计算的交叉
,具体涉及一种基于多智能体辅助边缘云服务器的任务调度方法。
技术介绍
[0002]近年来,以智能手机为代表的智能移动终端被广泛普及,直接推动了数字生活的繁荣,随之而来的是海量的用户需求,其中包括了大量的计算密集型任务以及对延迟敏感的任务,这些任务会给计算能力有限的用户设备带来巨大的压力,可能无法满足用户需求。
[0003]为了解决上述问题,开始引入多址边缘计算MEC技术,用于移动网络环境中的数据计算和通信,用户无需将任务经过层层路由转发到具体的应用服务器上,而是直接发送给就近的接入点,如WIFI接入点或者蜂窝基站,在接入点上部署通用服务器,及时快捷地处理用户的任务、满足用户需求,从而达到延迟低,响应快的效果,大大提高了用户的体验质量。
[0004]然而,处于热点地区时,大量的用户同时进行计算密集型任务请求,可能会使MEC服务器无法满足需求,也无法保证提供给用户的服务质量;同时,由于地理环境等因素,MEC服务器的部署可能会较为稀疏,也无法达到预期要求。
[0005]进而引入移动多智能体作为辅助MEC系统的“移动MEC服务器”,具有高灵活性和覆盖范围广等特点的移动多智能体,可以弥补MEC服务器的不足;近年来关于移动多智能体辅助MEC系统的研究已经得到很多成果,如无人机方向,但大多数研究都是在单架无人机的场景下进行任务卸载或者都是基于固定移动终端的场景,但在实际中的用户可能具有高移动性,同 ...
【技术保护点】
【技术特征摘要】
1.一种基于多智能体辅助边缘云服务器的任务调度方法,包括如下步骤:S1.描述多智能体辅助MEC系统场景,构造用户、服务器、与多智能体的任务调度问题;S2.采用步骤S1描述的系统场景,和构造的任务调度问题,建立多智能体马尔可夫模型,重新构造步骤S1提出的任务调度问题;S3.采用步骤S2构建的多智能体马尔可夫模型,通过TD3算法进行集中训练处理,同时采用Attention机制,构造改进的多智能体TD3算法;S4.采用步骤S3构造的改进多智能体TD3算法和集中训练处理后的多智能体进行重新训练,使得每个智能体得到一个全局最优策略模型;S5.采用步骤S4训练后的多智能体,通过每个智能体独立的执行最优策略,完成系统的调度任务。2.根据权利要求1所述的基于多智能体辅助边缘云服务器的任务调度方法,其特征在于步骤S1所述的描述多智能体辅助MEC系统场景,构造用户、服务器、与多智能体的任务调度问题,具体包括:在一个多智能体辅助MEC系统的场景中,假定存在M个用户,N辆巡逻车,以及K个边缘云服务器;在所述场景中,考虑多智能体为巡逻车;M个用户会不断产生计算密集型任务M
m
={D
m
,C
m
,λ
m
},D
m
表示任务数据大小,C
m
表示CPU周期数,λ
m
表示任务到达率;当用户无法独自处理所有的任务时,会将若干任务卸载到巡逻车上,通过巡逻车完成相应任务的计算;如果仍不能够满足用户需求,将若干任务卸载到边缘云服务器上,最后通过边缘云服务器计算后将计算结果返回给巡逻车,巡逻车将结果整合后返回给用户;采用二维坐标L
m
(t)={x
m
(t),y
m
(t)}表示用户的位置,L
n
(t)={x
n
(t),y
n
(t)}表示巡逻车的位置,得到二者的距离为d
mn
(t)=||L
m
(t)
‑
L
n
(t)||;采用下述公式得到二者之间的任务传输速率:其中,B
u
是带宽;M
n
(t)表示巡逻车n在t时刻服务的用户数量;P
m
是用户的传输功率;是高斯噪声;h
mn
(t)是用户m与巡逻车n之间的信道增益,计算公式如下所示:其中,g0表示参考距离为1米时的信道增益;d
mn
(t)表示用户m与巡逻车n之间的距离;在任务卸载过程中,假设带宽平均分配给每个用户;从而得到用户m与巡逻车n之间的传输延迟、能量消耗,计算公式如下所示;其中,是用户m与巡逻车n之间的传输延迟,D
m
是任务的数据大小,R
mn
(t)是传输数据速率;
其中,是用户m与巡逻车n之间的能量消耗,P
n
是巡逻车n的接收功率;巡逻车n和边缘云服务器k之间的任务传输速率采用下述公式表示:其中,R
nk
(t)是传输速率;B
k
是提前分配给边缘云服务器k的带宽;h
nk
(t)是巡逻车n和边缘云服务器k之间的信道增益;P
n
(t)是巡逻车n在t时刻的传输功率;是每个边缘云服务器的高斯噪声功率;进而得到巡逻车n和边缘云服务器k之间的传输延迟、能量消耗,计算公式如下所示:其中,是用户m与巡逻车n之间的传输延迟,D
m
是任务的数据大小,R
mn
(t)是传输数据速率;其中,是用户m与巡逻车n之间的能量消耗,P
n
是巡逻车n的接收功率;当巡逻车和边缘云服务器接收到任务后开始进行计算延迟、能量消耗的计算。3.根据权利要求2所述的基于多智能体辅助边缘云服务器的任务调度方法,其特征在于步骤S2所述的采用步骤S1描述的系统场景,和构造的任务调度问题,建立多智能体马尔可夫模型,重新构造步骤S1提出的任务调度问题,具体包括:针对步骤S1描述的多智能体场景,进行多智能体马尔可夫建模:
①
智能体集合N:每辆巡逻车能够学习自己的行动路线、信号传输功率和任务分配比,以达到最小化系统成本的目的,得到N={1,
…
,N};
②
状态空间S:由人员操控所有的巡逻车,巡逻车学习最佳路线,并根据实际情况给出最佳建议;状态空间需要考虑所有智能体的位置以及障碍物的位置,包括用户位置;
③
行动空间A
n
:每辆巡逻车需要决定自身的行动距离L,行动方向θ,传输功率P和任务卸载率γ;根据物理限制,得到变量的取值范围,基于速度有限,使得行动距离L≤L
max
,L
max
为最大行动距离;行动方向θ∈{前,后,左,右};传输功率P∈[0,P
max
],P
max
为最大传输功率;任务卸载率γ∈[0,1];
④
奖励函数R
n
:在场景里,每个智能体需要协同合作,满足用户需求并且最小化系统成本,同时需要满足物理约束比如不能和其他智能体和障碍物发生碰撞;对于智能体n,如果满足所有约束,定义系统总成本的负数
‑
U
n
(t)为奖励,如果不满足某些约束,将会受到惩罚,采用下述公式定义R
n
(t):
其中,η1是不满足重叠约束时的惩罚,或认为两个智能体信号覆盖范围有重叠;η2是两个智能体碰撞的惩罚;η3是智能体和障碍物碰撞的惩罚;是存在没有被信号覆盖的用户时,所有智能体受到的惩罚,其中,η4是惩罚系数,M是总的用户数量,M
n
(t)表示巡逻车n在时刻t服务的用户数量,n是智能体n,N是智能体数量。4.根据权利要求3所述的基于多智能体辅助边缘云服务器的任务调度方法,其特征在于步骤S3所述的采用步骤S2构建的多智能体马尔可夫模型,通过TD3算法进行集中训练处理,同时采用Attention机制,构造改进的多智能体TD3算法,具体包括:(3
‑
1)针对TD3算法中的参数进行初始化设置:TD3算法包括actor、critic两种角色;在actor网络中,包括:一个评估网络μ,其中,μ是评估网络的网络参数;一个目标网络μ
′
,其中,μ
′
是目标网络的网络参数,μ
′
用于稳定训练;在critic网络中,包括:两个评估网络θ1、θ2,评估网络θ1、θ2通过对actor网络输出的状态
‑
动作对进行打分来判断actor网络执行的策略的好坏;两个目标网络θ
′1、θ
′2,目标网络θ
′1、θ
′2用于稳定训练;初始化TD3算法中actor网络的一个评估网络和critic网络的两个评估网络,参数分别为μ、θ1、θ2;将三个网络的参数分别复制给对应的target网络,对应的参数分别为μ
′
、θ
′1、θ
′2,进而完成target网络的初始化处理;初始化每一个智能体的经验回放池replay bufferβ,经验回放池存储智能体与环境交互产生的经验,并用于后续的训练;采用协作式多智能体架构,将最大预期折扣定义为所有智能体的奖励之和;(3
‑
2)智能体与环境的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。