一种基于深度确定性策略梯度的无人机辅助计算迁移方法技术

技术编号:36461798 阅读:11 留言:0更新日期:2023-01-25 23:01
本发明专利技术针对计算密集型和延迟敏感型移动业务需求,提出了一种基于深度强化学习的计算任务卸载算法。考虑多架无人机飞行范围、飞行速度和系统公平效益等约束条件,最小化网络平均计算延时与无人机能耗的加权和。将该非凸性、NP难问题转化为部分观测马尔可夫决策过程,利用多智能体深度确定性策略梯度算法进行移动用户卸载决策和无人机飞行轨迹优化。仿真结果表明,所提算法在移动服务终端的公平性、系统平均时延和多无人机的总能耗等方面的性能均优于基线算法。能均优于基线算法。能均优于基线算法。

【技术实现步骤摘要】
一种基于深度确定性策略梯度的无人机辅助计算迁移方法


[0001]本专利技术属于移动边缘计算(Mobile Edge Computing,MEC)领域,涉及一种多无人机辅助移动边缘计算方法,更具体地说,涉及一种基于多智能体深度确定策略梯度(Multi

Agent Deep Deterministic Policy Gradient,MADDPG)的计算迁移方法。

技术介绍

[0002]随着5G技术的发展,运行在用户设备上的计算密集型应用,如网络游戏、VR/AR、远程医疗等将变得更加繁荣和流行。这些移动应用程序通常需要大量的计算资源,消耗大量的能量,而且由于服务器的覆盖范围有限,用户在移动的时候可能会中断与服务器的连接。原先请求卸载的服务器无法在用户的下一位置及时发送计算结果,会引起服务器计算资源的浪费,增加用户再次上传卸载计算任务的时延和能耗。对于用户的可卸载任务,许多研究都会采取全部卸载到MEC服务器中执行的方式,但是当用户数量较多或卸载任务量较大时,有限的服务器计算资源会导致任务排队,卸载计算时延增长。由于高机动性和灵活性,无人机(Unmanned Aerial Vehicle,UAV)可不依靠基础设施在军事和民用领域中辅助移动边缘计算,特别是在偏远地区或自然灾害地区。当受到自然灾害导致网络基础设施不可用或移动设备的突然增多超出了网络服务能力,无人机就可以作为临时的通信中继站或边缘计算平台在通信中断或流量热点地区增强无线覆盖,提供计算支持。但是无人机的计算资源与电量受限,为提高MEC系统的性能,有许多关键问题还需解决,包括安全性
[8]、任务卸载、能量消耗、资源分配和各种信道情况下的用户延迟性能等。
[0003]在无人机MEC网络中,可以优化多种类型的变量(如无人机的轨迹、任务卸载策略、计算资源分配)以实现期望的调度目标,传统的优化方法由于需要大量的迭代和先验知识来获得一个近似最优解,因此不适用于动态环境中的实时MEC应用。随着机器学习在研究中的广泛应用,许多研究人员也在探索基于学习的MEC调度算法,鉴于机器学习的最新进展,深度强化学习现已成为研究热点。随着网络规模的增长,多智能体深度强化学习为多无人机MEC网络的资源管理提供了分布式的视角。
[0004]本专利技术提出了一种无人机辅助移动边缘计算系统,利用无人机提供的计算资源为附近的用户设备提供卸载服务。通过多智能体深度强化学习的方法来求解无人机轨迹和卸载优化问题,从而获得可扩展和有效的调度策略,终端将计算任务的一部分卸载给UAV,而其余的任务在该终端本地执行,通过联合优化用户调度、任务卸载比、无人机飞行角和飞行速度来最小化系统处理延迟和无人机能耗。

技术实现思路

[0005]专利技术目的:考虑到该问题的非凸性、高维状态空间和连续动作空间,我们提出了一种基于MADDPG的深度强化学习算法,该算法可以在动态环境下得到最优计算卸载策略,从而实现最低系统延时和无人机能耗的联合优化。
[0006]技术方案:在考虑同一时刻多用户计算任务卸载的场景,以合理高效的无人机路
径规划和卸载决策达到联合优化系统时延和无人机能耗的目的。将每架无人机看作智能体,采用分布式执行和集中式训练的方式,基于本地观察到的状态信息和每个时隙得到的任务信息来选择关联用户。通过建立深度强化学习模型,利用MADDPG算法优化深度强化学习模型。根据优化后的MADDPG模型,得到最优的飞行轨迹和卸载策略。完成上述专利技术通过以下技术方案实现:一种基于MADDPG的无人机辅助计算迁移方法,包括步骤如下:
[0007](1),传统MEC服务器都是部署在基站或其他固定设施中,本次采用可移动式MEC服务器,将无人机技术与边缘计算相结合;
[0008](2),用户设备通过无线通信将计算任务卸载到无人机端从而降低计算延时;
[0009](3),构建无人机辅助用户卸载系统模型、移动模型、通信模型与计算模型,给出优化目标函数;
[0010](4),无人机获取观测范围内用户位置集合、任务集合和服务次数以及信道参数信息;
[0011](5),采用部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)建模,在考虑无人机飞行范围和安全距离的情况下,基于用户的位置和任务信息,联合优化多无人机的飞行轨迹和计算卸载策略,以最小化系统时延和无人机能耗同时保证用户的服务公平为目标,构建深度强化学习模型;
[0012](6),考虑连续状态空间和连续动作空间,利用基于MADDPG的多智能体深度强化学习算法进行计算迁移的模型训练;
[0013](7),在执行阶段,无人机基于当前环境的状态s(τ),利用训练好的模型得到最优的用户卸载方案和飞行轨迹;
[0014]进一步的,所述步骤(3)包括如下具体步骤:
[0015](3a),建立无人机辅助用户卸载的移动边缘计算系统模型,系统有M个移动用户设备(Mobile Device,MD)和U架搭载MEC服务器的无人机,分别用集合和表示。无人机以固定高度H
u
飞行,设无人机执行一次飞行任务的总时长为T,总时长可被分为N个等长的时隙,时隙的集合记为每个MD在每个时隙τ有一个计算密集型任务,任务记为S
m
(τ)={D
m
(τ),F
m
(τ)},其中D
m
(τ)表示数据比特量,F
m
(τ)表示每比特所需CPU周期;
[0016](3b),每架无人机在每个时隙τ只为一个终端设备提供计算卸载服务,用户只需在本地计算任务的一小部分,其余卸载到无人机辅助计算,以减少计算的延时和能耗,卸载计算量的比例记为Δ
m,u
(τ)∈[0,1]。无人机和用户设备之间的卸裁决策变量可表示为:
[0017]D={α
m,u
(τ)|u∈U,m∈M,τ∈T}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
表达式1
[0018]其中α
m,u
(τ)∈{0,1},当α
m,u
(τ)=1时表示设备MD
m
在时隙τ的计算任务由无人机UAV
u
辅助计算,Δ
m,u
(τ)>0;当α
m,u
(τ)=0时则表示只在本地执行计算任务,Δ
m,u
(τ)=0。决策变量需要满足:
[0019][0020](3c),建立移动模型,移动设备会在每个时隙内随机移动到新的位置,每个设备的移动与其当前的速度和角度有关。假设MD
m
在时隙τ的坐标记为c
m
(τ)=[x
m
(τ),y
m
(τ)],则其下一时隙τ+1的坐标可表示为:
[0021][0022]其中d
max
代表备移动的最大距离,移动方向和距离概率均服从均匀分布,ρ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体深度确定策略梯度的无人机辅助计算迁移方法,其特征在于,包括步骤如下:(1)传统MEC服务器都是部署在基站或其他固定设施中,本次采用可移动式MEC服务器,将无人机技术与边缘计算相结合,用户设备通过无线通信将计算任务卸载到无人机端从而降低计算延时;(2)构建无人机辅助用户卸载系统模型、移动模型、通信模型与计算模型,给出优化目标函数;(3)采用部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)建模,在考虑无人机飞行范围和安全距离的情况下,基于用户的位置和任务信息,联合优化多无人机的飞行轨迹和计算卸载策略,以最小化系统时延和无人机能耗同时保证用户的服务公平为目标,构建深度强化学习模型,包括如下具体步骤:(3a),将多无人机辅助计算卸载问题看作是一个部分观测马尔可夫决策过程,由元组{S,A,O,Pr,R}构成;通常有多个智能体与环境交互,每个智能体基于当前状态s
τ
得到自身观察o
τ
∈O并做出动作a
τ
∈A,环境对动作产生即时奖励r
τ
∈R以评估当前动作的好坏,并以概率Pr(S
τ+1
|S
τ
,A
τ
)进入下一状态,新状态只取决于当前的状态和各个智能体的动作;智能体的动作基于策略π(a
τ
|o
τ
)执行,其目标为学习到最优策略以最大化长期累积奖励,可表示为:其中γ为奖励折扣;(3b),具体定义观测空间,每架无人机都只有有限的观测范围,观测范围的半径设为r
obs
,因此只能观测到部分状态信息,而全局的状态信息和其他无人机的动作都是未知的;单架无人机UAV
u
在时隙τ能观测到的信息有自身的位置信息c
u
(τ)和观测范围内K个移动用户当前的位置信息、任务信息以及服务次数动作空间A为发射功率和选择的信道,表示为:o
u
(τ)={c
u
(τ),k
u
(τ)}(3c),具体定义动作空间,基于观测到的信息,无人机需要确定在当前时隙τ服务哪位用户以及卸载比例Δ
m,u
(τ),再决定自身的飞行角度β
u
(τ)和飞行速度v
u
(τ),可记为:a
u
(τ)={m(τ),Δ
m,u
(τ),β
u
(τ),v
u
(τ)}(3d),定义状态空间,系统的状态可看作所有无人机观测结果的集合:s(τ)={o
u
(τ)|u∈U}(3e),具体定义奖励,智能体执行动作后得到的反馈称之为奖励,用于判定动作的好坏,指导智能体更新其策略;一般来说,奖励函数都与优化目标相对应,本次优化的目标是最小化无人机的能耗和系统平均计算延时,与最...

【专利技术属性】
技术研发人员:陈志江雷磊宋晓勤蒋泽星唐胜王执屹
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1