一种基于深度确定性策略梯度的无人机辅助计算迁移方法技术

技术编号：36461798 阅读：11 留言：0更新日期：2023-01-25 23:01

本发明专利技术针对计算密集型和延迟敏感型移动业务需求，提出了一种基于深度强化学习的计算任务卸载算法。考虑多架无人机飞行范围、飞行速度和系统公平效益等约束条件，最小化网络平均计算延时与无人机能耗的加权和。将该非凸性、NP难问题转化为部分观测马尔可夫决策过程，利用多智能体深度确定性策略梯度算法进行移动用户卸载决策和无人机飞行轨迹优化。仿真结果表明，所提算法在移动服务终端的公平性、系统平均时延和多无人机的总能耗等方面的性能均优于基线算法。能均优于基线算法。能均优于基线算法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度确定性策略梯度的无人机辅助计算迁移方法

[0001]本专利技术属于移动边缘计算(Mobile Edge Computing，MEC)领域，涉及一种多无人机辅助移动边缘计算方法，更具体地说，涉及一种基于多智能体深度确定策略梯度(Multi
‑
Agent Deep Deterministic Policy Gradient，MADDPG)的计算迁移方法。

技术介绍

[0002]随着5G技术的发展，运行在用户设备上的计算密集型应用，如网络游戏、VR/AR、远程医疗等将变得更加繁荣和流行。这些移动应用程序通常需要大量的计算资源，消耗大量的能量，而且由于服务器的覆盖范围有限，用户在移动的时候可能会中断与服务器的连接。原先请求卸载的服务器无法在用户的下一位置及时发送计算结果，会引起服务器计算资源的浪费，增加用户再次上传卸载计算任务的时延和能耗。对于用户的可卸载任务，许多研究都会采取全部卸载到MEC服务器中执行的方式，但是当用户数量较多或卸载任务量较大时，有限的服务器计算资源会导致任务排队，卸载计算时延增长。由于高机动性和灵活性，无人机(Unmanned Aerial Vehicle，UAV)可不依靠基础设施在军事和民用领域中辅助移动边缘计算，特别是在偏远地区或自然灾害地区。当受到自然灾害导致网络基础设施不可用或移动设备的突然增多超出了网络服务能力，无人机就可以作为临时的通信中继站或边缘计算平台在通信中断或流量热点地区增强无线覆盖，提供计算支持。但是无人机的计算资源与电量受限，为提高MEC系统的性能，...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体深度确定策略梯度的无人机辅助计算迁移方法，其特征在于，包括步骤如下：(1)传统MEC服务器都是部署在基站或其他固定设施中，本次采用可移动式MEC服务器，将无人机技术与边缘计算相结合，用户设备通过无线通信将计算任务卸载到无人机端从而降低计算延时；(2)构建无人机辅助用户卸载系统模型、移动模型、通信模型与计算模型，给出优化目标函数；(3)采用部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process，POMDP)建模，在考虑无人机飞行范围和安全距离的情况下，基于用户的位置和任务信息，联合优化多无人机的飞行轨迹和计算卸载策略，以最小化系统时延和无人机能耗同时保证用户的服务公平为目标，构建深度强化学习模型，包括如下具体步骤：(3a)，将多无人机辅助计算卸载问题看作是一个部分观测马尔可夫决策过程，由元组{S，A，O，Pr，R}构成；通常有多个智能体与环境交互，每个智能体基于当前状态s
τ
得到自身观察o
τ
∈O并做出动作a
τ
∈A，环境对动作产生即时奖励r
τ
∈R以评估当前动作的好坏，并以概率Pr(S
τ+1
|S
τ
，A
τ
)进入下一状态，新状态只取决于当前的状态和各个智能体的动作；智能体的动作基于策略π(a
τ
|o
τ
)执行，其目标为学习到最优策略以最大化长期累积奖励，可表示为：其中γ为奖励折扣；(3b)，具体定义观测空间，每架无人机都只有有限的观测范围，观测范围的半径设为r
obs
，因此只能观测到部分状态信息，而全局的状态信息和其他无人机的动作都是未知的；单架无人机UAV
u
在时隙τ能观测到的信息有自身的位置信息c
u
(τ)和观测范围内K个移动用户当前的位置信息、任务信息以及服务次数动作空间A为发射功率和选择的信道，表示为：o
u
(τ)＝{c
u
(τ)，k
u
(τ)}(3c)，具体定义动作空间，基于观测到的信息，无人机需要确定在当前时隙τ服务哪位用户以及卸载比例Δ
m，u
(τ)，再决定自身的飞行角度β
u
(τ)和飞行速度v
u
(τ)，可记为：a
u
(τ)＝{m(τ)，Δ
m，u
(τ)，β
u
(τ)，v
u
(τ)}(3d)，定义状态空间，系统的状态可看作所有无人机观测结果的集合：s(τ)＝{o
u
(τ)|u∈U}(3e)，具体定义奖励，智能体执行动作后得到的反馈称之为奖励，用于判定动作的好坏，指导智能体更新其策略；一般来说，奖励函数都与优化目标相对应，本次优化的目标是最小化无人机的能耗和系统平均计算延时，与最...

【专利技术属性】
技术研发人员：陈志江，雷磊，宋晓勤，蒋泽星，唐胜，王执屹，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人