基于深度强化学习的多无人机基站协同覆盖路径规划方法技术

技术编号:37790360 阅读:22 留言:0更新日期:2023-06-09 09:20
本发明专利技术公开了一种基于深度强化学习的多无人机基站协同覆盖路径规划方法,步骤包括:首先定义了基于深度强化学习的马尔可夫模型,对马尔科夫决策过程五元组进行建模;然后根据建模提出深度确定性策略梯度DDPG算法;接着对DDPG算法的经验缓存池进行改进,通过对经验缓存池所存储的经验数据进行分类,将获取的经验数据放入不同的经验缓存池中,改进的DDPG算法能解决收敛不稳定的问题;最后设计仿真环境,无人机群与环境进行交互,获取训练数据。通过这种方法,实现无人机群在多个约束条件的限制下对地面节点进行协同覆盖的目标任务,该方法能使无人机群有更高的规划效率和更低的飞行成本。成本。成本。

【技术实现步骤摘要】
基于深度强化学习的多无人机基站协同覆盖路径规划方法


[0001]本专利技术提出一种基于深度强化学习的多无人机基站协同覆盖路径规划方法,属于计算机人工智能领域。

技术介绍

[0002]无人机具有机动性高、部署灵活、成本低的优势,已广泛应用于地形覆盖、农业生产、环境侦察、空中救援、灾害预警等行业。无人机可以作为空中基站,增强各种场景下通信网络的覆盖范围和性能。当地面通信网络出现意外而中断时,可以快速部署无人机,无人机将与地面建立通信链路以传输数据,同时实现与地面网络的协同交互。覆盖路径规划算法是支撑无人机成功应用于上述复杂场景的一项重要技术。
[0003]在规划无人机覆盖地面节点路径的过程中,需要考虑无人机的能量约束条件,同时无人机在执行任务的过程中需要保证与地面基站的信号传输,但信号传输会产生损耗影响覆盖的服务质量。另一方面,单个无人机由于能量和通信的约束,难以大规模应用于地面覆盖任务,多无人机协同飞行是实现大规模覆盖任务的有效方案,这需要无人机之间时刻保持通信连通。因此无人机群在能耗受限、通信连通距离受限、信号传输会产生损耗的约束条件下本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的多无人机基站协同覆盖路径规划方法,首先设计深度强化学习模型,然后在仿真环境下,无人机群与环境进行交互,获取训练数据,采样训练数据进行仿真训练,最终实现对目标地面节点的协同覆盖路径规划;其特征在于,设计深度强化学习模型包括以下步骤:步骤一、定义马尔可夫模型:对马尔科夫决策过程五元组(S,A,P,R,γ)对无人机基站的约束条件进行建模;无人机基站是由无人机搭载的基站,在下文中简称无人机;步骤二、以步骤一建模得到的马尔科夫决策过程五元组(S,A,P,R,γ)为基础,设计深度确定性策略梯度DDPG算法,该DDPG算法是使用基础深度强化学习的;步骤三、对DDPG算法的经验缓存池进行改进,通过对经验缓存池所存储的经验数据进行分类,将获取的经验数据放入不同的经验缓存池中;所述步骤一中:步骤1.1、确定无人机的所处状态S:在目标区域内随机分布有m个位置固定的地面节点和n架无人机;无人机状态S包含:在t时刻,无人机i所在的位置和能耗以及每个地面节点受到的信号损耗L1,...,L
u
,...,L
m
;则无人机i在t时刻状态表示为:;则无人机i在t时刻状态表示为:为无人机i在t时刻的坐标;为无人机i从初始位置飞行到在t时刻位置时的能耗;步骤1.2、确定无人机的动作集合A:无人机i在飞行过程中飞行速度固定,下一步移动方向为a
t
∈(0,2π)或者悬停动作a
t
=0;其中,悬停动作是指无人机覆盖到地面节点后需要保持当前位置不变;则无人机i的动作为:a
t
∈[0,2π);步骤1.3、定义无人机在t时刻的状态s且采取动作a的条件下,能够到达下一输入状态s'的状态转移概率函数P为:步骤1.4、确定无人机的奖励函数R:设地面节点覆盖状态的集合B={b1,b2,...,b
u
,...,b
m
};其中b
u
为第u个地面节点的覆盖状态,为布尔域{0,1};若b
u
=1,则此地面节点已被无人机覆盖,若b
u
=0则此地面节点未被无人机覆盖;覆盖率α
t
为已被覆盖的地面节点数量与总地面节点数量m之比,在t时刻覆盖率为:每架无人机的覆盖范围是一个半径为R
c
的圆,无人机对目标地面节点的覆盖效果从圆心到四周由强到弱依次递减;第u个地面节点被首次覆盖的效果程度公式为:
其中λ为覆盖效果常数;规划最优路径需要实现地面节点从初始状态转变为目标状态,地面节点的初始状态为未覆盖状态,目标状态为被无人机覆盖状态;设计覆盖效率为覆盖地面节点率和覆盖效果的协同公式,覆盖效率E
c
公式为:定义奖励函数,表示无人机在当前状态下,选择某动作后得到的反馈;基础奖励公式为:其中覆盖率增量:Δα
t
=α
t

α
t
‑1,第i架无人机能耗增量:基础奖励r
t
°
作为奖励函数R的奖励值;步骤1.5、定义折扣因子γ,其中γ∈(0,1);计算整个过程中的累计奖励值,奖励值将随着时间推移而产生折扣,折扣系数越大,即越注重长期收益;所述步骤二中:步骤2.1、采用表演者

评论者Actor

Critic构架,一个网络为表演者Actor,另一个网络为评论者Critic,两个网络互相激励互相竞争;随机初始化Critic网络的网络状态

行为值函数Q(s,a|θ
Q
),Actor网络的策略函数μ(s,a|θ
μ
);将Critic网络和Actor网络的权重复制到各自网络的目标网络参数,即θ
Q

θ
Q

、θμ

θ
μ

,其中θ
Q
、θ
μ
分别表示Critic网络参数和Actor网络参数,θ
Q

、θ
μ

分别表示Critic目标网络参数和Actor目标网络参数;步骤2.2、任务开始时,无人机i的初始状态为随着任务进行,根据当前状态s
t
,作出动作a
t
,公式为:a
t
=μ(s
t

μ
)+β其中β为随机噪声;执行动作a
t
,获得奖励r
t
和新的状态s
t+1
;步骤2.3、从步骤2.2中得到经验条(s
t
,a
t
,r
t
,s
t+1
);将经验条保存于经验池之中;从经验池中随机提取部分样本进行训练,假设(s
i
,a
i
,r
i
,s
i+1
)为随机采样的一批数据,进行TD target训练,目标网络Y
i
表示为:Y
i
=r
i
+γQ

(s
i+1


(s
i+1

μ

)|θ
Q

)其中μ

表示对s
i+1
进行分析得到的策略,Q

表示在s
i+1
时采取μ

策略得到的状态

行为值;步骤2.4、更新Critic网络,计算最小化...

【专利技术属性】
技术研发人员:管昕洁许昱雯万夕里张毅晔徐波
申请(专利权)人:江苏省未来网络创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1