基于多智能体深度强化学习的无人机集群动态覆盖方法技术

技术编号:34493692 阅读:25 留言:0更新日期:2022-08-10 09:12
本发明专利技术公开了一种基于多智能体深度强化学习的无人机集群动态覆盖方法,首先,使用覆盖能量和覆盖功率概念对任务进行建模;其次,根据连通保持的要求设置相应的连通约束力,基于此设计集中式动作矫正器,该矫正器只在训练时起作用,用于保证连通和生成正负样本;最后,配合多智能体强化学习算法对模型进行训练,在执行时去除集中式动作矫正器,从而实现连通性保持的动态覆盖。保持的动态覆盖。保持的动态覆盖。

【技术实现步骤摘要】
基于多智能体深度强化学习的无人机集群动态覆盖方法


[0001]本专利技术属于无人机集群动态覆盖控制
,更为具体地讲,涉及一种基于多智能体深度强化学习的无人机集群动态覆盖方法。

技术介绍

[0002]近年来,随着物联网技术和通信技术的发展,无人机集群的应用场景越发广泛。无人机集群是指由一组具有数据采集和信息处理功能的无人机所组成的多智能体系统。这些无人机可以通过通信来协调彼此的行动,从而完成单架无人机所不能完成的任务。无人机集群凭借其对于高风险和高污染环境的高耐受力,被越来越多地用于执行动态覆盖控制任务。典型的动态覆盖控制任务包括航空勘测、目标监视、灾情侦察等,其在工业、民用甚至军事领域都具有光明的前景和突出的研究价值。
[0003]然而,无人机集群的应用给系统带来的机动性的同时,也带来了通信网络的连通性保持方面的挑战。集群的连通性取决于集群中的个体之间能否建立直接或者间接的信息通道来协调行动。连通性保持作为集群信息交互的基础,是指如何规划集群的轨迹使之在运动中依旧保持连通。一方面,受到硬件平台和功能设计的限制,无人机的通信范围有限,连通保持本就较为复杂;另一方面,动态覆盖会使集群在空间中分散以实现对于任务空间的全面覆盖,连通性保持会限制集群扩展来保持通信连通,二者在动力学行为上相反且矛盾的表现使得连通保持约束下的集群动态覆盖任务更为复杂。在动态覆盖领域中,借助多智能体深度强化学习算法,现有方法通过对造成集群失去连通的驱动力施加惩罚,促使模型输出的驱动力向着保持集群连通的方向优化,然而,仅施加惩罚并不能保证训练时的集群连通,并且存在奖励稀疏的问题,模型不容易收敛。针对上述不足,本专利技术提出一种基于多智能体深度强化学习的无人机集群动态覆盖方法,通过引入动作矫正器,对使集群丢失连通的驱动力进行修正,可保证集群训练时的连通性,同时解决了奖励稀疏的问题。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的不足,提供一种基于多智能体深度强化学习的无人机集群动态覆盖方法,基于连通性规则并配合多智能体深度强化学习,使得无人机集群可以在执行任务时自主实现连通保持和动态覆盖。
[0005]为实现上述专利技术目的,本专利技术一种基于多智能体深度强化学习的无人机集群动态覆盖方法,其特征在于,包括以下步骤:
[0006](1)、搭建无人机集群动态覆盖目标区域模型;
[0007]在二维空间上设置M个待覆盖的目标点,使用集合表示,其中p
j
表示第j个目标点的位置坐标;设执行任务的无人机集群共有N架无人机,使用集合表示,用表示第i架无人机在t时刻的位置,用表示第i架无人机在t时刻的速度;
[0008](2)、搭建无人机动力学模型;
[0009]设t时刻第i架无人机以驱动力作为控制输入,其中,分别表示t时刻从右、左、上、下四个方向施加到第i架无人机的驱动力;
[0010]建立第i架无人机的动力学模型:
[0011][0012]其中,表示t时刻第i架无人机的加速度,η为比例系数,m为无人机的质量;无人机t+1时刻位置与速度的更新迭代公式为:
[0013][0014]其中,Δt表示时间间隔;
[0015](3)、搭建无人机集群的动态覆盖模型;
[0016](3.1)、定义t时刻第i架无人机的观测信息
[0017][0018]其中,表示每个目标点所需的覆盖能量,表示在[0,t]内第j个目标点接受到的覆盖能量;
[0019](3.2)、定义t时刻的状态s
t

[0020][0021](3.3)、构建无人机集群的动态覆盖模型;
[0022](3.3.1)、搭建无人机的策略网络及目标策略网络;
[0023]策略网络采用三层感知机结构,策略网络的输入为观测信息正向传播后策略网络的输出表示为其中,θ
i
表示策略网络待训练的网络参数;
[0024]目标策略网络与策略网络结构相同,目标策略网络的输入为观测正向传播后目标策略网络的输出表示为其中,表示目标策略网络待训练的网络参数;
[0025](3.3.2)、搭建无人机的价值网络与目标价值网络;
[0026]价值网络采用三层感知机结构,价值网络的输入为状态s
t
与驱动力正向传播后价值网络的输出表示为其中,ψ
i
表示价值网络待训练的网络参数;
[0027]目标价值网络与价值网络结构相同,目标价值网络的输入为状态s
t
与驱动力
正向传播后目标价值网络的输出表示为其中,表示目标价值网络待训练的网络参数;
[0028](4)、训练无人机集群动态覆盖决策模型
[0029](4.1)、设定最大训练轮数N
e
,初始化当前训练轮数e=1,e=1,2,

,N
e
;设置无人机集群每轮最长控制时间T,初始化当前控制时刻t=1,t=1,2,

,T;初始化经验池为空集;初始化网络参数θ
i

i
和目标网络参数为随机值;
[0030](4.2)、在第e轮训练中,设第i架无人机仅能获取其探测半径r
i
内的信息,通过二维的钟型函数计算第i架无人机的传感器在t时刻对第j个目标点的信息获取率
[0031][0032]其中,为传感器与目标点欧式距离;
[0033](4.3)、设无人机均具有相同的探测功率M
p
,计算第i架无人机在t时刻对第j个目标点覆盖的探测功率
[0034][0035](4.4)、计算第j个目标点在[0,t]内接受到的覆盖能量
[0036][0037](4.5)、利用公式(3)、(4)计算第i架无人机在t时刻的观测信息与状态s
t
,将输入到策略网络中,通过正向传播得到然后令驱动力ω表示随机噪声;
[0038](4.6)、第i架无人机将驱动力代入式(1)计算出下一时刻预期的位置和速度然后通过公式(7)计算[0,t+1]内预期的探测能量最后利用最后利用与计算t+1时刻的预期的状态s
t+1
;计算从s
t
转移到s
t+1
的奖励值R;将组成样本存入经验池中;
[0039](4.7)、判断状态s
t+1
对应通信网络是否失去连通,若未失去连通,则进入(4.8);否则,反之则将驱动力所有无人机的当前位置与预期位置输入到动作矫正器中,动作矫正器经计算输出矫正后的动作再令驱动力等于矫正后的动作:然后返回步骤(4.6);
[0040](4.8)、第i架无人机随机对经验池进行采样,获得一批次的样本集并根据样
本集中的样本其中,s'表示状态s对应的下一时刻的状态,s'对应的观察信息为o
i
',对应输入的驱动力为u
i
';按照下式分别计算策略网络和价值网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体深度强化学习的无人机集群动态覆盖方法,其特征在于,包括以下步骤:(1)、搭建无人机集群动态覆盖目标区域模型;在二维空间上设置M个待覆盖的目标点,使用集合表示,其中p
j
表示第j个目标点的位置坐标;设执行任务的无人机集群共有N架无人机,使用集合表示,用表示第i架无人机在t时刻的位置,用表示第i架无人机在t时刻的速度;(2)、搭建无人机动力学模型;设t时刻第i架无人机以驱动力作为控制输入,其中,分别表示t时刻从右、左、上、下四个方向施加到第i架无人机的驱动力;建立第i架无人机的动力学模型:其中,表示t时刻第i架无人机的加速度,η为比例系数,m为无人机的质量;无人机t+1时刻位置与速度的更新迭代公式为:其中,Δt表示时间间隔;(3)、搭建无人机集群的动态覆盖模型;(3.1)、定义t时刻第i架无人机的观测信息(3.1)、定义t时刻第i架无人机的观测信息其中,表示每个目标点所需的覆盖能量,表示在[0,t]内第j个目标点接受到的覆盖能量;(3.2)、定义t时刻的状态s
t
;(3.3)、构建无人机集群的动态覆盖模型;(3.3.1)、搭建无人机的策略网络及目标策略网络;策略网络采用三层感知机结构,策略网络的输入为观测信息正向传播后策略网络的输出表示为其中,θ
i
表示策略网络待训练的网络参数;目标策略网络与策略网络结构相同,目标策略网络的输入为观测正向传播后目标
策略网络的输出表示为其中,表示目标策略网络待训练的网络参数;(3.3.2)、搭建无人机的价值网络与目标价值网络;价值网络采用三层感知机结构,价值网络的输入为状态s
t
与驱动力正向传播后价值网络的输出表示为其中,ψ
i
表示价值网络待训练的网络参数;目标价值网络与价值网络结构相同,目标价值网络的输入为状态s
t
与驱动力正向传播后目标价值网络的输出表示为其中,表示目标价值网络待训练的网络参数;(4)、训练无人机集群动态覆盖决策模型(4.1)、设定最大训练轮数N
e
,初始化当前训练轮数e=1,e=1,2,

,N
e
;设置无人机集群每轮最长控制时间T,初始化当前控制时刻t=1,t=1,2,

,T;初始化经验池为空集;初始化网络参数θ
i

i
和目标网络参数为随机值;(4.2)、在第e轮训练中,设第i架无人机仅能获取其探测半径r
i
内的信息,通过二维的钟型函数计算第i架无人机的传感器在t时刻对第j个目标点的信息获取率人机的传感器在t时刻对第j个目标点的信息获取率其中,为传感器与目标点欧式距离;(4.3)、设无人机均具有相同的探测功率M
p
,计算第i架无人机在t时刻对第j个目标点覆盖的探测功率盖的探测功率(4.4)、计算第j个目标点在[0,t]内接受到的覆盖能量(4.4)、计算第j个目标点在[0,t]内接受到的覆盖能量(4.5)、利用公式(3)、(4)计算第i架无人机在t时刻的观测信息与状态s
t
,将输入到策略网络中,通过正向传播得到然后令驱动力ω表示随机噪声;(4.6)、第i架无人机将驱动力代入式(1)计算出下一时刻预期的位置和速度然后通过公式(7)计算[0,t+1]内预期的探测能量最后利用与计算t+1时刻的预期的状态s
t+1
;计算从s
t
转移到s
t+1
的奖励值R;将
组成样本存入经验池中;(4.7)、判断状态s
t+1
对应通信网络是否失去连通,若未失去连通,则进入(4.8);否则,反之则将驱动力所有无人机的当前位置与预期位置输入到动作矫正器中,动作矫正器经计算输出矫正后的动作再令驱动力等于矫正后的动作:然后返回步骤(4.6);(4.8)、第i架无人机随机对经验池进行采样,获得一批次的样本集并根据样本集中的样本其中,s'表示状态s对应的下一时刻的状态,s'对应的观察信息为o

i
,对应输入的驱动力为u

【专利技术属性】
技术研发人员:邵晋梁张蕴霖石磊麻壮壮白利兵程玉华
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1