一种基于多智能体深度强化学习的多无人机编队集群控制方法技术

技术编号:36799149 阅读:14 留言:0更新日期:2023-03-08 23:26
本发明专利技术涉及多无人机的智能协同控制领域,提供了一种基于多智能体深度强化学习的多无人机编队集群自主聚集方法,主要包括以下步骤:1)对单无人机运动过程进行建模;2)将异构多无人机聚集过程建模为马尔科夫博弈过程;3)基于MADDPG算法对聚集过程进行训练;4)引入注意力机制到多智能体深度强化学习中,优化无人机的学习过程;5)利用学习到的策略对多无人机进行控制;本发明专利技术提出了一种基于多智能体深度强化学习的多无人机编队集群控制方法,通过对多无人机的聚集问题进行马尔科夫博弈过程建模,使得无人机自主训练得到对应控制模型。并引入注意力机制加快训练速度和提升训练效果。最终,经过对坐标进行变换完成多个不同编队的聚集。聚集。聚集。

【技术实现步骤摘要】
一种基于多智能体深度强化学习的多无人机编队集群控制方法


[0001]本专利技术属于多无人机编队集群的智能协同
,尤其涉及一种基于多智能体深度强化学习的多无人机编队集群控制方法。

技术介绍

[0002]随着无人机技术的深入发展,有关多无人机编队集群的研究也受到更多关注。无人机相互协同共同组成编队集群能够发挥出单无人机所不具有的优势,更加胜任复杂、多任务等场景下的工作。目前,有越来越多的人使用强化学习方法进行无人机编队系统的控制。但是大多数基于强化学习方法的无人机控制都只适应具有较少无人机数量的情况,随着编队集群中的无人机数量增多,训练更加困难,收敛速度更慢,收敛之后的效果也更差。此外,其他的适应具有较多无人机数量的强化学习训练方法则较难形成精确的集群编队结构,仅能实现无人机的一致性运动。

技术实现思路

[0003]鉴于此,本专利技术公开提供了一种基于多智能体深度强化学习的多无人机编队集群控制方法,从而能够实现在更加胜任复杂、多任务等场景下的工作。
[0004]本专利技术的技术方案:一种基于多智能体深度强化学习的多无人机编队集群控制方法,包括如下步骤:
[0005]步骤一:对单无人机的运动过程进行建模;
[0006]步骤二:将多无人机之间的聚集问题建模为马尔科夫博弈过程;
[0007]步骤三:使用多智能体深度强化学习方法进行训练,使用actor网络学习聚集策略,critic网络评价学习效果引导无人机聚集;
[0008]步骤四:在训练过程中引入注意力机制到critic网络中加快训练速度和提升训练效果;
[0009]步骤五:得到多个无人机的相互聚集模型,完成对应子编队的聚集;
[0010]步骤六:基于坐标转换将多个不同的编队统一到一起形成一个无人机集群。
[0011]优选地,步骤一中对单无人机运动过程进行建模具体为:
[0012]首先定义一个向量集合p=[p1,p2,

,p
n
]T
,其为集群中的所有无人机在笛卡尔坐标系下的位置,由向量p
i
=(x
i
,y
i
,z
i
)
T
可确定无人机i在空间中的位置,对单架无人机的运动过程进行建模,有如下公式:
[0013][0014]其中v
i
为无人机i的飞行速度,θ
i
和φ
i
分别为无人机i的俯仰角和航向角;在无人机的飞行过程中,通过施加控制输入引导无人机的飞行,给定如下控制输入公式:
[0015][0016]其中p
i
和V
i
分别为无人机i的位置和速度,为在三个方向上的控制输入量。
[0017]优选地,步骤二中将多无人机之间的聚集问题建模为马尔科夫博弈过程,无人机对应为智能体,给定对应的状态空间、动作空间和奖励函数设定:
[0018]其中所述状态空间:编队中包含领导者无人机和跟随者无人机,此处从领导者与跟随者的角度对状态空间进行分类,对应的有领导者无人机s
l
和跟随者无人机的状态s
f
;定义领导者无人机的状态空间为:
[0019]s
t
=(p
l
,p
tar
,v
l
)
[0020]跟随者无人机的状态空间为:
[0021]s
f
=(p
f
,p
l
,v
l
,v
f
)
[0022]一般情况下领导者无人机向自己的既定目标位置p
tar
=(x
tar
,y
tar
,z
tar
)运动,跟随者无人机通过获取领导者无人机的位置信息,得到自己与其相对位置关系并保持队形;p
l
=(x
l
,y
l
,z
l
)为领导者无人机在笛卡尔坐标系中的坐标,p
f
=(x
f
,y
f
,z
f
)为跟随者无人机的位置坐标,v
l
为领导者无人机的速度,v
f
为跟随者无人机的速度;最终有联合状态空间:
[0023]s=(p
l
,p
f
,p
tar
,v
l
,v
f
)
[0024]动作空间:对无人机的控制主要通过速度和角度的改变实现;此处将动作空间设定为:
[0025]a=(u
v
,u
r
,u
p
)
[0026]其中a
v
为对无人机速度的控制输入,对速度的控制变化量满足如下条件:
[0027][0028]角度的控制量包含u
r
和u
p
,分别为对航向角和俯仰角度的变化控制,对航向角有:
[0029][0030]其中[

r
φ
,r
φ
]为航向角的允许转向范围,对俯仰角同样有[

p
θ
,p
θ
],控制输入与上式类似;
[0031]所述奖励函数为(1)领导者无人机的奖励:
[0032][0033]其中R
tar
>0为目标区域半径,当领导者无人机与目标点距离小于该半径时,即视为到达目标点,给予一个正向奖励α
l
;反之,对其进行惩罚,惩罚程度与目标点的距离成正比,即距离越远惩罚越大;
[0034](2)跟随者无人机的奖励:
[0035][0036]对跟随者的奖励设定类似领导者无人机,当跟随者无人机处于期望位置区域时给予正向奖励α
f
;反之,给予负奖励进行惩罚;
[0037](3)无人机之间的避免碰撞的奖励:
[0038][0039](4)全局奖励:
[0040][0041]优选地,步骤四中在训练过程中引入注意力机制到critic网络中的改进如下:在评价值函数部分中加入了一个注意力模块;利用新加入的注意力模块来聚合评价函数部分的输入信息(x,a1,...,a
n
),其中x=(o1,...,o
n
)为所有无人机的观察信息的集合,加入注意力机制后的值函数可以表示为:
[0042][0043]其中,f
i
为一个两层的MLP网络,用于估计衡量该无人机的动作状态值函数;g
i
为一个一层的MLP网络,用来对无人机本身的状态观察值和动作值进行编码;c
i
为衡量其他无人机对无人机i的影响程度:
[0044][0045]其中h是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体深度强化学习的多无人机编队集群控制方法,其特征在于,包括如下步骤:步骤一:对单无人机的运动过程进行建模;步骤二:将多无人机之间的聚集问题建模为马尔科夫博弈过程;步骤三:使用多智能体深度强化学习方法进行训练,使用actor网络学习聚集策略,critic网络评价学习效果引导无人机聚集;步骤四:在训练过程中引入注意力机制到critic网络中加快训练速度和提升训练效果;步骤五:得到多个无人机的相互聚集模型,完成对应子编队的聚集;步骤六:基于坐标转换将多个不同的编队统一到一起形成一个无人机集群。2.根据权利要求1所述的一种基于多智能体深度强化学习的多无人机编队集群控制方法,其特征在于,步骤一中对单无人机运动过程进行建模具体为:首先定义一个向量集合p=[p1,p2,

,p
n
]
T
,其为集群中的所有无人机在笛卡尔坐标系下的位置,由向量p
i
=(x
i
,y
i
,z
i
)
T
可确定无人机i在空间中的位置,对单架无人机的运动过程进行建模,有如下公式:其中v
i
为无人机i的飞行速度,θ
i
和φ
i
分别为无人机i的俯仰角和航向角;在无人机的飞行过程中,通过施加控制输入引导无人机的飞行,给定如下控制输入公式:其中p
i
和V
i
分别为无人机i的位置和速度,为在三个方向上的控制输入量。3.根据权利要求1所述的一种基于多智能体深度强化学习的多无人机编队集群控制方法,其特征在于,步骤二中将多无人机之间的聚集问题建模为马尔科夫博弈过程,无人机对应为智能体,给定对应的状态空间、动作空间和奖励函数设定:其中所述状态空间:编队中包含领导者无人机和跟随者无人机,此处从领导者与跟随者的角度对状态空间进行分类,对应的有领导者无人机s
l
和跟随者无人机的状态s
f
;定义领导者无人机的状态空间为:s
t
=(p
l
,p
tar
,v
l
)跟随者无人机的状态空间为:s
f
=(p
f
,p
l
,v
l
,v
f
)一般情况下领导者无人机向自己的既定目标位置p
tar
=(x
tar
,y
tar
,z
tar
)运动,跟随者无人机通过获取领导者无人机的位置信息,得到自己与其相对位置关系并保持队形;p
l
=(x
l
,y
l
,z
l
)为领导者无人机在笛卡尔坐标系中的坐标,p
f
=(x
f
,y
f
,z
f
)为跟随者无人机的位置坐
标,v
l
为领导者无人机的速度,v
f
为跟随者无人机的速度;最终有联合状态空间:s=(p
l
,p
f
,p
tar
,v
l
,v
f
)动作空间:对无人机的控制主要通过速度和角度的改变实现;此处将动作空间设定为:a=(u
v
,u
r
,u
p
)其中a
v
为对无人机速度的控制输入,对速度的控制变化量满足如下条件:角度的控制量包含u
r
和u
p

【专利技术属性】
技术研发人员:吴杰宏于元哲马坚范纯龙高利军周振辉杨华毕静邱虹坤
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1