基于MAPPO算法的多无人机多目标协同跟踪控制方法技术

技术编号:36073681 阅读:49 留言:0更新日期:2022-12-24 10:44
本发明专利技术提出基于MAPPO算法的多无人机多目标协同跟踪控制方法。方法包括多无人机目标跟踪过程建模;环境标准化及数据归一化预处理;多目标任务分配;设计状态、动作价值函数以及奖励回报函数;设计深度神经网络结构;将各无人机的局部观测状态输入所述多无人机多目标协同跟踪控制器,得到各无人机的动作控制量,根据各动作控制量控制各无人机工作,完成控制多无人机对多目标展开协同跟踪任务。本发明专利技术方法采用分布式框架,降低了无人机对通信和计算能力的要求,有效解决了传统的多无人机多目标跟踪方法计算量大、无人机之间可能相互影响或碰撞、难以应对需要实时解算的环境变化等问题,具有较强的自适应性和鲁棒性。。。

【技术实现步骤摘要】
基于MAPPO算法的多无人机多目标协同跟踪控制方法


[0001]本专利技术属于无人机控制
,尤其涉及一种基于深度强化学习MAPPO算法的多无人机多目标协同跟踪控制方法。

技术介绍

[0002]近年来,无人机作为智能体进行多智能体之间的协作研究受到国内外学者的广泛关注;同时,在无人机行业的应用领域中,许多任务的实现都以多目标跟踪为基础。多无人机协同跟踪可以有效降低被跟踪目标的逃离概率,提高任务执行的成功率。因此,多无人机协同跟踪多目标便成为一个重要的研究方向。
[0003]传统的多无人机多目标跟踪方法采用的是分级控制算法:上层控制器为协同轨迹跟踪控制器,通过无人机系统状态信息以及目标状态信息,使用编队控制算法,如领航跟随法、人工势场法、虚拟结构法等解算出多无人机中各架无人机在跟踪过程中的一个个航点,组成航线轨迹,输出轨迹信息;下层控制器为无人机的姿态控制器,通过上层控制器解算出来的下一个航点位置,计算出无人机到达下一个航点过程中的线速度和偏航角速度,并保持飞行过程中翻滚角和俯仰角的稳定,输出速度控制指令。特别的,当跟踪目标处于运动状态时,系统需要不断地计算优化轨迹航点,若算法复杂,将需要消耗较多的计算资源;此外,当跟踪多个目标时,各无人机之间发生碰撞的概率将大大增加,传统的控制算法无法很好的解决多无人机跟踪过程中协同合作问题,无法发挥多无人机跟踪的优势。针对上述问题,近来有研究将基于智能算法的自我学习策略应用于多无人机目标跟踪控制领域,智能算法包括群体智能、模仿学习、深度强化学习等,自我学习策略指通过自身的经验来优化自身策略模型的结构或参数。此类算法将系统中的每架无人机看作拥有独立性和自主性的智能体,与环境进行交互,表现出自适应能力强、能够应对复杂多变的任务场景的特点。
[0004]深度强化学习是机器学习的一个分支,其融合了深度学习的感知能力和强化学习的决策能力,在诸多挑战性领域均有广泛地应用,如自动驾驶、计算机视觉、医疗诊断以及机器人控制等。在处理一系列环境感知及控制决策问题时,其学习过程具有一定的通用性,可表示为: (1)智能体与环境交互时刻进行,并通过深度学习方法感知和观察高维度目标,得到当前环境下具体的状态信息;(2)基于预期回报来评价各动作的价值函数(以此激励智能体),并通过强化学习方法得到某种适应性策略,将当前状态映射为相应的动作;(3)环境对该动作做出相应反馈,智能体以此进行下一时刻的观察。通过以上过程的不断循环,智能体最终可以得到完成既定任务的最优行动策略。
[0005]MAPPO算法是一种多代理最近策略优化深度强化学习算法,它是PPO算法应用于多智能 体任务的变种。(PPO算法又叫最近策略优化算法,是2017年由OenpAI提出的一种基于 Actor

Critic(AC)框架的策略梯度优化算法,通过提出重要性采样和梯度参数剪裁的目标 函数解决了策略梯度算法中步长难以确定和更新差异过大的问题,实现了对连续控制问题很 好的求解;PPO算法是同策略(On

policy)算法,其中的Actor网络,也称之为Policy网 络,接收局部观测(Observation)并输出动作(Action),Critic网络,也称之为Value网 络,
接收状态(State)输出动作价值(Value),用于评估Actor网络输出动作的好坏。MAPPO 同样采用Actor

Critic架构,不同之处在于是一种中心式训练分散式执行(Centralizedtraining and decentralized execution,CTDE)框架的算法,此时Critic网络学习的是一 个中心价值函数(Centralized value function)。即训练完成后,各智能体就可以基于自己 的局部观测状态通过自己的Actor网络生成的动作策略函数来产生最优动作,最终组合成多 智能体联合动作来完成任务。蔡志浩等在中国授权专利技术专利CN111580544B中公开了“一种基 于强化学习PPO算法的无人机目标跟踪控制方法”,采用一体化控制器替代了传统的内外环控 制器,具有较好的鲁棒性能与较小计算量的特点。但是该方法只能实现单个无人机的跟踪控 制,而无法进行多无人机多目标协同跟踪。而采用MAPPO算法进行多无人机多目标协同跟踪 控制的方法尚未见记载。

技术实现思路

[0006]针对多无人机协同跟踪多目标的控制问题,本专利技术提出一种基于多智能体深度强化学习 MAPPO算法的多无人机多目标协同跟踪控制方法,能够进行多无人机多目标协同跟踪,而且有效解决了传统的多无人机多目标跟踪方法计算量大、无人机之间可能相互影响或碰撞、难以应对需要实时解算的环境变化等问题。本专利技术方法采用分布式框架,降低了无人机对通信和计算能力的要求,具有较强的自适应性和鲁棒性。
[0007]为了实现本专利技术目的,本专利技术提供的基于MAPPO算法的多无人机多目标协同跟踪控制方法,包括如下步骤:
[0008]步骤1:对多无人机目标跟踪过程进行建模,包括建立无人机六自由度运动学模型、运动目标恒定转弯率和速度模型、分布式部分可观察的马尔可夫决策模型;
[0009]步骤2:进行环境标准化及数据归一化预处理;
[0010]步骤3:对多无人机跟踪任务进行任务分配,将N架无人机分成m组跟踪m个目标,同时基于各无人机距离各目标初始位置距离,计算最小的所有无人机跟踪各目标的欧式距离代价和,其中,N≥2,m≥2;
[0011]步骤4:构建状态价值函数、动作价值函数以及奖励回报函数;
[0012]步骤5:构建深度神经网络结构,包括策略网络结构和价值网络结构,策略网络用于根据输入的各无人机的无人机状态量输出各无人机动作控制量价值网络用于根据输入的多无人机全局状态量S
k
,输出当前无人机状态量对应的价值估计值value;
[0013]步骤6:基于MAPPO算法的多无人机多目标协同跟踪训练,得到多无人机多目标协同跟踪控制器;
[0014]步骤7:将各无人机的局部观测状态输入所述多无人机多目标协同跟踪控制器,得到各无人机的动作控制量,根据各动作控制量控制各无人机工作,完成控制多无人机对多目标展开协同跟踪任务。
[0015]进一步地,步骤1中,构建所述无人机六自由度运动学模型的方式为:
[0016]假设无人机为对称刚体,且忽略空气阻力的影响,无人机在空间的运动为六自由度运动, 分别为沿地面空间坐标X、Y、Z轴的平移运动和绕机体坐标主轴的旋转运动,无人
机在地理 坐标的位置为姿态角为无人机质心相对于地面坐标的位置运动方程为 无人机绕质心转动的运动方程为其中,v
X
、v
Y
、v
Z
分别为无人机相对于地面在X、Y、Z三个方向上的速度,v
x
、v
y
、v
z
分 别为无人机相对自身速度坐标系在X、Y、Z三个方向上的速度,C是无人机速度坐标系到地面本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于MAPPO算法的多无人机多目标协同跟踪控制方法,其特征在于,包括以下步骤:步骤1:对多无人机目标跟踪过程进行建模,包括建立无人机六自由度运动学模型、运动目标恒定转弯率和速度模型、分布式部分可观察的马尔可夫决策模型;步骤2:进行环境标准化及数据归一化预处理;步骤3:对多无人机跟踪任务进行任务分配,将N架无人机分成m组跟踪m个目标,同时基于各无人机距离各目标初始位置距离,计算最小的所有无人机跟踪各目标的欧式距离代价和,其中,N≥2,m≥2;步骤4:构建状态价值函数、动作价值函数以及奖励回报函数;步骤5:构建深度神经网络结构,包括策略网络结构和价值网络结构,策略网络用于根据输入的各无人机的无人机状态量输出无人机动作控制量价值网络用于根据输入的多无人机全局状态量S
k
输出当前无人机状态量对应的价值估计值value;步骤6:基于MAPPO算法的多无人机多目标协同跟踪训练,得到多无人机多目标协同跟踪控制器;步骤7:将各无人机的局部观测状态输入所述多无人机多目标协同跟踪控制器,得到各无人机的动作控制量,根据各动作控制量控制各无人机工作,完成控制多无人机对多目标展开协同跟踪任务。2.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法,其特征在于,步骤1中,构建所述无人机六自由度运动学模型的方式为:假设无人机为对称刚体,且忽略空气阻力的影响,无人机在空间的运动为六自由度运动,分别为沿地面空间坐标X、Y、Z轴的平移运动和绕机体坐标主轴的旋转运动,无人机在地理坐标的位置为姿态角为无人机质心相对于地面坐标的位置运动方程为无人机绕质心转动的运动方程为其中,v
X
、v
Y
、v
Z
分别为无人机相对于地面在X、Y、Z三个方向上的速度,v
x
、v
y
、v
z
分别为无人机相对自身速度坐标系在X、Y、Z三个方向上的速度,C是无人机速度坐标系到地面空间坐标系的转换矩阵,分别为无人机相对于地面坐标在X、Y、Z三个方向上的角速度,ψ分别为无人机相对于地面坐标系在X、Z两个方向上的角度,分别为无人机在机体坐标系中的X、Y、Z三个方向上的角速度。3.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法,其特征在于,步骤1中,构建运动目标恒定转弯率和速度模型的方式为:针对无人机目标跟踪,无人机本身与被跟踪目标相对于整个动态环境视为质点,同时无人机跟踪目标的过程与纵向空间无关,将被跟踪目标瞬时速度和转弯率的改变以及高度
变化视为噪声,构建运动目标恒定转弯率和速度模型其中,坐标(x
m
,y
m
)表示目标在环境中的位置,v、σ、分别表示目标在地面空间坐标系中的速度、偏航角和角速度。4.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法,其特征在于,步骤1中,构建分布式部分可观察的马尔可夫决策模型的方式为:多无人机多目标协同跟踪控制过程是个完全合作式的多智能体部分可观察马尔可夫决策过程,将单机的部分可观察的马尔可夫决策模型扩展到多机分布式部分可观察的马尔可夫决策模型(multi

UAV POMDP或Dec

POMDP),用一个元组G表示为G=<S,U,P,T,Z,Ο,n,γ>,其中,γ表示折扣因子,n表示n架无人机智能体,s∈S表示环境的真实状态信息,S表示环境真实状态信息集合,在每一个时间步,对于无人机智能体i∈N≡{1,

,n},N表示无人机智能体集合,需要选择一个动作a
i
∈A,A表示动作集合,去组成一个联合动作u∈U,U表示联合动作的集合,再将这个联合动作给到环境中去进行状态转移P(s

|s,u):S
×
U

[0,1],(P(s

|s,u)表示在u的情况下,s转换成s

的概率;之后,无人机智能体i都会得到一个奖励r
i
,所有的无人机智能体得到的奖励总和T表示奖励总和集合;对于无人机智能体i接收的是一个独立的部分可观察的状态ζ∈Z,不同的无人机智能体具备不同的观察,所有的观察都来自于环境的真实状态信息,一组条件观察转移概率函数Ο(s,i):S
×
N

Z,Z表示部分可观察状态集合。5.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法,其特征在于,步骤2中对环境标准化预处理,包括:将多无人机展开多目标协同跟踪任务的环境界限定义在总面积为a2的正方形区域内,其中,a为环境模型的界限边长,训...

【专利技术属性】
技术研发人员:张平张斌
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1