【技术实现步骤摘要】
基于MAPPO算法的多无人机多目标协同跟踪控制方法
[0001]本专利技术属于无人机控制
,尤其涉及一种基于深度强化学习MAPPO算法的多无人机多目标协同跟踪控制方法。
技术介绍
[0002]近年来,无人机作为智能体进行多智能体之间的协作研究受到国内外学者的广泛关注;同时,在无人机行业的应用领域中,许多任务的实现都以多目标跟踪为基础。多无人机协同跟踪可以有效降低被跟踪目标的逃离概率,提高任务执行的成功率。因此,多无人机协同跟踪多目标便成为一个重要的研究方向。
[0003]传统的多无人机多目标跟踪方法采用的是分级控制算法:上层控制器为协同轨迹跟踪控制器,通过无人机系统状态信息以及目标状态信息,使用编队控制算法,如领航跟随法、人工势场法、虚拟结构法等解算出多无人机中各架无人机在跟踪过程中的一个个航点,组成航线轨迹,输出轨迹信息;下层控制器为无人机的姿态控制器,通过上层控制器解算出来的下一个航点位置,计算出无人机到达下一个航点过程中的线速度和偏航角速度,并保持飞行过程中翻滚角和俯仰角的稳定,输出速度控制指令。特别的,当跟踪目标处于运动状态时,系统需要不断地计算优化轨迹航点,若算法复杂,将需要消耗较多的计算资源;此外,当跟踪多个目标时,各无人机之间发生碰撞的概率将大大增加,传统的控制算法无法很好的解决多无人机跟踪过程中协同合作问题,无法发挥多无人机跟踪的优势。针对上述问题,近来有研究将基于智能算法的自我学习策略应用于多无人机目标跟踪控制领域,智能算法包括群体智能、模仿学习、深度强化学习等,自我学习策略指通过自身 ...
【技术保护点】
【技术特征摘要】
1.基于MAPPO算法的多无人机多目标协同跟踪控制方法,其特征在于,包括以下步骤:步骤1:对多无人机目标跟踪过程进行建模,包括建立无人机六自由度运动学模型、运动目标恒定转弯率和速度模型、分布式部分可观察的马尔可夫决策模型;步骤2:进行环境标准化及数据归一化预处理;步骤3:对多无人机跟踪任务进行任务分配,将N架无人机分成m组跟踪m个目标,同时基于各无人机距离各目标初始位置距离,计算最小的所有无人机跟踪各目标的欧式距离代价和,其中,N≥2,m≥2;步骤4:构建状态价值函数、动作价值函数以及奖励回报函数;步骤5:构建深度神经网络结构,包括策略网络结构和价值网络结构,策略网络用于根据输入的各无人机的无人机状态量输出无人机动作控制量价值网络用于根据输入的多无人机全局状态量S
k
输出当前无人机状态量对应的价值估计值value;步骤6:基于MAPPO算法的多无人机多目标协同跟踪训练,得到多无人机多目标协同跟踪控制器;步骤7:将各无人机的局部观测状态输入所述多无人机多目标协同跟踪控制器,得到各无人机的动作控制量,根据各动作控制量控制各无人机工作,完成控制多无人机对多目标展开协同跟踪任务。2.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法,其特征在于,步骤1中,构建所述无人机六自由度运动学模型的方式为:假设无人机为对称刚体,且忽略空气阻力的影响,无人机在空间的运动为六自由度运动,分别为沿地面空间坐标X、Y、Z轴的平移运动和绕机体坐标主轴的旋转运动,无人机在地理坐标的位置为姿态角为无人机质心相对于地面坐标的位置运动方程为无人机绕质心转动的运动方程为其中,v
X
、v
Y
、v
Z
分别为无人机相对于地面在X、Y、Z三个方向上的速度,v
x
、v
y
、v
z
分别为无人机相对自身速度坐标系在X、Y、Z三个方向上的速度,C是无人机速度坐标系到地面空间坐标系的转换矩阵,分别为无人机相对于地面坐标在X、Y、Z三个方向上的角速度,ψ分别为无人机相对于地面坐标系在X、Z两个方向上的角度,分别为无人机在机体坐标系中的X、Y、Z三个方向上的角速度。3.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法,其特征在于,步骤1中,构建运动目标恒定转弯率和速度模型的方式为:针对无人机目标跟踪,无人机本身与被跟踪目标相对于整个动态环境视为质点,同时无人机跟踪目标的过程与纵向空间无关,将被跟踪目标瞬时速度和转弯率的改变以及高度
变化视为噪声,构建运动目标恒定转弯率和速度模型其中,坐标(x
m
,y
m
)表示目标在环境中的位置,v、σ、分别表示目标在地面空间坐标系中的速度、偏航角和角速度。4.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法,其特征在于,步骤1中,构建分布式部分可观察的马尔可夫决策模型的方式为:多无人机多目标协同跟踪控制过程是个完全合作式的多智能体部分可观察马尔可夫决策过程,将单机的部分可观察的马尔可夫决策模型扩展到多机分布式部分可观察的马尔可夫决策模型(multi
‑
UAV POMDP或Dec
‑
POMDP),用一个元组G表示为G=<S,U,P,T,Z,Ο,n,γ>,其中,γ表示折扣因子,n表示n架无人机智能体,s∈S表示环境的真实状态信息,S表示环境真实状态信息集合,在每一个时间步,对于无人机智能体i∈N≡{1,
…
,n},N表示无人机智能体集合,需要选择一个动作a
i
∈A,A表示动作集合,去组成一个联合动作u∈U,U表示联合动作的集合,再将这个联合动作给到环境中去进行状态转移P(s
′
|s,u):S
×
U
→
[0,1],(P(s
′
|s,u)表示在u的情况下,s转换成s
′
的概率;之后,无人机智能体i都会得到一个奖励r
i
,所有的无人机智能体得到的奖励总和T表示奖励总和集合;对于无人机智能体i接收的是一个独立的部分可观察的状态ζ∈Z,不同的无人机智能体具备不同的观察,所有的观察都来自于环境的真实状态信息,一组条件观察转移概率函数Ο(s,i):S
×
N
→
Z,Z表示部分可观察状态集合。5.根据权利要求1所述的基于MAPPO算法的多无人机多目标协同跟踪控制方法,其特征在于,步骤2中对环境标准化预处理,包括:将多无人机展开多目标协同跟踪任务的环境界限定义在总面积为a2的正方形区域内,其中,a为环境模型的界限边长,训...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。