一种基于深度强化学习的无人机编队避撞方法技术

技术编号:32217698 阅读:18 留言:0更新日期:2022-02-09 17:23
本发明专利技术提供一种基于深度强化学习的无人机编队避撞方法,包括:明确训练目标是输出使得无人机能够自主避撞飞行的策略,通过设置不同的约束条件使得无人机能够保持编队;在仿真环境中训练无人机,通过选择不同行为设置不同的奖励值来生成一条基于避撞行为的策略,记录无人机的各种状态信息和避撞策略;采用循环神经网络中的LSTM方式处理外部的环境信息,再结合无人机的状态信息,在初始策略的基础上进行训练;在避撞的基础上添加不同的约束条件使得无人机在避免队间碰撞的基础上保持一定的队形进行飞行,并通过模型不断运行优化。本发明专利技术实现无人机避撞和编队的有效统一,可以有效地整合资源,并且可以实时调整个体的行为来获取最优的避撞行为。最优的避撞行为。最优的避撞行为。

【技术实现步骤摘要】
一种基于深度强化学习的无人机编队避撞方法


[0001]本专利技术涉及深度强化学习领域和无人机
,特别涉及一种基于深度强化学习的无人机编队避撞方法。

技术介绍

[0002]近年来,多智能体由于在不同领域都具有巨大潜力而引起越来越多的研究。其所涉及的领域包括监控与救援的协同探索、卫星集群协同控制、无人机编队控制等等。多智能体系统的基本概念是利用个体协作解决复杂的任务,这些任务是单个智能体即使拥有昂贵的设备也无法完成的。编队控制是多智能体系统的一个基本问题,其目标是实现并保持一定的编队形状,使多智能体系统能够共同完成特定的任务。编队保持是编队控制中的一个重要问题。此外,为了保证多智能体系统的安全性,还应考虑碰撞的避免。由于智能体之间的相互作用以及避免碰撞和编队维护之间的权衡,在不确定的动态环境中寻找无碰撞、时间高效的路径仍然是一个挑战。
[0003]针对编队保持问题,其他学者的研究中提出了几种编队控制技术,包括基于行为的编队控制、虚拟结构方法和基于leader

follower架构的编队控制方案。在这些群体控制技术中,leader

follower体系结构以其简单的结构和可实现性得到了广泛的应用。虽然在leader

follower编队控制方面已经取得了一系列的成果,但在之前的工作中,基于避碰的编队控制问题还没有得到充分的研究。特别是在动态环境下,智能体之间的碰撞,以及多智能体系统与障碍物之间的碰撞,使得碰撞的难度越来越大。
[0004]对于避碰问题,传统的算法通常分为三类,包括离线规划方法、基于人工势场的方法和感避方法。第一种离线规划方法通常提前计算无碰撞轨迹,然后将结果用作后续跟踪控制系统的期望轨迹。然而,这些方法计算量很大。而且整个环境的信息都要提前知道,不方便在动态环境下实现。基于人工势场的方法通过假设环境中个体之间的虚拟吸引和排斥场来避免碰撞。然而,可能存在局部极小值,有时会出现目的地不可达的问题。感知和避免方法通过感知环境并相应地调整当前动作来解决碰撞避免问题,具有仿人的特点。目前关于这些方法的工作可以分为两类:基于反应的方法和基于预测的方法。前者通过基于当前状态设置一步行为规则来避免碰撞,例如基于模糊逻辑的碰撞避免方法和往复速度障碍方法。然而,这些基于反应的方法存在局限,在某些情况下可能不可靠,因为它们没有考虑未来的状态。后者预测障碍物的运动,预测未来的状态,然后输出一个长远的行动来避免碰撞。然而,以下两个问题是显而易见的:一是由于各种不确定性导致的估计不准确;另一个是预测操作的巨大计算复杂性。因此,传统的避撞方法存在很大的局限性,且不具备编队控制的能力,所以研究编队避撞的重心便逐渐转移至强化学习领域。

技术实现思路

[0005]本专利技术针对多无人机编队避撞的问题,提出了一种基于深度强化学习的无人机编队避撞方法,对无人机编队整体进行协调控制,以达到避免碰撞并顺利完成任务的目的。
[0006]为了实现以上专利技术目的,本专利技术采取的技术方案如下:
[0007]一种基于深度强化学习的无人机编队避撞方法,具体步骤如下:
[0008]步骤一:选择深度强化学习模型作为主体框架,然后根据行业成熟实验设置初始参数,明确训练目标是输出使得无人机能够自主避撞飞行的策略,并在此基础上通过设置不同的约束条件使得无人机能够保持编队;
[0009]步骤二:通过模仿学习,在仿真环境中训练无人机,使得无人机模仿人类的选择行为进行运行,通过选择不同行为设置不同的奖励值来逐渐生成一条基于避撞行为的策略,然后记录无人机的各种状态信息和避撞策略,并做一定的存储,将其作为后续学习模型的输入信息;
[0010]步骤三:通过采用循环神经网络中的LSTM方式处理外部的环境信息,主要是障碍物的状态信息,再结合步骤二中的无人机自己的状态信息,在初始策略的基础上进行训练,训练的过程中通过采用二阶动力学模型,调整无人机的速度,以便获取平稳的速度变化,训练的期望值是无人机能够以较短的路径抵达目标位置;
[0011]其中,长短期记忆(Long short

term memory,LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。
[0012]步骤四:在避撞的基础上添加不同的约束条件使得无人机在避免队间碰撞的基础上保持一定的队形进行飞行,并通过模型不断运行优化,期望输出一条灵活的、保持队形的、并能够在执行避撞行为后回归正确路径的飞行策略。步骤一中,环境中包括领导者、追随者和障碍物,分别通过上标L,F,O进行表示;
[0013]在t时刻无人机的状态空间表示为s
t
,行为空间可表示为a
t
,训练环境中的其他参数为:t表示时间,Δt表示时间步长,表示无人机在t时刻的位置,表示无人机在t时刻的速度,r为占用半径,p
g
=[p
gx
,p
gy
]表示目标位置,v
pref
为期望速度,θ
t
为航向角度,为跟随者的状态空间,为领导者的状态空间,为障碍物的状态空间;
[0014]其在t时刻的状态信息s
t
表示为其中表示无人机可以观测到的状态信息;表示无人机无法观测到的隐藏状态信息;
[0015]对于无人机的行为a
t
,假设无人机收到控制指令后可以迅速做出反应,设定训练的目标是设计追随者的策略π:来选择适当的行动来保持队形和避开障碍物;
[0016]在学习结构中,转化为一个目标函数和一组约束的优化问题,目标函数是多目标函数的一种形式,由跟随者到达目标所需要的时间t
g
和保持编队所累积的误差组成;同时,该约束条件中也包含避撞问题;
[0017]编队避撞的目标函数如下所示:
[0018][0019][0020][0021][0022]式(1.2)中,表示环境中的不包含追随者的其他无人机,H
t
表示追随者相对于领导者的期望相对偏移向量;(1.2)表示避免碰撞的约束条件,(1.3)表示到达目标地点的约束条件,(1.4)表示无人机的运动学约束。
[0023]步骤二具体的包括以下过程:
[0024]首先,定义无人机的联合状态空间其中表示所有追随者的可观测空间,表示障碍物的可观测空间。
[0025]其次,设计一个值网络来估计状态空间的值,值网络的目的是找到最优的值函数,值函数的定义如下所示:
[0026][0027]式(1.5)中,表示在t时刻所获取的奖励,γ表示折扣因子;
[0028]对于最优策略π
*
:从值函数中进行迭代获取:
[0029][0030]式(1.6)中表示时间t和t+Δt之间的转移概率。
[0031]最后,基于强化学习的思想将采用队形评本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的无人机编队避撞方法,其特征在于,包括以下步骤:步骤一:选择深度强化学习模型作为主体框架,然后根据行业成熟实验设置初始参数,明确训练目标是输出使得无人机能够自主避撞飞行的策略,并在此基础上通过设置不同的约束条件使得无人机能够保持编队;步骤二:通过模仿学习,在仿真环境中训练无人机,使得无人机模仿人类的选择行为进行运行,通过选择不同行为设置不同的奖励值来逐渐生成一条基于避撞行为的策略,然后记录无人机的各种状态信息和避撞策略,并做一定的存储,将其作为后续学习模型的输入信息;步骤三:通过采用循环神经网络中的LSTM方式处理外部的环境信息,再结合步骤二中的无人机自己的状态信息,在初始策略的基础上进行训练,训练的过程中通过采用二阶动力学模型,调整无人机的速度,以便获取平稳的速度变化,训练的期望值是无人机能够以较短的路径抵达目标位置;步骤四:在避撞的基础上添加不同的约束条件使得无人机在避免队间碰撞的基础上保持一定的队形进行飞行,并通过模型不断运行优化,期望输出一条灵活的、保持队形的、并能够在执行避撞行为后回归正确路径的飞行策略。2.根据权利要求1所述的一种基于深度强化学习的无人机编队避撞方法,其特征在于,步骤一中,环境中包括领导者、追随者和障碍物,分别通过上标L,F,O进行表示;在t时刻无人机的状态空间表示为s
t
,行为空间可表示为a
t
,训练环境中的其他参数为:t表示时间,Δt表示时间步长,表示无人机在t时刻的位置,表示无人机在t时刻的速度,r为占用半径,p
g
=[p
gx
,p
gy
]表示目标位置,v
pref
为期望速度,θ
t
为航向角度,为跟随者的状态空间,为领导者的状态空间,为障碍物的状态空间;其在t时刻的状态信息s
t
表示为其中表示无人机可以观测到的状态信息;表示无人机无法观测到的隐藏状态信息;对于无人机的行为a
t
,假设无人机收到控制指令后可以迅速做出反应,设定训练的目标是设计追随者的策略π:来选择适当的行动来保持队形和避开障碍物;在学习结构中,转化为一个目标函数和一组约束的优化问题,目标函数是多目标函数的一种形式,由跟随者到达目标所需要的时间t
g
和保持编队所累积的误差组成;同时,该约束条件中也包含避撞问题;编队避撞的目标函数如下所示:编队避撞的目标函数如下所示:
式...

【专利技术属性】
技术研发人员:张学军王思峰唐立
申请(专利权)人:北航四川西部国际创新港科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1