一种基于深度强化学习的无人机编队避撞方法技术

技术编号：32217698 阅读：32 留言：0更新日期：2022-02-09 17:23

本发明专利技术提供一种基于深度强化学习的无人机编队避撞方法，包括：明确训练目标是输出使得无人机能够自主避撞飞行的策略，通过设置不同的约束条件使得无人机能够保持编队；在仿真环境中训练无人机，通过选择不同行为设置不同的奖励值来生成一条基于避撞行为的策略，记录无人机的各种状态信息和避撞策略；采用循环神经网络中的LSTM方式处理外部的环境信息，再结合无人机的状态信息，在初始策略的基础上进行训练；在避撞的基础上添加不同的约束条件使得无人机在避免队间碰撞的基础上保持一定的队形进行飞行，并通过模型不断运行优化。本发明专利技术实现无人机避撞和编队的有效统一，可以有效地整合资源，并且可以实时调整个体的行为来获取最优的避撞行为。最优的避撞行为。最优的避撞行为。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的无人机编队避撞方法

[0001]本专利技术涉及深度强化学习领域和无人机
，特别涉及一种基于深度强化学习的无人机编队避撞方法。

技术介绍

[0002]近年来，多智能体由于在不同领域都具有巨大潜力而引起越来越多的研究。其所涉及的领域包括监控与救援的协同探索、卫星集群协同控制、无人机编队控制等等。多智能体系统的基本概念是利用个体协作解决复杂的任务，这些任务是单个智能体即使拥有昂贵的设备也无法完成的。编队控制是多智能体系统的一个基本问题，其目标是实现并保持一定的编队形状，使多智能体系统能够共同完成特定的任务。编队保持是编队控制中的一个重要问题。此外，为了保证多智能体系统的安全性，还应考虑碰撞的避免。由于智能体之间的相互作用以及避免碰撞和编队维护之间的权衡，在不确定的动态环境中寻找无碰撞、时间高效的路径仍然是一个挑战。
[0003]针对编队保持问题，其他学者的研究中提出了几种编队控制技术，包括基于行为的编队控制、虚拟结构方法和基于leader
‑
follower架构的编队控制方案。...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的无人机编队避撞方法，其特征在于，包括以下步骤：步骤一：选择深度强化学习模型作为主体框架，然后根据行业成熟实验设置初始参数，明确训练目标是输出使得无人机能够自主避撞飞行的策略，并在此基础上通过设置不同的约束条件使得无人机能够保持编队；步骤二：通过模仿学习，在仿真环境中训练无人机，使得无人机模仿人类的选择行为进行运行，通过选择不同行为设置不同的奖励值来逐渐生成一条基于避撞行为的策略，然后记录无人机的各种状态信息和避撞策略，并做一定的存储，将其作为后续学习模型的输入信息；步骤三：通过采用循环神经网络中的LSTM方式处理外部的环境信息，再结合步骤二中的无人机自己的状态信息，在初始策略的基础上进行训练，训练的过程中通过采用二阶动力学模型，调整无人机的速度，以便获取平稳的速度变化，训练的期望值是无人机能够以较短的路径抵达目标位置；步骤四：在避撞的基础上添加不同的约束条件使得无人机在避免队间碰撞的基础上保持一定的队形进行飞行，并通过模型不断运行优化，期望输出一条灵活的、保持队形的、并能够在执行避撞行为后回归正确路径的飞行策略。2.根据权利要求1所述的一种基于深度强化学习的无人机编队避撞方法，其特征在于，步骤一中，环境中包括领导者、追随者和障碍物，分别通过上标L，F，O进行表示；在t时刻无人机的状态空间表示为s
t
，行为空间可表示为a
t
，训练环境中的其他参数为：t表示时间，Δt表示时间步长，表示无人机在t时刻的位置，表示无人机在t时刻的速度，r为占用半径，p
g
＝[p
gx
,p
gy
]表示目标位置，v
pref
为期望速度，θ
t
为航向角度，为跟随者的状态空间，为领导者的状态空间，为障碍物的状态空间；其在t时刻的状态信息s
t
表示为其中表示无人机可以观测到的状态信息；表示无人机无法观测到的隐藏状态信息；对于无人机的行为a
t
，假设无人机收到控制指令后可以迅速做出反应，设定训练的目标是设计追随者的策略π:来选择适当的行动来保持队形和避开障碍物；在学习结构中，转化为一个目标函数和一组约束的优化问题，目标函数是多目标函数的一种形式，由跟随者到达目标所需要的时间t
g
和保持编队所累积的误差组成；同时，该约束条件中也包含避撞问题；编队避撞的目标函数如下所示：编队避撞的目标函数如下所示：
式...

【专利技术属性】
技术研发人员：张学军，王思峰，唐立，
申请(专利权)人：北航四川西部国际创新港科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人