一种基于多智能体强化学习的无人机集群动态避障方法技术

技术编号：41688700 阅读：118 留言：0更新日期：2024-06-14 15:38

本发明专利技术涉及无人机的三维位置或航道控制技术领域，具体提出了一种基于多智能体强化学习的无人机集群动态避障方法，包括基于无人机自身策略和观测计算得到当前时刻的最优航向角；随后根据无人机动力学模型、运动学约束与扰动流场法得到下一时刻位置，并结合障碍物下一时刻的位置和无人机目标位置得到下一时刻所有无人机的观测以及当前时刻所有无人机的奖励，并存储到经验回放池中达到某一数量；从中采样部分样本数据，采用多步预测方法来预测每一个样本数据的未来所有无人机的联合观测、联合航向角以及联合奖励；计算策略网络和模型网络的代价函数并进行梯度更新；直至结束策略学习过程并指导无人机集群动态壁障。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无人机的三维位置或航道控制，具体提出了一种基于多智能体强化学习的无人机集群动态避障方法。

技术介绍

1、新型任务执行概念所构想的未来任务执行场景中，传统的多任务平台被分解为了众多的小型任务执行单元，这些小型任务执行单元通常具备更高的灵活性，能够根据环境的变化快速对自身所承担的任务进行调整，以实现更好的整体任务执行效果。在未来的新型任务执行场景中，传统的集中式指挥控制模式存在着指挥链路过长、决策复杂度过高等问题，从而导致决策时效性和决策质量难以满足要求。近年来，边缘指挥控制等新型指控模式应运而生，边缘节点也即各任务执行实体将具备一定程度的自主决策能力。由于环境的复杂多变特性，以及任务执行实体的小型化、智能化发展趋势，分布式决策的模式将在未来的决策中发挥越来越重要的作用。

2、任务执行体系是为了完成特定的任务执行任务由一系列具备各项能力的任务执行单元动态构建而成，在以往的集中式决策模式下，体系设计人员会根据任务执行任务的能力需求以及任务执行单元所具备的各项能力，以最大化任务执行效能或最小化任务执行单元的使用成本等为...

【技术保护点】

1.一种基于多智能体强化学习的无人机集群动态避障方法，其特征在于，所述多智能体强化学习包括策略网络、值函数网络和模型网络，采用滚动优化的方式对策略网络进行训练，所述策略网络为执行器并与环境进行交互，所述值函数网络对执行器与环境进行交互的结果进行评价，具体包括以下步骤：

2.根据权利要求1所述的一种基于多智能体强化学习的无人机集群动态避障方法，其特征在于，步骤（1）中的最优航向角为：

3.根据权利要求2所述的一种基于多智能体强化学习的无人机集群动态避障方法，其特征在于，步骤（1）中的所述观测分为针对集中式训练、部分分布式决策方法的观测，以及针对集中式训练、完全分布式...

【技术特征摘要】

2.根据权利要求1所述的一种基于多智能体强化学习的无人机集群动态避障方法，其特征在于，步骤（1）中的最优航向角为：

3.根据权利要求2所述的一种基于多智能体强化学习的无人机集群动态避障方法，其特征在于，步骤（1）中的所述观测分为针对集中式训练、部分分布式决策方法的观测，以及针对集中式训练、完全分布式决策方法的观测。

4.根据权利要求3所述的一种基于多智能体强化学习的无人机集群动态避障方法，其特征在于，针对集中式训练、部分分布式决策方法的观测中，无人机能够和中心规划器进行通信，无人机的观测空间包括...

【专利技术属性】
技术研发人员：陈磊，吴其臻，吕金虎，徐彬，刘克新，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人