【技术实现步骤摘要】
本专利技术涉及无人机的三维位置或航道控制,具体提出了一种基于多智能体强化学习的无人机集群动态避障方法。
技术介绍
1、新型任务执行概念所构想的未来任务执行场景中,传统的多任务平台被分解为了众多的小型任务执行单元,这些小型任务执行单元通常具备更高的灵活性,能够根据环境的变化快速对自身所承担的任务进行调整,以实现更好的整体任务执行效果。在未来的新型任务执行场景中,传统的集中式指挥控制模式存在着指挥链路过长、决策复杂度过高等问题,从而导致决策时效性和决策质量难以满足要求。近年来,边缘指挥控制等新型指控模式应运而生,边缘节点也即各任务执行实体将具备一定程度的自主决策能力。由于环境的复杂多变特性,以及任务执行实体的小型化、智能化发展趋势,分布式决策的模式将在未来的决策中发挥越来越重要的作用。
2、任务执行体系是为了完成特定的任务执行任务由一系列具备各项能力的任务执行单元动态构建而成,在以往的集中式决策模式下,体系设计人员会根据任务执行任务的能力需求以及任务执行单元所具备的各项能力,以最大化任务执行效能或最小化任务执行单元的使用成本等为
...【技术保护点】
1.一种基于多智能体强化学习的无人机集群动态避障方法,其特征在于,所述多智能体强化学习包括策略网络、值函数网络和模型网络,采用滚动优化的方式对策略网络进行训练,所述策略网络为执行器并与环境进行交互,所述值函数网络对执行器与环境进行交互的结果进行评价,具体包括以下步骤:
2.根据权利要求1所述的一种基于多智能体强化学习的无人机集群动态避障方法,其特征在于,步骤(1)中的最优航向角为:
3.根据权利要求2所述的一种基于多智能体强化学习的无人机集群动态避障方法,其特征在于,步骤(1)中的所述观测分为针对集中式训练、部分分布式决策方法的观测,以及针对集
...【技术特征摘要】
1.一种基于多智能体强化学习的无人机集群动态避障方法,其特征在于,所述多智能体强化学习包括策略网络、值函数网络和模型网络,采用滚动优化的方式对策略网络进行训练,所述策略网络为执行器并与环境进行交互,所述值函数网络对执行器与环境进行交互的结果进行评价,具体包括以下步骤:
2.根据权利要求1所述的一种基于多智能体强化学习的无人机集群动态避障方法,其特征在于,步骤(1)中的最优航向角为:
3.根据权利要求2所述的一种基于多智能体强化学习的无人机集群动态避障方法,其特征在于,步骤(1)中的所述观测分为针对集中式训练、部分分布式决策方法的观测,以及针对集中式训练、完全分布式决策方法的观测。
4.根据权利要求3所述的一种基于多智能体强化学习的无人机集群动态避障方法,其特征在于,针对集中式训练、部分分布式决策方法的观测中,无人机能够和中心规划器进行通信,无人机的观测空间包括...
【专利技术属性】
技术研发人员:陈磊,吴其臻,吕金虎,徐彬,刘克新,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。