一种可扩展的深度强化学习多无人机路径规划协同方法技术

技术编号:41156245 阅读:107 留言:0更新日期:2024-04-30 18:20
本发明专利技术提供的一种可扩展的深度强化学习多无人机路径规划协同方法,包括:S101、组网中任意当前无人机获取自身在当前时刻观测周围环境的待输入局部观测数据;S102、将待输入局部观测数据输入自身预训练的Actor‑Critic网络,通过预训练的Actor‑Critic网络中的Actor网络输出当前时刻的预测飞行动作;S103、当前无人机按照预测飞行动作,执行相应的飞行动作;S104、循环执行S101‑S103,以完成对自身飞行路径规划;其中,预训练的Actor‑Critic网络是在基于自注意力机制的参数共享和门控单元策略下,利用多个不同局部观测空间中的无人机训练数据训练得到的。

【技术实现步骤摘要】

本专利技术属于多智能体协同,具体涉及一种可扩展的深度强化学习多无人机路径规划协同方法


技术介绍

1、多智能体系统(multi-agent system,简称mas)因其效率高、鲁棒性强等优点在农业、工业各个领域广泛应用。智能体之间通过相互协作高效地完成协同任务,实现1+1>2的效果。

2、近年来,强化学习(reinforcement learning,简称rl)在解决机器学习中的各种序贯决策问题方面取得了令人瞩目的进展,已经成为多智能体协同的主要研究方法,在机器人控制、自动驾驶以及交通信号控制等领域具有广泛的应用。随着人工智能以及算力的快速进步,更加速了多智能体协同的发展,由此多智能体深度强化学习(multi-agent deepreinforcement learning,简称madrl)应运而生。madrl是深度学习和强化学习结合的产物,在高维的状态空间以及复杂环境下有着比强化学习更出色的表现。

3、多无人机路径规划作为机器人控制领域的典型问题,在安防、农业、军事等领域应用广泛,主流的madrl算法相比较于传统的路径搜索本文档来自技高网...

【技术保护点】

1.一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,包括:

2.根据权利要求1所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,所述待输入局部观测数据包括:

3.根据权利要求1所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,所述预训练的Actor-Critic网络中的Actor网络包括:目标策略网络和策略网络;所述预训练的Actor-Critic网络中的Critic网络包括:价值网络和目标价值网络;

4.根据权利要求3所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,所述预训练的Ac...

【技术特征摘要】

1.一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,包括:

2.根据权利要求1所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,所述待输入局部观测数据包括:

3.根据权利要求1所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,所述预训练的actor-critic网络中的actor网络包括:目标策略网络和策略网络;所述预训练的actor-critic网络中的critic网络包括:价值网络和目标价值网络;

4.根据权利要求3所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,所述预训练的actor-critic网络的训练过程包括:

5.根据权利要求4所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,所述通过随机选择从经验回放池中抽取多个所述无人机训练数据作为每个无人机的训练数据之前,所述方法还包括:

6.根据权利要求4所述的一种可扩展的深度强化学习多无人机路径规划协同方法...

【专利技术属性】
技术研发人员:刘延飞李超王忠李雪王蓓
申请(专利权)人:中国人民解放军火箭军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1