【技术实现步骤摘要】
本专利技术属于多智能体协同,具体涉及一种可扩展的深度强化学习多无人机路径规划协同方法。
技术介绍
1、多智能体系统(multi-agent system,简称mas)因其效率高、鲁棒性强等优点在农业、工业各个领域广泛应用。智能体之间通过相互协作高效地完成协同任务,实现1+1>2的效果。
2、近年来,强化学习(reinforcement learning,简称rl)在解决机器学习中的各种序贯决策问题方面取得了令人瞩目的进展,已经成为多智能体协同的主要研究方法,在机器人控制、自动驾驶以及交通信号控制等领域具有广泛的应用。随着人工智能以及算力的快速进步,更加速了多智能体协同的发展,由此多智能体深度强化学习(multi-agent deepreinforcement learning,简称madrl)应运而生。madrl是深度学习和强化学习结合的产物,在高维的状态空间以及复杂环境下有着比强化学习更出色的表现。
3、多无人机路径规划作为机器人控制领域的典型问题,在安防、农业、军事等领域应用广泛,主流的madrl算法相
...【技术保护点】
1.一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,包括:
2.根据权利要求1所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,所述待输入局部观测数据包括:
3.根据权利要求1所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,所述预训练的Actor-Critic网络中的Actor网络包括:目标策略网络和策略网络;所述预训练的Actor-Critic网络中的Critic网络包括:价值网络和目标价值网络;
4.根据权利要求3所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在
...【技术特征摘要】
1.一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,包括:
2.根据权利要求1所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,所述待输入局部观测数据包括:
3.根据权利要求1所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,所述预训练的actor-critic网络中的actor网络包括:目标策略网络和策略网络;所述预训练的actor-critic网络中的critic网络包括:价值网络和目标价值网络;
4.根据权利要求3所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,所述预训练的actor-critic网络的训练过程包括:
5.根据权利要求4所述的一种可扩展的深度强化学习多无人机路径规划协同方法,其特征在于,所述通过随机选择从经验回放池中抽取多个所述无人机训练数据作为每个无人机的训练数据之前,所述方法还包括:
6.根据权利要求4所述的一种可扩展的深度强化学习多无人机路径规划协同方法...
【专利技术属性】
技术研发人员:刘延飞,李超,王忠,李雪,王蓓,
申请(专利权)人:中国人民解放军火箭军工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。