一种可扩展的深度强化学习多无人机路径规划协同方法技术

技术编号：41156245 阅读：2 留言：0更新日期：2024-04-30 18:20

本发明专利技术提供的一种可扩展的深度强化学习多无人机路径规划协同方法，包括：S101、组网中任意当前无人机获取自身在当前时刻观测周围环境的待输入局部观测数据；S102、将待输入局部观测数据输入自身预训练的Actor‑Critic网络，通过预训练的Actor‑Critic网络中的Actor网络输出当前时刻的预测飞行动作；S103、当前无人机按照预测飞行动作，执行相应的飞行动作；S104、循环执行S101‑S103，以完成对自身飞行路径规划；其中，预训练的Actor‑Critic网络是在基于自注意力机制的参数共享和门控单元策略下，利用多个不同局部观测空间中的无人机训练数据训练得到的。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多智能体协同，具体涉及一种可扩展的深度强化学习多无人机路径规划协同方法。

技术介绍

1、多智能体系统(multi-agent system，简称mas)因其效率高、鲁棒性强等优点在农业、工业各个领域广泛应用。智能体之间通过相互协作高效地完成协同任务，实现1+1>2的效果。

2、近年来，强化学习(reinforcement learning，简称rl)在解决机器学习中的各种序贯决策问题方面取得了令人瞩目的进展，已经成为多智能体协同的主要研究方法，在机器人控制、自动驾驶以及交通信号控制等领域具有广泛的应用。随着人工智能以及算力的快速进步，更加速了多智能体协同的发展，由此多智能体深度强化学习(multi-agent deepreinforcement learning，简称madrl)应运而生。madrl是深度学习和强化学习结合的产物，在高维的状态空间以及复杂环境下有着比强化学习更出色的表现。

3、多无人机路径规划作为机器人控制领域的典型问题，在安防、农业、军事等领域应用广泛，主流的madrl算法相比较于传统的路径搜索算法有着能够更好的适应动态变化的复杂环境、更好的泛化能力等优势，可以有效地实现端到端的学习，大幅度提高无人机集群的路径搜索效率。尽管基于madrl的多无人机路径规划有着广泛的应用和巨大的优势，但仍面临一些挑战。首先，在面临大规模的集群以及连续的状态动作空间会产生维度灾难问题，现有的解决方案是利用全局共享的方式来降低整个系统的参数计算量，但仅此简单的参数共享限制了无人机集群系统的

4、因此，现有技术在面对部分观测环境下的多无人机路径规划任务，实际工程应用价值、决策能力以及协同性能较差。

技术实现思路

1、为了解决现有技术中所存在的上述问题，本专利技术提供了一种可扩展的深度强化学习多无人机路径规划协同方法。

2、本专利技术要解决的技术问题通过以下技术方案实现：

3、第一方面，本专利技术提供了一种可扩展的深度强化学习多无人机路径规划协同方法，包括：

4、s101、组网中任意当前无人机获取自身在当前时刻观测周围环境的待输入局部观测数据；

5、s102、将待输入局部观测数据输入自身预训练的actor-critic网络，通过预训练的actor-critic网络中的actor网络输出当前时刻的预测飞行动作；

6、s103、当前无人机按照预测飞行动作，执行相应的飞行动作；

7、s104、循环执行s101-s103，以完成对自身飞行路径规划；

8、其中，预训练的actor-critic网络是在基于自注意力机制的参数共享和门控单元策略下，利用多个不同局部观测空间中的无人机训练数据训练得到的；组网中任意无人机上均搭载有actor-critic网络。

9、可选地，待输入局部观测数据包括：

10、当前时刻无人机的位置、当前时刻障碍物的位置、当前时刻目标点的位置、当前时刻的飞行方向以及当前时刻的飞行速度。

11、可选地，预训练的actor-critic网络中的actor网络包括：目标策略网络和策略网络；预训练的actor-critic网络中的critic网络包括：价值网络和目标价值网络；

12、其中，目标策略网络为带有gru层的目标策略网络，策略网络为带有gru层的策略网络；价值网络为带有多头自注意力的价值网络，目标价值网络为带有多头自注意力的目标价值网络。

13、可选地，预训练的actor-critic网络的训练过程包括：

14、s201、从经验回放池中随机选择多组无人机训练数据作为每个无人机的训练数据；

15、每组无人机训练数据包括：当前时刻训练局部观测数据、当前时刻训练动作数据、当前时刻训练即时奖励数据以及下一时刻训练局部观测数据；

16、s202、将下一时刻训练局部观测数据oi′输入目标策略网络，获取目标策略网络预测动作数据

17、s203、将下一时刻训练局部观测数据oi′和输入目标价值网络中，并利用目标价值网络进行动作价值计算，得到目标价值网络预测动作价值qi-′；

18、s204、将当前时刻训练即时奖励数据ri以及qi-′输入td目标计算公式，得到td目标

19、s205、将当前时刻训练局部观测数据oi以及当前时刻训练动作数据ai输入价值网络中，并利用价值网络进行动作价值计算，得到重要性权重向量αi以及价值网络预测动作价值qi；

20、s206、将以及qi输入td误差计算公式，得到td误差δi；

21、s207、利用δi以及梯度下降更新方法，对价值网络进行参数更新；

22、s208、将当前时刻训练局部观测数据oi输入策略网络，计算得到当前时刻预测动作

23、s209、根据重要性权重向量αi对多个无人机进行相似度分组，并根据分组结果以及和qi基于梯度上升的方式对策略网络进行参数共享的更新处理；

24、s210、基于软更新方式对目标策略网络和目标价值网络的参数进行更新；

25、s211、重复执行上述步骤s201-s210，直到δi和qi的值趋于稳定，得到预训练的actor-critic网络。

26、可选地，通过随机选择从经验回放池中抽取多个无人机训练数据作为每个无人机的训练数据之前，方法还包括：

27、利用所有无人机的策略网络进行数据收集，并将所有收集数据以四元组形式存放于经验回放池。

28、可选地，将当前时刻训练局部观测数据oi以及当前时刻训练动作数据ai输入价值网络中，并利用价值网络进行动作价值计算，得到重要性权重向量αi以及价值网络预测动作价值qi，包括：

29、利用价值网络中的多层感知器输入层将当前时刻训练局部观测数据oi和ai，进行向量嵌入形成嵌入向量ei；

30、将所述ei输入价值网络中的多头自注意力层，得到无人机的注意力向量ci以及重要性权重向量αi；

31、通过价值网络中的多层感知器输出层对ci进行价值计算，得到价值网络预测动作价值qi。

32、可选地，将所述ei输入价值网络中的多头自注意力层，得到无人机的注意力向量ci以及重要性权重向量αi，包括：

33、利用价值网络中的多头自注意力层对ei进行映射处理，得到三元组分量信息；三元组分量信息包括：第一分量、第二分量以及第三分量；

34、

35、

36、

37、qi表示第一分量，ki表示第二分本文档来自技高网...

【技术保护点】

1.一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，包括：

2.根据权利要求1所述的一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，所述待输入局部观测数据包括：

3.根据权利要求1所述的一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，所述预训练的Actor-Critic网络中的Actor网络包括：目标策略网络和策略网络；所述预训练的Actor-Critic网络中的Critic网络包括：价值网络和目标价值网络；

4.根据权利要求3所述的一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，所述预训练的Actor-Critic网络的训练过程包括：

5.根据权利要求4所述的一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，所述通过随机选择从经验回放池中抽取多个所述无人机训练数据作为每个无人机的训练数据之前，所述方法还包括：

6.根据权利要求4所述的一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，将所述当前时刻训练局部观测数据oi以及所述当前时刻训练动作

7.根据权利要求6所述的一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，所述将所述ei输入所述价值网络中的多头自注意力层，得到所述无人机的注意力向量ci以及所述重要性权重向量αi，包括：

8.根据权利要求6所述的一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，所述根据所述重要性权重向量αi对多个所述无人机进行相似度分组，并根据分组结果以及所述和所述Qi基于梯度上升的方式对所述策略网络进行参数共享的更新处理，包括：

9.根据权利要求4所述的一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，所述TD目标计算公式表示为：

10.根据权利要求4所述的一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，所述TD误差计算公式表示为：

...

【技术特征摘要】

1.一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，包括：

2.根据权利要求1所述的一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，所述待输入局部观测数据包括：

3.根据权利要求1所述的一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，所述预训练的actor-critic网络中的actor网络包括：目标策略网络和策略网络；所述预训练的actor-critic网络中的critic网络包括：价值网络和目标价值网络；

4.根据权利要求3所述的一种可扩展的深度强化学习多无人机路径规划协同方法，其特征在于，所述预训练的actor-critic网络的训练过程包括：

6.根据权利要求4所述的一种可扩展的深度强化学习多无人机路径规划协同方法...

【专利技术属性】
技术研发人员：刘延飞，李超，王忠，李雪，王蓓，
申请(专利权)人：中国人民解放军火箭军工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人