一种基于协同强化学习的多无人机轨迹规划和数据收集方法技术

技术编号：43156792 阅读：18 留言：0更新日期：2024-11-01 19:52

本发明专利技术公开了一种基于协同强化学习的多无人机轨迹规划和数据收集方法，包括：建立无人机与基站间通信的信道模型和数据收集模型，提出多无人机时断时续信息共享模型，多无人机时断时续信息共享模型包括地图状态信息共享子模型和历史经验信息共享子模型；基于多智能体双深度Q网络算法，无人机在有限资源下对动态环境的信息获取不全时，将自身的观测值输入到神经网络拟合的策略函数中并根据其他无人机的协同信息交互，输出动作并获得相应的奖励，完成与环境和其他无人机的交互。本发明专利技术能够保障无人机在复杂地形或者恶意干扰隔断机间协同共享时，也能顺利完成轨迹规划和数据收集。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无线通信，具体涉及一种基于协同强化学习的多无人机轨迹规划和数据收集方法。

技术介绍

1、在战场作战、灾害救援、山区通信等复杂环境下的任务执行过程中，无人机集群往往会面临通信时断时续、信息获取不完全、任务需求变化等问题。因此，需要无人机集群在时断时续的信息共享彼此的地图探索信息与经验，以保障其在复杂地形隔断机间协同共享时能顺利完成任务；需要优化无人机集群的共享信息，以便在有限资源下应对高动态环境的信息获取不完全的问题，实现高鲁棒的无人机协同强化学习系统构建，以应对复杂环境时断时续的问题，实现无人机系统的高效轨迹规划与数据收集。

2、相关研究表明，强化学习是一种很有前景的解决方案，它可以有效地无人机导航和任务规划。在强化学习中，智能体从其外部环境中学习，并在每次连续迭代中根据分配的策略获得奖励或惩罚，目标是通过最大化奖励来达到最终状态。然而，单个无人机在执行复杂任务时存在的资源限制和能力欠缺问题，催生了多无人机协同作业的新研究方向。而良好的多无人机协同任务规划，能够显著地提升多无人机之间的资源利用效率，提升多无人机的生存概率，对多无人机完成任务具有重要的意义。

3、目前，现有的高鲁棒的多无人机协同强化学习轨迹规划和数据收集仍面临以下挑战：（1）对复杂环境的考虑不足，缺乏对多无人机协同避障，通信和无人机电量约束下的多无人机轨迹规划；（2）对多无人机之间的协同信息共享考虑不足，缺乏对时断时续协同情况下的考虑；（3）对未知干扰源环境的考虑不足，缺乏在干扰环境下多无人机协同强化学习鲁棒轨迹规划和数据收集

4、公开号为cn111176334b的专利技术中公开了一种多无人机协同目标搜索方法，首先采用栅格法对搜索区域进行划分编号，建立环境地图模型；然后采用多粒子群算法对多无人机进行协同路径优化设计，并通过机间通信来实现高动态环境的更新；最后通过信息交互实现任务分配。其中每一架无人机对应一个粒子群，每一个粒子群中的粒子通过对速度和位置的更新，完成一次优化，带领无人机走向下一个航迹点。该方法能有效地减少路径重叠，有效实现多无人机之间的协同，对环境内高速运动的多未知动态目标进行搜索和跟踪。然而，该专利技术没有考虑到在通信环境复杂时，无人机间的通信信息交互得不到保证时的轨迹规划和数据收集处理方法。

技术实现思路

1、本专利技术的目的是为了提出一种基于协同强化学习的多无人机轨迹规划和数据收集方法，能够保障无人机在复杂地形或者恶意干扰隔断机间协同共享时，也能顺利完成轨迹规划和数据收集，并提出了一种基于协同的多智能体双深度q网络（cooperative multi-agent double deep q-network，cmaddqn）去求解上述协同信息交互开销、能耗与无人机轨迹规划和数据收集的均衡解。

2、为实现上述技术目的，本专利技术采取的技术方案为：

3、一种基于协同强化学习的多无人机轨迹规划和数据收集方法，所述多无人机轨迹规划和数据收集方法包括以下步骤：

4、s1，建立无人机与基站间通信的信道模型，求得无人机在不同位置与基站的通信速率，进而完成数据收集；提出多无人机时断时续信息共享模型，多无人机时断时续信息共享模型包括地图状态信息共享子模型和历史经验信息共享子模型；其中，所述地图状态信息共享子模型在多无人机在信息交互未被中断时，将区域探索情况作为一部分共享信息在无人机间信息交互时共享，通过协作学习覆盖未知的感兴趣领域，减少无人机视图的重叠；所述历史经验信息共享子模型在无人机在协同未被中断时，根据无人机间的距离，计算自身的历史经验对其他无人机在t时价值的度量作为概率值，并根据概率选择是否将无人机自身的经验信息作为协同信息进行共享，使其他无人机根据共享到的信息对各自的动作选择进行调整来最优无人机系统轨迹和数据收集，并根据精确势能博弈证明了所提的协同信息交互开销、能耗与无人机轨迹规划和数据收集的均衡解；

5、s2，基于多智能体双深度q网络算法求解协同信息交互开销、能耗与无人机轨迹规划和数据收集的均衡解；将自身的观测值输入到神经网络拟合的策略函数中并根据其他无人机的协同信息交互，输出动作并获得相应的奖励，完成与环境和其他无人机的交互。

6、进一步地，步骤s1中，所述地图状态信息共享子模型在多无人机在信息交互未被中断时，将区域探索情况作为一部分共享信息在无人机间信息交互时共享，通过协作学习覆盖未知的感兴趣领域的过程包括以下步骤：

7、对地图进行网格化，在地图网格化后引入网格区域探索度：

8、

9、其中为地图网格化后的第i行j列的网格；

10、将网格区域探索度作为一部分共享信息在无人机间信息交互时共享，无人机在选择动作时根据自身动作网络输出动作和网格区域探索度重新选择动作。

11、进一步地，步骤s1中，所述无人机自身的历史经验对其他无人机在t时价值的度量为：

12、

13、其中为无人机与无人机之间的距离，和分别表示不同价值圆的距离大小，根据具体环境预先设置好值，为无人机临界防碰撞距离；当两架无人机间的距离为时，两架无人机的经验信息对彼此最为有效。

14、进一步地，步骤s2中，根据效用函数设计无人机在t时奖励如下；

15、

16、其中表示移动惩罚以最小化移动步数，表示数据收集时奖励，为数据收集奖励系数，为收集的数据量，表示无人机协同信息交互代价，表示无人机与障碍物碰撞或进入禁飞区的惩罚，表示无人机成功降落奖励，为降落区降落奖励以保证无人机顺利降落，为电量剩余奖励系数，为无人机顺利完成任务降落时剩余电量以降低无人机的能耗。

17、进一步地，步骤s2中，在不断学习过程中，无人机根据自身策略与无人机间共享的协同信息进行动作选择和状态更新，并获得相应奖励来最小化损失函数和策略网络更新，损失函数定义如下：

18、

19、其中和分别为t时状态与动作，和分别为训练网络和目标网络权值，为折扣系数，为价值函数。

20、与现有技术相比，本专利技术的有益效果如下：

21、本专利技术的基于协同强化学习的多无人机轨迹规划和数据收集方法，考虑了在通信环境复杂时，无人机间的通信信息交互得不到保证时（例如，受到环境障碍物如高楼影响，隔绝无人机间通信），在这种断断续续的协同信息交互下，如何在通信连接情况下保证系统在长期角度完成稳健轨迹规划和数据收集，从而，即使在通信断开时，也能通过强化学习合理完成任务。与不协同相比，本专利技术在考虑协同信息交互代价下，奖励收敛水平提升了约49%，收敛后平均数据收集率达95%。

本文档来自技高网...

【技术保护点】

1.一种基于协同强化学习的多无人机轨迹规划和数据收集方法，其特征在于，所述多无人机轨迹规划和数据收集方法包括以下步骤：

2.根据权利要求1所述的基于协同强化学习的多无人机轨迹规划和数据收集方法，其特征在于，步骤S1中，所述地图状态信息共享子模型在多无人机在信息交互未被中断时，将区域探索情况作为一部分共享信息在无人机间信息交互时共享，通过协作学习覆盖未知的感兴趣领域的过程包括以下步骤：

3.根据权利要求1所述的基于协同强化学习的多无人机轨迹规划和数据收集方法，其特征在于，步骤S1中，所述无人机自身的历史经验对其他无人机在t时价值的度量为：

4.根据权利要求1所述的基于协同强化学习的多无人机轨迹规划和数据收集方法，其特征在于，步骤S2中，根据效用函数设计无人机在t时奖励如下；

5.根据权利要求1所述的基于协同强化学习的多无人机轨迹规划和数据收集方法，其特征在于，步骤S2中，在不断学习过程中，无人机根据自身策略与无人机间共享的协同信息进行动作选择和状态更新，并获得相应奖励来最小化损失函数和策略网络更新，损失函数定义如下：

【技术特征摘要】

1.一种基于协同强化学习的多无人机轨迹规划和数据收集方法，其特征在于，所述多无人机轨迹规划和数据收集方法包括以下步骤：

2.根据权利要求1所述的基于协同强化学习的多无人机轨迹规划和数据收集方法，其特征在于，步骤s1中，所述地图状态信息共享子模型在多无人机在信息交互未被中断时，将区域探索情况作为一部分共享信息在无人机间信息交互时共享，通过协作学习覆盖未知的感兴趣领域的过程包括以下步骤：

3.根据权利要求1所述的基于协同强化学习的多无人机轨迹规划和数据收集方法，其...

【专利技术属性】
技术研发人员：李思润，江华，徐振家，母骁楠，黄颖新，戚楠，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人