一种基于边缘系统和强化学习的无人机任务分配方法技术方案

技术编号：40668730 阅读：2 留言：0更新日期：2024-03-18 19:04

本发明专利技术涉及一种基于边缘系统和强化学习的无人机任务分配方法，方法包括：S1、设置无人机数据采集任务分配环境模型，环境模型包括无人机、障碍物、待采集数据点和边缘节点，边缘节点组成边缘系统；S2、每个无人机上设有一个训练完成的智能体，无人机执行群智感知任务的每一个时槽内，训练完成的智能体首先获取当前的状态，输出最优动作，基于最优动作控制无人机移动，然后在每一个时槽内剩余的时间内获取待采集数据点的数据；S3、选择出处于任一边缘节点的通信半径内的无人机，选择出的无人机在一个时槽结束时将离线任务状态信息发给边缘系统，并从边缘系统下载在线任务状态信息。与现有技术相比，本发明专利技术具有迁移性与普适性好等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无人机任务分配的，尤其是涉及一种基于边缘系统和强化学习的无人机任务分配方法。

技术介绍

1、随着配备各种传感器的智能设备(如智能手机、无人机和无人车)在大规模城市地区的广泛使用，移动群智感知(mcs)的应用逐渐被推广。使用智能设备的人群可以合作采集城市环境中人类活动及自然过程的数据，为社会中的诸多领域带来益处，如智能交通、城市管理、环境监测和灾害监测。近期的许多研究表明：相比使用便携式设备，无人机在执行相同的mcs任务时，能以更低的成本和更高的效率采集数据。多架无人机可以形成一个分布式的在线数据采集系统，在及时性、灵活性和自主性等方面占有高度优势。无人机系统可以采集和处理快速反馈的数据。此外，它可以根据实时条件动态调整任务分配和路径规划，更有效地应对复杂多变的环境。

2、然而，现有的基于无人机的移动群智感知框架和方法主要存在以下两个方面的缺陷：第一是无人机的通信问题条件过于理想化，第二是任务分配算法对环境信息的利用效率不高。

3、第一，无人机的通信问题条件过于理想化。目前为止，许多研究工作试图解决基于无人机的mcs数据采集问题。现有工作更多地关注在如何充分利用环境中的各种实体元素(通常包括pois(points of interest)、障碍物、无人机充电站等)，而忽略了在线分布式系统中无人机之间的通信问题，但这是在现实世界场景中无法回避的一个问题。拥有足够的通信能力，一架无人机可以在数据采集过程中与其他无人机共享信息，从自身角度告知别人自己掌握的任务状态信息(tsi，task state

4、第二，任务分配算法对环境信息的利用效率不高。无人机的任务分配和路径规划是一个复杂的np难序列决策问题，很难被建模为传统的约束优化问题。但是它可以被建模成为部分可观察的马尔可夫决策过程(pomdp)，并用深度强化学习(drl)或多智能体深度强化学习(madrl)方法来进行处理。近年来，drl方法在解决复杂问题方面显示出了巨大的优势，包括机器人决策、计算机游戏和其他典型np难问题。最近的研究工作表明，基于madrl的方法在mcs的任务分配中具有最佳表现。大多数madrl方法使用集中式训练-分布式执行(ctde)架构，其中具有actor-critic(ac)结构。在训练阶段，ac中critic使用(i)所有智能体的联合行动和观察，或(ii)全局状态其中的一个作为输入来拟合q函数。然而将其应用到mcs问题中时，分别存在下面的缺陷：对于第一种输入，忽略了所有智能体都没有观测到的全局环境信息，因此不能准确地表示环境的当前状态，导致q函数的学习困难且不稳定；对于第二种输入，省略了对于智能体的重要局部特征信息，因此不能有效地利用这些细节特征。

5、综上，现有的无人机任务分配方法在实现无人机之间通信时存在能量消耗大、效率低的问题，同时在通信时，无人机需要进行任务分配和路径规划，现有的路径规划方法应用到移动群智感知的无人机任务分配时，全局环境信息和细节特征利用率低，迁移性与普适性较差。

技术实现思路

1、本专利技术的目的就是为了克服上述问题而提供的一种基于边缘系统和强化学习的无人机任务分配方法。

2、本专利技术的目的可以通过以下技术方案来实现：

3、一种基于边缘系统和强化学习的无人机任务分配方法，方法包括：

4、s1、设置无人机数据采集任务分配环境模型，所述环境模型包括无人机、障碍物、待采集数据点和边缘节点，所述边缘节点组成边缘系统；

5、s2、每个无人机上设有一个训练完成的智能体，无人机执行群智感知任务的每一个时槽内，训练完成的智能体首先获取当前的状态，输出最优动作，基于最优动作控制无人机移动，然后在每一个时槽内剩余的时间内获取待采集数据点的数据；

6、s3、选择出处于任一边缘节点的通信半径内的无人机，选择出的无人机在时槽的末尾将离线任务状态信息发给边缘系统，并从边缘系统下载在线任务状态信息。

7、进一步地，方法还包括：将无人机组成的集合记为将障碍物的集合记为将待采集数据点的集合记为边缘节点的集合记为设整个群智感知任务流程被划分为m个时槽。

8、所述无人机在时槽结束时将离线任务状态信息发给边缘系统，并从边缘系统下载在线任务状态信息时，边缘系统的在线任务状态信息和无人机的离线任务状态的更新为：

9、

10、其中，为边缘系统的第在时槽i记录的待采集数据点p的剩余数据量，也就是边缘系统的在线任务状态信息，表示边缘节点构成的边缘系统，i表示时槽，表示与边缘系统通信的无人机集合，表示第u架无人机视角中在时槽i对待采集数据点p的剩余数据量，也就是无人机的离线任务状态，newest(·0用于选择输入中具有最新时间戳的元素。

11、进一步地，无人机的智能体的训练过程具体为：

12、a1、将无人机的智能体设于无人机决策模型内，每个智能体分别对应价值网络、动作网络、目标价值网络和目标动作网络，初始化任务轮数ep为1，每轮任务设有m个时槽；

13、a2、开始第ep轮任务，重置全局环境状态至s0，各无人机的智能体获得初始个性化状态及观测

14、a3、初始化回合次数i为0；

15、a4、每个智能体根据观测从动作网络中输出对应的动作为动作网络的参数，舍弃非法的输出动作，并添加高斯噪声，得到添加噪声后的动作；

16、a5、无人机执行添加噪声后的动作，并采集待采集数据点的数据，消耗能量；

17、a6、重复s3；

18、a7、环境进行状态转移，进入新环境状态si+1，所有无人机获得新观测和奖励

19、a8、对于所有的无人机计算新的个性化状态

20、a9、对于所有的无人机，将本回合的经验存入优先经验回放池fu和求和树tu中，其中，ai表示所有动作网络中输出对应的动作集合，表示当前个性化状态；

21、a10、对于所有的无人机，从优先经验回放池中采样出一批经验并更新动作网络与价值网络参数；

22、a11、更新经验的优先度，更新求和树；

23、a12、按权重参数τ软更新目标动作网络和目标价值网络；

24、a13、执行回合次数i加1，重复a4-a13，直至达到回合次数阈值；

25、a14、执行任务轮数ep+1，重复a2-a14，直至达到任务轮数阈值本文档来自技高网...

【技术保护点】

1.一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，方法包括：

2.根据权利要求1所述的一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，方法还包括：将无人机组成的集合记为将障碍物的集合记为将待采集数据点的集合记为边缘节点的集合记为设整个群智感知任务流程被划分为M个时槽。

3.根据权利要求2所述的一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，无人机的智能体的训练过程具体为：

4.根据权利要求3所述的一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，无人机u的个性化状态为：

5.根据权利要求4所述的一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，观测表示智能体自身视角下的当前环境，观测包括细粒度观测值粗粒度观测值和向量无人机u的观测为：

6.根据权利要求5所述的一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，所有无人机获得新观测的具体步骤为：

7.根据权利要求6所述的一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，A4中输出的动作为：

8.根据权利要求7所述的一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，A10的具体步骤为：

9.根据权利要求8所述的一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，损失函数为：

10.根据权利要求9所述的一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，奖励为：

...

【技术特征摘要】

1.一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，方法包括：

2.根据权利要求1所述的一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，方法还包括：将无人机组成的集合记为将障碍物的集合记为将待采集数据点的集合记为边缘节点的集合记为设整个群智感知任务流程被划分为m个时槽。

3.根据权利要求2所述的一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，无人机的智能体的训练过程具体为：

4.根据权利要求3所述的一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，无人机u的个性化状态为：

5.根据权利要求4所述的一种基于边缘系统和强化学习的无人机任务分配方法，其特征在于，观测表示智能...

【专利技术属性】
技术研发人员：龚炜，邓立原，李莉，陈斐斐，梁舒，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人