System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于数字孪生和深度强化学习的集群协同目标搜索方法技术_技高网

一种基于数字孪生和深度强化学习的集群协同目标搜索方法技术

技术编号:41131455 阅读:6 留言:0更新日期:2024-04-30 18:01
本发明专利技术公开了一种基于数字孪生和深度强化学习的集群协同目标搜索方法.该方法首先在仿真环境中获取无人机集群协同搜索问题的观测,其中观测空间由目标存在概率信息图、网格访问次数信息图、邻居和威胁信息图以及自身位置信息构成。然后,将观测结果输入到DNQMIX的策略网络中,生成无人机动作,并在仿真环境中执行,获取环境奖励,奖励函数由发现目标奖励、环境认知奖励、区域覆盖奖励、避障奖励和步进奖励的线型耦合构成。将由观测、动作和奖励组成的样本数据储存在经验回放池中,对DNQMIX的混合网络和策略网络进行训练,直到奖励函数收敛,生成最终的无人机集群协同搜索决策模型。同时,该方法设计了一种基于数字孪生的无人机集群协同目标搜索深度强化学习方法的仿真训练体系架构,构建无人机集群数字孪生系统。深度强化学习方法运行于孪生决策模型中,并利用集群孪生仿真模型和孪生连接通道,进行深度强化学习模型的训练和部署。仿真结果证明了该方法的有效性。

【技术实现步骤摘要】

本专利技术属于无人机集群协同目标搜索领域,特别涉及基于数字孪生和深度强化学习的集群协同目标搜索方法


技术介绍

1、在过去的几十年里,协同目标搜索一直是一个热门话题。协同目标搜索的目的包括两个方面:快速完成目标定位和任务区域覆盖。例如,地震后幸存者的搜救,丛林作战中对敌人的搜索和攻击,边境巡逻中可疑目标的搜索和定位等。可以看出,目标搜索技术在民用和军用领域都有广泛的应用。

2、近年来,由于视觉传感器、微处理器和数据处理技术的快速发展,越来越多的无人机被用于目标搜索任务。然而,在大规模环境中,单个无人机的搜索性能显著下降。研究人员提出,多无人机协同工作可以更有效地完成目标搜索任务。与直升机或救援车辆等传统的目标搜索手段相比,无人机在成本、灵活性、可扩展性和部署难度方面具有优势。无人机集群协同目标搜索是一个非常重要且具有挑战性的问题。首先,需要为每架无人机规划搜索轨迹从而最大限度地实现空分复用。在动态未知环境中搜索时,还需要实现无人机的实时轨迹规划。同时,还需要在搜索过程中避免障碍或威胁。尽管无人机集群协同目标搜索系统需要一定程度的冗余以考虑鲁棒性,但优化无人机数量来控制成本也很重要。已经证明,无人机集群协同目标搜索问题的轨迹优化是np难的。迄今为止,还没有最佳解决方案。

3、解决上述问题的传统方法可分为两类。第一类是基于规划的,如编队搜索和分区搜索。这些方法主要考虑任务区域的几何形状、无人机的感知范围以及无人机的可用数量等。本质上,这些方法将搜索问题转化为区域覆盖问题,因此只适用于简单的环境。一旦出现动态障碍或无人机数量发生变化,就需要重新规划轨迹。第二类是基于优化理论。这些方法将目标搜索问题建模为以最小搜索时间或最大覆盖率为目标函数的优化问题。然而,随着无人机数量的增加,这些方法在时间和空间上的复杂性迅速上升,难以在大规模无人机集群系统中应用。此外,它们大多基于集中控制,这也限制了它们在恶劣环境中的使用,因为并非所有无人机都能始终连接到控制中心。

4、强化学习(reinforcement learning,rl)作为一种交互式学习方法,试图通过智能体和环境之间的持续交互试错来最大化累积回报。强化学习的目标是为可被建模为马尔可夫决策过程(markov decision process,mdp)序列决策问题提供更好的策略。最近,深度强化学习(deep reinforcement learning,d强化学习)的出现将深度学习(deeplearning,dl)和强化学习结合起来,极大地提高了强化学习解决大规模复杂问题的能力,并在电子游戏、机器人控制等领域取得了巨大成功。

5、无人机集群协同目标搜索问题已被证明是一个部分可观测的马尔可夫决策过程(partially observable markov decision process,pomdp)。因此,可以利用强化学习来解决该问题。然而,与常见的单智能体协同控制问题不同,无人机集群协同目标搜索是一个多智能体协同控制问题。如果我们直接将单智能体强化学习算法应用于该问题,例如著名的深度q学习(dqn)算法,将会导致环境的不稳定。因此,无人机无法从单智能体强化学习算法中学习有效的搜索策略。多智能体强化学习考虑了智能体之间的相互作用以及基于智能体联合行为的奖励。多智能体强化学习算法将成为解决无人机集群协同目标搜索问题的重要手段。然而,面向无人机集群协同目标搜索问题的多智能体深度强化学习算法目前鲜有研究,该领域仍存在诸多挑战和困难有待解决。


技术实现思路

1、本专利技术的目的是针对无人机集群协同目标搜索问题,提出一种基于数字孪生和深度强化学习的集群协同目标搜索方法,从而有效提高无人机集群的搜索效率。为了实现该目的,本专利技术所采用的步骤是:

2、步骤1:根据无人机传感器在每个时间步的探测结果,构建无人机集群探测信息融合模型,计算每个时间步无人机集群对搜索区域中每个网格目标存在概率的置信水平。

3、步骤2:结合无人机对每个网格目标存在概率的置信水平,定义无人机集群协同搜索问题的观测空间和动作空间。无人机的观测空间由目标存在概率信息图、网格访问次数信息图、邻居和威胁信息图以及自身位置信息构成,无人机的动作空间由上移一格、下移一格、左移一格、右移一格四个动作构成。

4、步骤3:设计无人机集群协同目标搜索问题的深度强化学习奖励函数。奖励函数包括五部分,分别为发现目标奖励、环境认知奖励、区域覆盖奖励、避障奖励和步进奖励,最终的奖励函数为上述五者的线性耦合。

5、步骤4:在仿真环境中获取无人机集群协同搜索问题的观测,输入到dnqmix的策略网络中,生成无人机动作,并在仿真环境中执行,获取环境奖励。同时将由观测、动作和奖励组成的样本数据储存在经验回放池中,对dnqmix的混合网络和策略网络进行训练,直到奖励函数收敛,生成最终的无人机集群协同搜索决策模型。

6、步骤5:搭建基于数字孪生的无人机集群协同目标搜索深度强化学习方法的仿真训练体系架构,无人机集群数字孪生系统分为孪生物理实体,孪生仿真模型,孪生决策模型和孪生连接通道,无人机集群协同目标搜索深度强化学习方法运行于孪生决策模型中,并利用集群孪生仿真模型和孪生连接通道,进行深度强化学习模型的训练和部署。

7、进一步,搜索区域中每个网格目标存在概率置信水平的计算方式具体为:

8、每架无人机i在时间步t都维护了一个独立的搜索区域ω的信息概率图首先,由于传感器检测能力的不完善,每个无人机需要根据观测结果更新自己的信息概率图。常用的更新方法基于贝叶斯规则,即:

9、

10、为了便于计算,引入一种线性更新方式。首先,将公式(1)变换为

11、

12、设定

13、

14、然后,公式(3)等价于

15、

16、其中

17、

18、将无人机i的邻居定义为:

19、hi={uj|||uj,t-ui,t||≤rc,j≠i and j=1,2,...,nu} (6)

20、其中rc表示通信范围。无人机记录每个网格的正检测次数n(+)和负检测次数n(-),且初始时刻均为0。在时间步t时,无人机i的n(+)和n(-)的更新表示为:

21、

22、和

23、

24、使用每个网格的正检测和负检测次数作为无人机间的通信交互信息。交互完成后,无人机i在时间步t处的正探测时间和负探测次数表示为:

25、

26、最后,无人机i在时间步t处得到的网格cx,y中目标存在概率的置信水平表示为:

27、

28、进一步,无人机集群协同搜索问题的观测空间和动作空间具体为:

29、无人机的视场范围(field of view,fov)定义为以自身为中心的正方形区域(边长为lf个网格大小)。在每个时间步,无人机提取与fov内的观本文档来自技高网...

【技术保护点】

1.一种基于数字孪生和深度强化学习的集群协同目标搜索方法,所采用的步骤是:

【技术特征摘要】

1.一种基于数字孪生和深度强化学习的集...

【专利技术属性】
技术研发人员:雷磊沈高青蔡圣所曹盼牛凯华杨宇李慧张莉涓
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1