System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于强化学习的多车合作式持续监控系统轨迹规划方法技术方案_技高网

基于强化学习的多车合作式持续监控系统轨迹规划方法技术方案

技术编号:41363681 阅读:5 留言:0更新日期:2024-05-20 10:12
本发明专利技术公开了基于多智能体强化学习的多车系统合作式持续监控的轨迹规划方法,属于机器人智能决策与控制领域。首先构建面向目标区域合作式持续监控的多车轨迹规划问题的马尔科夫决策过程模型;引入栅格地图的发现度函数量化地图的搜索程度,并将其用于设计无人车合作式持续监控的状态空间,并设计动作空间和奖励函数;建立策略网络和评价网络;再基于多智能体强化学习算法,在无人车每前进一步后训练更新策略网络和评价网络,直至二者收敛;最终得到多无人车系统持续监控的策略网络。本发明专利技术基于无人车系统之间多车的分布式交互估计发现度地图,使该系统能够以较低地通信成本充分利用多车信息,解决合作方式下的轨迹规划问题,实现对目标监控区域尽可能多次的全覆盖。

【技术实现步骤摘要】

本专利技术涉及基于强化学习的多车合作式持续监控系统轨迹规划方法,属于机器人智能决策与控制,具体涉及一种基于多智能体强化学习的多车合作式持续监控的轨迹规划方法。


技术介绍

1、近年来,持续监测(persistent surveillance)引起了高度关注。持续监视是指在一段时间内对某个区域或目标进行连续、不间断的监视。持续监视的目标是持续监视特定位置、个人或事件,以增强态势感知、收集情报并支持不同领域的各种应用,这使得它在军事和民用领域都有广泛的应用。例如,持续监控可以在环境监测中跟踪环境变化,例如森林砍伐、野生动物移动和自然灾害,并且可以应用于犯罪预防、调查和监控公共空间,以确保公共安全。持续监视也可用于目标搜索问题,特别是对于动态目标。动态目标的状态(包括位置和速度)是随机的,搜索者无法获得,传统的解决方案是覆盖整个任务区域,而不是尝试直接寻找目标。考虑到目标有可能重新返回搜索过的区域,持续监视显然是更好的选择,可以对目标区域持续不断地进行监视。

2、无人车(ugv)可以自主运行,不需要由人操控,可以用于许多环境危险、复杂的领域。然而,单个无人车的性能在大范围环境下效果显著下降。诸多研究人员提出多个无人车可以协作完成更有效地完成任务。与单一无人车相比,多无人车系统由一组成本低且结构简单的无人车组成,可以实现同样的甚至更好的效果。更重要的是,多车系统有更强的容错能力和并行执行能力,这在大规模操作,例如大范围的监视或探索中效果更好,因此多车系统成为目标区域持续监控的理想实施平台。

3、持续监控是很有意义且难度很大的课题。然而,持续监视问题可以表述为np难的组合优化问题,这意味着这个问题没有解析解。持续监视问题的解决方法主要可分为两种不同类型。一是基于优化理论,如蚁群算法、遗传算法和分支与价格算法等。另一个是基于学习的方法。比如一种基于深度强化学习算法(drl)在双向循环神经网络(brnn)上获得无人机周期性最优控制输出策略覆盖整个目标区域。然而随着任务目标的多样化,优化问题已经不能很好的适应复杂动态的目标区域,而学习方法是解决此等问题的理想方法。

4、随着人工智能技术的发展,强化学习逐渐成为一种新的轨迹规划方法。多智能体强化学习基于“集中式训练,分布式执行”的范式,通过让多个智能体与环境交互并根据奖励信号来学习最优或次优的轨迹。这类方法的优点是可以适应复杂、不确定、非静态的环境,但是难以保证收敛性和稳定性。多智能体深度确定性策略梯度(maddpg,multi-agentdeep deterministic policy gradient)是一种多智能体强化学习的经典算法,基于强化学习实现多智能体协作控制,它通过使用集中式训练和分布式执行来克服部分可观测性和非平稳性的问题。

5、与目标跟踪任务相比,持续监控任务的轨迹规划问题具有更大的挑战性。在该任务中,不仅动态的目标未知,待监控的目标区域信息也不完全可知且是动态变化的。因此如何在状态部分可观的状态下实现对多车对目标区域合作式持续监控的轨迹规划,是目前尚未解决的问题。


技术实现思路

1、鉴于此,本专利技术提供了一种基于强化学习的多车合作式持续监控系统轨迹规划方法,该方法无需目标区域的准确信息,基于多车之间分布式通信完成目标区域状态估计,直接生成控制信号完成目标区域的持续监控。

2、为达到上述目的,本专利技术的技术解决方案为:

3、基于强化学习的多车合作式持续监控系统轨迹规划方法,包括以下步骤:

4、1)构建目标区域的发现度栅格地图;

5、2)构建多无人车之间的通信模型;

6、3)构建面向持续监控任务的多个无人车轨迹规划的马尔科夫决策过程模型;

7、4)根据步骤3)构建的马尔科夫决策过程模型建立多个无人车持续监控的轨迹优化问题;

8、5)根据步骤4)建立的多个无人车持续监控的轨迹优化问题设计强化学习求解算法;

9、6)将多个无人车的状态量输入到步骤5)强化学习求解算法中,得到基于多智能体强化学习规划策略下的多个无人车持续监控轨迹。

10、进一步地,步骤1)中,构建的目标区域的发现度栅格地图。为目标区域构建mc×mr的栅格地图,每个栅格地图的状态由一个发现度函数λ表示。对于横坐标为a∈(1,mc),纵坐标为b∈(1,mr)的栅格(a,b),在当前时刻k,其发现度函数λa,b(k)满足:

11、

12、其中,ga,b(k)代表在当前时刻k在栅格(a,b)上搜索的无人车数量,τ∈(0,1)是发现度衰减因子,所以每个栅格的发现度λ∈(0,λmax)。将每个栅格的发现度构建为mc×mr的二维矩阵,定义为状态估计地图

13、进一步地,步骤2)中,构建多无人车之间的通信模型。将多车系统中多个无人车之间的通信关系建立为无向连通图;每一个节点代表对应的无人车,相应的边对应无人车之间的通信关系,边两端的节点代表的无人车互为邻居,每个无人车都只能与邻居进行通信。

14、进一步地,步骤3)中,构建的持续监控任务的多个无人车轨迹规划的马尔科夫决策过程模型包括状态变量、控制变量、转移模型和奖励函数。

15、状态变量为无人车i的状态变量si(k),表达式为:

16、

17、其中,i=1,2,…,n,n是无人车的数量,pi(k)表示无人车i在当前时刻k的位置,θi(k)表示惯性坐标系下无人车i的方位角;表示无人车j在当前时刻k相对与无人车i的相对位置,使用极坐标形式表示,其中j=1,2,…,n且无人车j与无人车i;λi(k)为无人车i的对目标区域的状态估计分割地图;

18、控制变量为ai(k)表达式为:

19、ai(k)=[vi(k),αi(k)]

20、其中,vi(k)为无人车i的在当前时刻k的前进速度;αi(k)为无人车i的在当前时刻k的角加速度。

21、转移模型表达式为:si(k+1)=g(si(k),ai(k));si(k+1)为下一时刻k+1时刻的无人车i的位置,g(si(k),ai(k))为转移函数。

22、进一步地,所述状态变量,其中无人车i的状态估计分割地图λi(k)由状态估计地图经过地图分割处理得到。其中状态估计地图由多车根据自身维护的状态估计地图和通信收到的邻居状态估计地图经过最大一致方法获得;最大一致方法采用如下描述:

23、

24、当无人车i处于栅格(a,b)时,周围八个栅格(a-1,b+1)(a,b+1)(a+1,b+1)(a-1,b)(a+1,b)(a-1,b-1)(a,b-1)(a+1,b-1)的发现度函数保持不变,分别用λ1-8(k)表示,将八个栅格以外的栅格分为八个区域,横坐标用x表示,纵坐标用y表示,八个区域分别为x<a-1,y>b+1与地图边界围成区域,a-1≤x≤a+1,y>b+1与地图边界围成区域,x>a+1,y>b+本文档来自技高网...

【技术保护点】

1.基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于包括以下步骤:

2.根据权利要求1所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:

3.根据权利要求2所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:

4.根据权利要求3所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:

5.根据权利要求4所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:

6.根据权利要求5所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:

7.根据权利要求6所述的一种基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:

8.根据权利要求7所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:

9.根据权利要求8所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:

10.根据权利要求9所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:

【技术特征摘要】

1.基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于包括以下步骤:

2.根据权利要求1所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:

3.根据权利要求2所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:

4.根据权利要求3所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:

5.根据权利要求4所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:

...

【专利技术属性】
技术研发人员:孙健李广正李卓王钢王佳林陈杰
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1