System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及基于强化学习的多车合作式持续监控系统轨迹规划方法,属于机器人智能决策与控制,具体涉及一种基于多智能体强化学习的多车合作式持续监控的轨迹规划方法。
技术介绍
1、近年来,持续监测(persistent surveillance)引起了高度关注。持续监视是指在一段时间内对某个区域或目标进行连续、不间断的监视。持续监视的目标是持续监视特定位置、个人或事件,以增强态势感知、收集情报并支持不同领域的各种应用,这使得它在军事和民用领域都有广泛的应用。例如,持续监控可以在环境监测中跟踪环境变化,例如森林砍伐、野生动物移动和自然灾害,并且可以应用于犯罪预防、调查和监控公共空间,以确保公共安全。持续监视也可用于目标搜索问题,特别是对于动态目标。动态目标的状态(包括位置和速度)是随机的,搜索者无法获得,传统的解决方案是覆盖整个任务区域,而不是尝试直接寻找目标。考虑到目标有可能重新返回搜索过的区域,持续监视显然是更好的选择,可以对目标区域持续不断地进行监视。
2、无人车(ugv)可以自主运行,不需要由人操控,可以用于许多环境危险、复杂的领域。然而,单个无人车的性能在大范围环境下效果显著下降。诸多研究人员提出多个无人车可以协作完成更有效地完成任务。与单一无人车相比,多无人车系统由一组成本低且结构简单的无人车组成,可以实现同样的甚至更好的效果。更重要的是,多车系统有更强的容错能力和并行执行能力,这在大规模操作,例如大范围的监视或探索中效果更好,因此多车系统成为目标区域持续监控的理想实施平台。
3、持续监控是很有意义且
4、随着人工智能技术的发展,强化学习逐渐成为一种新的轨迹规划方法。多智能体强化学习基于“集中式训练,分布式执行”的范式,通过让多个智能体与环境交互并根据奖励信号来学习最优或次优的轨迹。这类方法的优点是可以适应复杂、不确定、非静态的环境,但是难以保证收敛性和稳定性。多智能体深度确定性策略梯度(maddpg,multi-agentdeep deterministic policy gradient)是一种多智能体强化学习的经典算法,基于强化学习实现多智能体协作控制,它通过使用集中式训练和分布式执行来克服部分可观测性和非平稳性的问题。
5、与目标跟踪任务相比,持续监控任务的轨迹规划问题具有更大的挑战性。在该任务中,不仅动态的目标未知,待监控的目标区域信息也不完全可知且是动态变化的。因此如何在状态部分可观的状态下实现对多车对目标区域合作式持续监控的轨迹规划,是目前尚未解决的问题。
技术实现思路
1、鉴于此,本专利技术提供了一种基于强化学习的多车合作式持续监控系统轨迹规划方法,该方法无需目标区域的准确信息,基于多车之间分布式通信完成目标区域状态估计,直接生成控制信号完成目标区域的持续监控。
2、为达到上述目的,本专利技术的技术解决方案为:
3、基于强化学习的多车合作式持续监控系统轨迹规划方法,包括以下步骤:
4、1)构建目标区域的发现度栅格地图;
5、2)构建多无人车之间的通信模型;
6、3)构建面向持续监控任务的多个无人车轨迹规划的马尔科夫决策过程模型;
7、4)根据步骤3)构建的马尔科夫决策过程模型建立多个无人车持续监控的轨迹优化问题;
8、5)根据步骤4)建立的多个无人车持续监控的轨迹优化问题设计强化学习求解算法;
9、6)将多个无人车的状态量输入到步骤5)强化学习求解算法中,得到基于多智能体强化学习规划策略下的多个无人车持续监控轨迹。
10、进一步地,步骤1)中,构建的目标区域的发现度栅格地图。为目标区域构建mc×mr的栅格地图,每个栅格地图的状态由一个发现度函数λ表示。对于横坐标为a∈(1,mc),纵坐标为b∈(1,mr)的栅格(a,b),在当前时刻k,其发现度函数λa,b(k)满足:
11、
12、其中,ga,b(k)代表在当前时刻k在栅格(a,b)上搜索的无人车数量,τ∈(0,1)是发现度衰减因子,所以每个栅格的发现度λ∈(0,λmax)。将每个栅格的发现度构建为mc×mr的二维矩阵,定义为状态估计地图
13、进一步地,步骤2)中,构建多无人车之间的通信模型。将多车系统中多个无人车之间的通信关系建立为无向连通图;每一个节点代表对应的无人车,相应的边对应无人车之间的通信关系,边两端的节点代表的无人车互为邻居,每个无人车都只能与邻居进行通信。
14、进一步地,步骤3)中,构建的持续监控任务的多个无人车轨迹规划的马尔科夫决策过程模型包括状态变量、控制变量、转移模型和奖励函数。
15、状态变量为无人车i的状态变量si(k),表达式为:
16、
17、其中,i=1,2,…,n,n是无人车的数量,pi(k)表示无人车i在当前时刻k的位置,θi(k)表示惯性坐标系下无人车i的方位角;表示无人车j在当前时刻k相对与无人车i的相对位置,使用极坐标形式表示,其中j=1,2,…,n且无人车j与无人车i;λi(k)为无人车i的对目标区域的状态估计分割地图;
18、控制变量为ai(k)表达式为:
19、ai(k)=[vi(k),αi(k)]
20、其中,vi(k)为无人车i的在当前时刻k的前进速度;αi(k)为无人车i的在当前时刻k的角加速度。
21、转移模型表达式为:si(k+1)=g(si(k),ai(k));si(k+1)为下一时刻k+1时刻的无人车i的位置,g(si(k),ai(k))为转移函数。
22、进一步地,所述状态变量,其中无人车i的状态估计分割地图λi(k)由状态估计地图经过地图分割处理得到。其中状态估计地图由多车根据自身维护的状态估计地图和通信收到的邻居状态估计地图经过最大一致方法获得;最大一致方法采用如下描述:
23、
24、当无人车i处于栅格(a,b)时,周围八个栅格(a-1,b+1)(a,b+1)(a+1,b+1)(a-1,b)(a+1,b)(a-1,b-1)(a,b-1)(a+1,b-1)的发现度函数保持不变,分别用λ1-8(k)表示,将八个栅格以外的栅格分为八个区域,横坐标用x表示,纵坐标用y表示,八个区域分别为x<a-1,y>b+1与地图边界围成区域,a-1≤x≤a+1,y>b+1与地图边界围成区域,x>a+1,y>b+本文档来自技高网...
【技术保护点】
1.基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于包括以下步骤:
2.根据权利要求1所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:
3.根据权利要求2所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:
4.根据权利要求3所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:
5.根据权利要求4所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:
6.根据权利要求5所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:
7.根据权利要求6所述的一种基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:
8.根据权利要求7所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:
9.根据权利要求8所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:
10.根据权利要求9所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:
【技术特征摘要】
1.基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于包括以下步骤:
2.根据权利要求1所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:
3.根据权利要求2所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:
4.根据权利要求3所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:
5.根据权利要求4所述的基于强化学习的多车合作式持续监控系统轨迹规划方法,其特征在于:
...
【专利技术属性】
技术研发人员:孙健,李广正,李卓,王钢,王佳林,陈杰,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。