System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多智能体深度强化学习的利用障碍物实施围捕方法技术_技高网

一种基于多智能体深度强化学习的利用障碍物实施围捕方法技术

技术编号:40144341 阅读:9 留言:0更新日期:2024-01-24 00:06
本发明专利技术提供一种基于多智能体深度强化学习的利用障碍物实施围捕方法,包括:构建包含N个追捕机器人、一个逃逸机器人和一个静态障碍物的追逃场景;基于构建的追逃场景,构建多智能体深度强化学习算法MATD3框架;基于构建的多智能体深度强化学习算法MATD3框架,设计基于状态转换的多机器人围捕策略的奖励函数;将设计的奖励函数与MATD3算法结合,得到基于多智能体深度强化学习MATD3的多机器人协同围捕策略。本发明专利技术针对存在障碍物的场景中机器人集群的协同围捕问题,采用基于MATD3的多智能体深度强化学习算法设计围捕策略,将围捕过程分成搜索、围困、转移、捕获四个状态,并充分利用障碍物来构建各个状态的奖励函数,提高围捕成功率,降低成功围捕所需的时间。

【技术实现步骤摘要】

本专利技术涉及多机器人协同围捕,具体而言,尤其涉及一种基于多智能体深度强化学习的利用障碍物实施围捕方法


技术介绍

1、多机器人协同围捕是指利用多个追捕机器人对入侵者或逃逸者进行围困和抓捕,其具有广泛而重要的应用场景,例如无人系统集群的军事对抗、治安维护、自主搜索救援、目标联合侦察监视等,因而一直是研究热点之一。研究方法包括基于模型的微分博弈、最优控制、几何规划等,近期研究的深度强化学习算法则不依赖于具体的机器人运动模型,通过在设定的任务场景中进行离线训练来获得围捕策略。

2、然而已有的方法和策略大多只针对无障碍物的场景进行设计,而对于任务场景中的障碍物则让机器人采取简单的规避动作。考虑到障碍物的存在可以阻挡逃逸者的运动路径,减少其活动范围,因此将障碍物加以合理有效利用将可以提高围捕性能。


技术实现思路

1、根据上述提出障碍物场景中多机器人协同围捕问题,提供一种基于多智能体深度强化学习的利用障碍物实施围捕方法。本专利技术考虑存在静态障碍物的围捕场景,利用多智能体深度强化学习算法matd3来设计机器人的围捕策略,将障碍物作为奖励函数设计中的重要因素,有效提高了围捕的成功率和效率。

2、本专利技术采用的技术手段如下:

3、一种基于多智能体深度强化学习的利用障碍物实施围捕方法,包括:

4、s1、构建包含n个追捕机器人pi,i=1,2,...,n、一个逃逸机器人e和一个静态障碍物o的追逃场景;

5、s2、基于构建的追逃场景,构建多智能体深度强化学习算法matd3框架;

6、s3、基于构建的多智能体深度强化学习算法matd3框架,设计基于状态转换的多机器人围捕策略的奖励函数;

7、s4、将设计的奖励函数与matd3算法结合,得到基于多智能体深度强化学习matd3的多机器人协同围捕策略。

8、进一步地,所述步骤s1,具体包括:

9、s11、选定场景为二维有限封闭区域,将障碍物用固定长度的直线来表示,且假设障碍物只阻挡机器人的行进路线,但不遮挡观测视线;

10、s12、用ol和or分别表示障碍物o的两个端点,用opi表示追捕机器人pi和逃逸机器人e之间的连线与障碍物的交点;

11、s13、构建每个机器人的运动方程,如下:

12、

13、其中,xi,yi是机器人i在二维平面场景中的位置坐标,vi是线速度,ψi是机器人的运动速度方向角,ai是加速度;限定所有追捕机器人的最大运动速度为逃逸机器人的最大运动速度为

14、进一步地,所述步骤s2中,采用多智能体双延迟深度确定策略梯度算法,构建的多智能体深度强化学习算法matd3框架中的每个智能体包括六个网络,分别是当前actor网络、目标actor网络、两个当前critic网络和两个目标critic网络,其中:

15、actor网络采用分散式执行的方式,输入自身的状态信息,输出决策的动作;两个critic网络采用集中式训练的方式,输入为自身的状态和动作信息,以及其他所有智能体的状态和动作信息,输出的是两个接近真值的q值。

16、进一步地,所述每个智能体的学习目标是最大化期望奖励,即q值,每个智能体中的网络的结构和训练方法采用深度确定策略梯度算法td3中的设定。

17、进一步地,所述步骤s3,具体包括:

18、s31、设计绕开障碍物奖励如下:

19、

20、其中,和分别为交点到障碍物左右两端点ol和or的距离,ne为无障碍物阻隔的所有机器人组成的集合;每个追捕机器人pi判断其与逃逸机器人e之间是否存在障碍物,即判断追捕机器人pi与逃逸机器人e的位置连线与障碍物是否相交;若存在障碍物,则该追捕机器人无法参与到围捕行动中,因而需绕开障碍物的阻隔;

21、s32、设计机器人避碰奖励如下:

22、

23、其中,δsafety>0为设置的安全距离,ζ>0为一常数,di,o为机器人i到障碍物o的最小距离,di,b为机器人i到场景边界的最小距离,di,j为机器人i和j之间的距离;设计的机器人避碰奖励用于引导机器人避免碰撞到障碍物和运动场景的边界,并且避免机器人相互之间发生碰撞;

24、s33、设计围捕奖励如下:

25、在搜索状态,令使追捕机器人学会利用障碍物来形成一个围绕逃逸机器人的包围圈;

26、在围困状态,令使追捕机器人能借助障碍物持续包围住逃逸机器人;

27、在转移状态,令使追捕机器人学会缩小包围圈;

28、在抓捕状态,令使追捕机器人向逃逸机器人移动并实施抓捕;

29、s34、追捕机器人pi在第t个时间步的整体奖励函数为设计的绕开障碍物奖励机器人避碰奖励和围捕奖励三个部分之和,表示为:

30、

31、进一步地,所述步骤s33中,设计的围捕奖励分为搜索、围困、转移、捕获四种状态分别设置奖励函数每一个状态对应一个更容易完成的子任务,并对应一种奖励函数,当各个状态所对应的条件被满足时,则采用所对应的奖励函数,各个状态应满足的条件和所对应的奖励函数设计如下:

32、s331、搜索状态:在搜索状态,逃逸机器人位于追捕机器人和障碍物组成的包围圈之外,判断条件如下:

33、

34、其中,s表示由下标点所包围的最大凸区域的面积,设计搜索状态的奖励函数如下:

35、

36、其中,di,e表示第i个追捕机器人到逃逸机器人e的距离,项用于惩罚追捕机器人远离逃逸机器人的行为;

37、s332、围困状态:在围困状态,逃逸机器人位于追捕机器人和障碍物共同组成的多边形区域内,。按照逆时针顺序对机器人从1到n进行编号,当i=n时,令i+1=1;当i=1时,令i-1=n;根据各机器人与障碍物的相对位置,判断是否维持在围困状态,并采用相应的奖励函数,分为以下四种情况:

38、情况一:对于符合条件的机器人pi,机器人pi的左右两侧连接的均不是障碍物,满足以下条件:

39、

40、其中,为最大速度比,k为围困的最大时间步数,所对应的奖励函数设计为:

41、

42、情况二:对于符合条件i+1∈o,的机器人pi,机器人pi的右侧连接的是障碍物而左侧是其他追捕机器人,满足以下条件:

43、

44、其中,代表机器人pi与逃逸者所构成的阿波罗尼斯圆的圆心ai到障碍物o的最小距离,圆心ai的坐标为其中和(xe,ye)分别为追捕机器人pi和逃逸机器人e的位置坐标;ri为阿波罗尼斯圆的半径,定义为此条件表示机器人pi与其左侧的机器人形成包围态势,并且防守其与右侧障碍物之间的空隙,所对应的奖励函数设计为:

45、

46、情况三:对于符合条件i-1∈o的机器人pi,机器人pi的右侧连接的是其他追捕机器人而左侧是障碍物,满足本文档来自技高网...

【技术保护点】

1.一种基于多智能体深度强化学习的利用障碍物实施围捕方法,其特征在于,包括:

2.根据权利要求1所述的基于多智能体深度强化学习的利用障碍物实施围捕方法,其特征在于,所述步骤S1,具体包括:

3.根据权利要求1所述的基于多智能体深度强化学习的利用障碍物实施围捕方法,其特征在于,所述步骤S2中,采用多智能体双延迟深度确定策略梯度算法,构建的多智能体深度强化学习算法MATD3框架中的每个智能体包括六个网络,分别是当前Actor网络、目标Actor网络、两个当前Critic网络和两个目标Critic网络,其中:

4.根据权利要求3所述的基于多智能体深度强化学习的利用障碍物实施围捕方法,其特征在于,所述每个智能体的学习目标是最大化期望奖励,即Q值,每个智能体中的网络的结构和训练方法采用深度确定策略梯度算法TD3中的设定。

5.根据权利要求1所述的基于多智能体深度强化学习的利用障碍物实施围捕方法,其特征在于,所述步骤S3,具体包括:

6.根据权利要求5所述的基于多智能体深度强化学习的利用障碍物实施围捕方法,其特征在于,所述步骤S33中,设计的围捕奖励分为搜索、围困、转移、捕获四种状态分别设置奖励函数每一个状态对应一个更容易完成的子任务,并对应一种奖励函数,当各个状态所对应的条件被满足时,则采用所对应的奖励函数,各个状态应满足的条件和所对应的奖励函数设计如下:

...

【技术特征摘要】

1.一种基于多智能体深度强化学习的利用障碍物实施围捕方法,其特征在于,包括:

2.根据权利要求1所述的基于多智能体深度强化学习的利用障碍物实施围捕方法,其特征在于,所述步骤s1,具体包括:

3.根据权利要求1所述的基于多智能体深度强化学习的利用障碍物实施围捕方法,其特征在于,所述步骤s2中,采用多智能体双延迟深度确定策略梯度算法,构建的多智能体深度强化学习算法matd3框架中的每个智能体包括六个网络,分别是当前actor网络、目标actor网络、两个当前critic网络和两个目标critic网络,其中:

4.根据权利要求3所述的基于多智能体深度强化学习的利用障碍物实施围...

【专利技术属性】
技术研发人员:刘中常戴兵谭成刘田禾岳伟
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1