当前位置: 首页 > 专利查询>浙江大学专利>正文

基于强化学习的多机器人围捕多目标的分布式决策方法技术

技术编号:35311109 阅读:37 留言:0更新日期:2022-10-22 13:02
基于强化学习的多机器人围捕多目标的分布式决策方法,包括:一、仿真环境初始化,随机生成障碍物、追逐者和逃跑者的状态信息,追逐者和逃跑者都为智能体的机器人;二、获取机器人的观测值信息;三、获取机器人的可行动作,遍历其动作空间得到可行动作集;四、策略神经网络根据观测值信息从当前状态的可行动作集中选择出一个动作;五、仿真环境根据选择出的动作对机器人进行更新并计算执行该动作获得的奖励;六、将四

【技术实现步骤摘要】
基于强化学习的多机器人围捕多目标的分布式决策方法


[0001]本专利技术属于机器人的
,具体涉及基于强化学习的多机器人围捕多目标的分布式决策方法。

技术介绍

[0002]移动目标的围捕,是指多个追逐者对可移动目标进行包围,约束移动目标的活动范围,使得移动目标无法移动。由于移动目标的速度较快,活动较灵活,单个追逐者无法独立完成对目标的包围,需要多个追逐者之间相互协作,从不同角度同时进行包围才能高效地完成追逐任务。
[0003]目前,对于多机器人围捕问题的大部分研究都比较传统与局限:
[0004]1.未考虑环境内的障碍物情况,然而在现实应用中,环境中存在着诸如障碍物、禁航区、禁行区等无法进入的区域;
[0005]2.未考虑多个逃跑者的情况,多机器人围捕多目标的问题区别于传统的多机器人追逐单目标的问题,多机器人围捕多目标任务需要将目标分配和运动规划统筹考虑,对目标分配和多机器人的协同性提出了重要挑战;
[0006]3.将逃跑者的运动策略以诸如人工势场法等非学习类的策略来表示,然而此种非学习类表示方法欠缺智能性,以此逃跑策略为目标而设计/训练出的围捕策略模型极易过拟合,并由于其缺乏鲁棒性和泛化性而无法现实应用;
[0007]4.将围捕追逐问题定义为追逐者追到逃跑者(即判定依据为追逐者和逃跑者发生碰撞),但是在更一般的场景而言,如水面舰艇的包围或地面车辆的包围,多数的情况是以不损毁己方机器人和目标机器人的情况下从而限制目标机器人的运动;
[0008]5.追逐者和逃跑者的数量不多,无法适应大规模集群围捕的场景,同时由于增加了追逐者后智能体的整体数量变多,容易导致状态空间维度爆炸和环境的不稳定性,如何更好地表示大规模集群问题中的观测值极为重要。
[0009]因此怎样对多机器人追捕者围捕多个机器人逃跑者进行训练提升追逐者协同学习对抗仍然是需要改进的问题。

技术实现思路

[0010]为了实现以上目的,本专利技术提供了基于强化学习的多机器人围捕多目标的分布式决策方法。
[0011]本专利技术采用以下技术方案:基于多智能体强化学习的多机器人围捕多目标的分布式决策方法,包括以下步骤:
[0012]步骤一、对仿真环境进行初始化,随机生成障碍物、追逐者和逃跑者的状态信息,所述追逐者和逃跑者都为智能体的机器人;
[0013]步骤二、获取每个机器人的观测值信息;
[0014]步骤三、获取机器人的可行动作,通过遍历机器人的动作空间得到可行动作集;
[0015]步骤四、策略神经网络根据每个机器人的观测值信息,从该机器人当前状态的可行动作集中选择出一个动作;
[0016]步骤五、仿真环境根据策略神经网络输出的每个机器人的动作对每个机器人进行位置和状态更新,并计算执行该动作所获得的奖励;
[0017]步骤六、将步骤四

步骤五的决策过程存储到经验收集池中;
[0018]步骤七、重复步骤二

步骤六,直到达到单轮最大的仿真时间;
[0019]步骤八、根据存储器中的各个智能体与仿真环境的交互信息,使用多智能体强化学习算法进行训练;
[0020]步骤九、重复步骤一

步骤八,直到达到最大的交互训练轮数。
[0021]进一步的,所述步骤一具体为:
[0022]11、对仿真环境进行初始化,定义仿真环境的地图大小后,对追逐者与逃跑者的期望距离、期望距离系数进行定义,对相同类别的智能体的惩罚距离、惩罚距离的惩罚系数进行定义,对两个机器人之间的危险距离、危险距离的惩罚系数进行定义,对约束距离、禁止动作的距离进行定义;
[0023]12、随机生成障碍物、追逐者和逃跑者的状态信息。
[0024]进一步的,所述步骤二中,追逐者的观测值信息包括自身的位置和速度信息、其他追逐者相对于自己的位置和速度信息、逃跑者相对于自己的位置和速度信息、障碍物的半径和其相对于自己的位置信息;
[0025]逃跑者的观测值信息包含自身的位置和速度信息、其他逃跑者相对于自己的位置和速度信息、追逐者相对于自己的位置和速度信息、障碍物的半径和其相对于自己的位置信息。
[0026]进一步的,所述步骤三具体为:
[0027]追逐者和逃跑者的动作空间定义为离散的动作,每个机器人可选速度有m个,可选角度/角速度为n个,对其进行组合,则该机器人一共有m
×
n个可选动作;
[0028]已知仿真环境的地图信息和其他机器人的状态信息,在当前位置状态下,对所有的可选动作在一个仿真步长内进行一次试探性的虚拟更新,如果更新得到的新的位置不满足预先设置的要求,将这个动作记录为不可执行动作,遍历完毕所有的可选动作之后,每一个机器人都得到一个可行动作集。
[0029]更进一步的,所述预先设置的要求为:与其他机器人或障碍物发生碰撞或进入危险碰撞区域。
[0030]进一步的,所述步骤四具体为:
[0031]根据追逐者、逃跑者的当前状态和当前可行动作集,利用循环神经网络(RNN)对己方、对方和障碍物的信息进行特征提取,将提取出的特征信息与自身状态信息进行拼接,将得到的拼接结果输入到一个全连接层,经全连接层计算输出计算结果;
[0032]将全连接层的计算结果和循环神经网络上一个时间步的隐层状态输入到循环神经网络,然后使用循环神经网络的隐层状态和当前可行动作集作为动作决策层的输入,动作决策层输出当前状态下可执行动作的概率分布,追逐者从该概率分布中采样获得具体执行的一个动作。
[0033]进一步的,所述步骤五中计算执行该动作所获得的奖励具体为:基于追逐者和逃
跑者在完成“追逐”或“逃跑”这个最高层级的任务时,还需要完成底层的任务,底层的任务包括避免与其他的追逐者、逃跑者、仿真环境的边界、障碍物中任一者的距离过近,追逐者和逃跑者的奖励都采用复合奖励函数。
[0034]进一步的,所述步骤六包括:
[0035](6.1)初始化,为充分利用计算机资源进行训练数据的收集与策略交互,开辟n
rollout
个线程进行训练过程中的策略交互和数据收集;
[0036](6.2)策略交互,记录当前追逐者的策略网络为记录当前逃跑者的策略网络为使用当前追逐者和逃跑者的策略与仿真环境进行交互n
length
步,由于追逐者和逃跑者内部为策略参数共享,所以可以将不同的追逐者视为“并行的”经验收集器,将每一步收集到的马尔可夫决策过程(s
t
,a
t
,r
t
,s
t+1
)分别存储到追逐者、逃跑者各自内部共享的经验存储池当中。
[0037]本专利技术的有益效果为:本分布式决策方法能够在有限的、随机散布障碍物的区域内实现对于多个快速移动并且具备智能性的逃跑者进行围捕,主要通过多智能体强化学习的方法对逃跑者和追逐者同时进行训练以引入博弈对抗的仿真环境,训练得到的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于强化学习的多机器人围捕多目标的分布式决策方法,其特征在于,包括以下步骤:步骤一、对仿真环境进行初始化,随机生成障碍物、追逐者和逃跑者的状态信息,所述追逐者和逃跑者都为智能体的机器人;步骤二、获取每个机器人的观测值信息;步骤三、获取机器人的可行动作,通过遍历机器人的动作空间得到可行动作集;步骤四、策略神经网络根据每个机器人的观测值信息,从该机器人当前状态的可行动作集中选择出一个动作;步骤五、仿真环境根据策略神经网络输出的每个机器人的动作对每个机器人进行位置和状态更新,并计算执行该动作所获得的奖励;步骤六、将步骤四

步骤五的决策过程存储到经验收集池中;步骤七、重复步骤二

步骤六,直到达到单轮最大的仿真时间;步骤八、根据存储器中的各个智能体与仿真环境的交互信息,使用多智能体强化学习算法进行训练;步骤九、重复步骤一

步骤八,直到达到最大的交互训练轮数。2.根据权利要求1所述的基于强化学习的多机器人围捕多目标的分布式决策方法,其特征在于,所述步骤一具体为:11、对仿真环境进行初始化,定义仿真环境的地图大小后,对追逐者与逃跑者的期望距离、期望距离系数进行定义,对相同类别的智能体的惩罚距离、惩罚距离的惩罚系数进行定义,对两个机器人之间的危险距离、危险距离的惩罚系数进行定义,对约束距离、禁止动作的距离进行定义;12、随机生成障碍物、追逐者和逃跑者的状态信息,所有追逐者和逃避者的初始速度为零。3.根据权利要求1所述的基于强化学习的多机器人围捕多目标的分布式决策方法,其特征在于,所述步骤二中,追逐者的观测值信息包括自身的位置和速度信息、其他追逐者相对于自己的位置和速度信息、逃跑者相对于自己的位置和速度信息、障碍物的半径和其相对于自己的位置信息;逃跑者的观测值信息包含自身的位置和速度信息、其他逃跑者相对于自己的位置和速度信息、追逐者相对于自己的位置和速度信息、障碍物的半径和其相对于自己的位置信息。4.根据权利要求1所述的基于强化学习的多机器人围捕多目标的分布式决策方法,其特征在于,所述步骤三具体为:追逐者和逃跑者的动作空间定义为离散的动作,每个机器人可选速度有m项,可选角度/角速度有n项,对其进行组合,则该机器人一共有m
×
n项可选动作;已知仿真环境的地图信息和其他机器人的状态信息,在当前位置状态下,对所...

【专利技术属性】
技术研发人员:刘勇杨贺磊曹军杰
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1