基于强化学习的多机器人围捕多目标的分布式决策方法技术

技术编号：35311109 阅读：37 留言：0更新日期：2022-10-22 13:02

基于强化学习的多机器人围捕多目标的分布式决策方法，包括：一、仿真环境初始化，随机生成障碍物、追逐者和逃跑者的状态信息，追逐者和逃跑者都为智能体的机器人；二、获取机器人的观测值信息；三、获取机器人的可行动作，遍历其动作空间得到可行动作集；四、策略神经网络根据观测值信息从当前状态的可行动作集中选择出一个动作；五、仿真环境根据选择出的动作对机器人进行更新并计算执行该动作获得的奖励；六、将四

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的多机器人围捕多目标的分布式决策方法

[0001]本专利技术属于机器人的
，具体涉及基于强化学习的多机器人围捕多目标的分布式决策方法。

技术介绍

[0002]移动目标的围捕，是指多个追逐者对可移动目标进行包围，约束移动目标的活动范围，使得移动目标无法移动。由于移动目标的速度较快，活动较灵活，单个追逐者无法独立完成对目标的包围，需要多个追逐者之间相互协作，从不同角度同时进行包围才能高效地完成追逐任务。
[0003]目前，对于多机器人围捕问题的大部分研究都比较传统与局限：
[0004]1.未考虑环境内的障碍物情况，然而在现实应用中，环境中存在着诸如障碍物、禁航区、禁行区等无法进入的区域；
[0005]2.未考虑多个逃跑者的情况，多机器人围捕多目标的问题区别于传统的多机器人追逐单目标的问题，多机器人围捕多目标任务需要将目标分配和运动规划统筹考虑，对目标分配和多机器人的协同性提出了重要挑战；
[0006]3.将逃跑者的运动策略以诸如人工势场法等非学习类的策略来表示，然而此种非学习类表示方法欠缺智能性，以此逃跑策略为目标而设计/训练出的围捕策略模型极易过拟合，并由于其缺乏鲁棒性和泛化性而无法现实应用；
[0007]4.将围捕追逐问题定义为追逐者追到逃跑者(即判定依据为追逐者和逃跑者发生碰撞)，但是在更一般的场景而言，如水面舰艇的包围或地面车辆的包围，多数的情况是以不损毁己方机器人和目标机器人的情况下从而限制目标机器人的运动；
[0008]5.追逐者和逃跑者的数量...

【技术保护点】

【技术特征摘要】
1.基于强化学习的多机器人围捕多目标的分布式决策方法，其特征在于，包括以下步骤：步骤一、对仿真环境进行初始化，随机生成障碍物、追逐者和逃跑者的状态信息，所述追逐者和逃跑者都为智能体的机器人；步骤二、获取每个机器人的观测值信息；步骤三、获取机器人的可行动作，通过遍历机器人的动作空间得到可行动作集；步骤四、策略神经网络根据每个机器人的观测值信息，从该机器人当前状态的可行动作集中选择出一个动作；步骤五、仿真环境根据策略神经网络输出的每个机器人的动作对每个机器人进行位置和状态更新，并计算执行该动作所获得的奖励；步骤六、将步骤四
‑
步骤五的决策过程存储到经验收集池中；步骤七、重复步骤二
‑
步骤六，直到达到单轮最大的仿真时间；步骤八、根据存储器中的各个智能体与仿真环境的交互信息，使用多智能体强化学习算法进行训练；步骤九、重复步骤一
‑
步骤八，直到达到最大的交互训练轮数。2.根据权利要求1所述的基于强化学习的多机器人围捕多目标的分布式决策方法，其特征在于，所述步骤一具体为：11、对仿真环境进行初始化，定义仿真环境的地图大小后，对追逐者与逃跑者的期望距离、期望距离系数进行定义，对相同类别的智能体的惩罚距离、惩罚距离的惩罚系数进行定义，对两个机器人之间的危险距离、危险距离的惩罚系数进行定义，对约束距离、禁止动作的距离进行定义；12、随机生成障碍物、追逐者和逃跑者的状态信息，所有追逐者和逃避者的初始速度为零。3.根据权利要求1所述的基于强化学习的多机器人围捕多目标的分布式决策方法，其特征在于，所述步骤二中，追逐者的观测值信息包括自身的位置和速度信息、其他追逐者相对于自己的位置和速度信息、逃跑者相对于自己的位置和速度信息、障碍物的半径和其相对于自己的位置信息；逃跑者的观测值信息包含自身的位置和速度信息、其他逃跑者相对于自己的位置和速度信息、追逐者相对于自己的位置和速度信息、障碍物的半径和其相对于自己的位置信息。4.根据权利要求1所述的基于强化学习的多机器人围捕多目标的分布式决策方法，其特征在于，所述步骤三具体为：追逐者和逃跑者的动作空间定义为离散的动作，每个机器人可选速度有m项，可选角度/角速度有n项，对其进行组合，则该机器人一共有m
×
n项可选动作；已知仿真环境的地图信息和其他机器人的状态信息，在当前位置状态下，对所...

【专利技术属性】
技术研发人员：刘勇，杨贺磊，曹军杰，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人