当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于5G通信的全局信息驱动的分布式多机器人强化学习编队合围方法技术

技术编号:37973748 阅读:22 留言:0更新日期:2023-06-30 09:49
本发明专利技术公开了一种基于5G通信的全局信息驱动的分布式多机器人强化学习编队合围方法,一方面充分利用了5G通信大带宽低时延的特性,将多架无人机的传感数据全部汇集至中心化边缘服务器并通过算法重建全局状态信息,另一方面在运动决策阶段采用分布式策略网络以提高框架的可扩展性,使算法不需重新训练便可适应于一定范围变化数量的无人机,得益于该算法分布式内核带来的可扩展性,在少量机器人上训练的策略可以方便部署到大量机器人上,降低了强化学习策略的训练成本,同时提升了围捕控制算法的适应性,并最终提升了方法的合围效果,降低了合围误差。低了合围误差。低了合围误差。

【技术实现步骤摘要】
一种基于5G通信的全局信息驱动的分布式多机器人强化学习编队合围方法


[0001]本专利技术涉及多机器人协同编队合围领域,具体地说,是一种基于5G通信的全局信息驱动的分布式多机器人强化学习编队合围方法。

技术介绍

[0002]随着计算机、复杂系统科学,以及机器人技术的发展,多机器人系统(Multi

robot system,MRS)由于其对环境的适应能力,完成任务的高效率、低成本,及鲁棒性经常被用于完成各种单机器人系统无法或较难完成的复杂任务。多机器人目标合围任务便是一个典型案例,在军事攻防、灾后救援等重要场景中均有应用。针对该问题,经典的解决方法主要包括基于势场函数、基于人工物理、基于行为和基于规则等。这些方法均过度依赖人为设计和先验知识,面对复杂动态多交互场景的适应性和鲁棒性较差,故考虑采用多智能体深度强化学习的方法通过与环境交互学习合围策略。
[0003]对于多智能体强化学习方法而言,主要包含集中式和分布式两种框架。集中式框架意味着多个智能体被建模成一个增广单智能体,其状态空间为多智能体观测汇集而成的全局信息,其本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于5G通信的全局信息驱动的分布式多机器人强化学习编队合围方法,其特征在于,包括:接收多机器人目标合围系统通过5G通信系统发送的多架无人机机载传感器数据(GPS,IMU,RGB图像)到中心化边缘服务器;将中心化边缘服务器收集的传感信息送入其上运行的全局信息驱动的分布式多机器人强化学习编队合围算法模块中进行处理,得到各无人机的速度规划指令;通过5G通信系统将各无人机的速度规划指令下达到对应无人机执行,多架无人机对非配合移动目标实施圆盘形编队合围,并跟随目标整体移动始终将其保持在合围中心;中心化边缘服务器上运行的全局信息驱动的分布式多机器人强化学习编队合围算法模块对于多机器人目标合围系统传感信息的处理过程为:首先送入全局

局部转换模块,其中分别经过最近邻及坐标转换计算、目标检测、目标状态观测模块的计算并进行融合汇总得到无人机间最近邻关系信息及针对合围目标的全局估计信息,并进一步转换为各无人机局部坐标系下的近邻和目标状态信息;将转换得到的各无人机局部坐标系下的近邻和目标状态信息送入多机协同合围运动规划器中,通过基于强化学习的合围策略网络规划无人机在ENU坐标系下EN方向的线速度以及通过视觉伺服运动规划器规划ENU坐标系下U方向的线速度及沿Yaw轴旋转的角速度以保持目标始终在视野中央,汇总得到各无人机的速度规划指令。2.根据权利要求1所述的基于5G通信的全局信息驱动的分布式多机器人强化学习编队合围方法,其特征在于,所述的最近邻及坐标转换计算具体为:将收集到的全局观测信息转换为各无人机坐标系下考虑近邻的局部信息,所述的全局观测信息包括N架无人机全部的相机图像、GPS定位、线速度测量信息、IMU姿态信息,转换得到的各智能体局部观测包括各无人机本体坐标系下近邻无人机的位置和速度信息,对于每个无人机,其k个全局最近邻无人机可根据定位信息采用KNN(K最近邻)算法求解,并将其位置信息转换到本体坐标系下拼接为特征向量,近邻信息根据置换不变性的需要按相对于本机由近及远的顺序拼接。3.根据权利要求1所述的基于5G通信全局信息驱动的分布式多机器人强化学习编队合围方法,其特征在于,所述的目标状态观测计算具体为:采用异步单目图像融合的目标状态估计算法,用于根据各个无人机观测到的待合围目标在图像坐标系下的位置信息和相应无人机自身的位置速度姿态信息通过滤波算法实时融合重构出待合围目标在世界坐标系下的位置和速度信息并进一步转换到各个无人机局部坐标系下,为后续多无人机目标合围的多无人机控制任务提供输入;目标状态估计算法采用扩展卡尔曼滤波,结合目标匀速运动模型假设以及目标检测算法来估计目标的位置和速度。4.根据权利要求3所述的基于5G通信全局信息驱动的分布式多机器人强化学习编队合围方法,其特征在于,所述的目标状态估计算法具体为:若目标的状态为其中f
t
为目标t时刻的位置,v
t
为目标t时刻的速度,建立如下的目标状态传播方程:其中Δt为相邻两次目标检测结果的时间间隔,n
f
和n
v
分别为运动模型关于位置和速度
的噪声,该状态传播方程抽象为当完成了状态传播后,利用目标检测算法的像素坐标结果对目标状态进行更新,对于第i架无人机,若它在t时刻检测到了目标,则推算出目标的中心点的像素坐标进而有如下的观测方程:其中和为第i架无人机在t时刻的姿态和位置,姿态通过无人机上的惯性测量单元IMU获取,位置通过GPS获取,n
uv
为观测噪声,Π为相机的重投影方程,该方程将空间中的三维点坐标转化为图像中的二维像素坐标,该观测方程抽象为y
t
=h(x
t
)+n
uv
;有了状态传播方程和观测方程,通过标准的扩展卡尔曼滤波进行状态估计,即P
t|t
‑1=F
t
P
t
‑1F
tT
+Q
...

【专利技术属性】
技术研发人员:王越沙昊张铸青吴俊熊蓉
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1