一种基于强化学习的移动机器人安全运动方法技术

技术编号:38407839 阅读:16 留言:0更新日期:2023-08-07 11:15
本发明专利技术涉及移动机器人技术领域,具体公开了一种基于强化学习的移动机器人安全运动方法,包括以下技术方案:S1、设定运动方程和非线性仿射系统;S2、开发一种基于控制屏障函数CBF的保护屏障,提出包含基于CBF保护屏障的多智能体强化学习算法,以实现移动机器人AMR基于强化学习的安全运动。本发明专利技术采用上述的一种基于强化学习的移动机器人安全运动方法,可以保障移动机器人在工作过程中的安全性。障移动机器人在工作过程中的安全性。障移动机器人在工作过程中的安全性。

【技术实现步骤摘要】
一种基于强化学习的移动机器人安全运动方法


[0001]本专利技术涉及移动机器人
,尤其是涉及一种基于强化学习的移动机器人安全运动方法。

技术介绍

[0002]近年来,越来越多的移动机器人AMR被投入使用。一些AMR失控的风险正在飙升,虽然基于强化学习RL的方法在大量AMR的运动规划中取得了巨大的成功,但如果一些AMR失去控制,现有的基于RL的运动方法不能为剩余的功能性AMR提供安全保证。

技术实现思路

[0003]本专利技术的目的是提供一种基于强化学习的移动机器人安全运动方法,通过CBF的单一屏蔽算法MARL处理复杂的高级任务,并通过CBF的低级屏蔽处理每个功能AMR的安全问题,可以保证移动机器人在工作过程中的安全性。
[0004]为实现上述目的,本专利技术提供了一种基于强化学习的移动机器人安全运动方法,具体步骤如下:S1、构建移动机器人AMR的运动方程和非线性仿射系统,其具体为:本专利技术针对的问题是在仓库二维空间中某些AMR失控时,基于强化学习的安全运动规划问题,AMR在工作过程中,失控的AMR会干扰可控的AMR;设定AMR型号相同,并且运动学模型已知,每个可控的和不可控的AMR都可以观察到附近AMR的位姿,AMR指差动驱动机器人DDR,DDR可以在二维笛卡尔坐标下表示,如图1所示,以表示DDR在二维笛卡尔坐标中的位姿状态,其中和表示DDR在二维笛卡尔坐标中的位置,表示DDR在二维笛卡尔坐标中的朝向,DDR状态的演化运动方程具体为:;其中、和分别表示、和的一阶导数,和分别表示和,表示DDR的平移速度的大小,在本专利技术中,被假设为一个常数,DDR的动作是调整角速度;步骤S1中,非线性仿射系统为:;表示系统的状态,其中表示一个广义状态,表示一个广义状态空间,表示维实空间;表示一个控制输入(即一个动作),其中表示一个广义动作,表示一个广义动作空间,表示维实空间,和是两个局部Lipschitz
的函数;通过保证安全集的不变性,可以保证系统的安全性,一个连续可微函数定义的集合C满足: ; ;;集合C被称为安全集;其中表示集合C的边界,表示集合C的内部;对于系统和集合C,具有相对阶的是一个指数控制屏障函数(ECBF),如果存在满足;表示维实空间,表示上确界,表示函数对的李导数,表示函数对的重李导数,表示函数对的李导数,表示系统在时刻的状态,表示系统在时刻的状态,表示一个常量矩阵,表示幂次为的指数矩阵;其中;、和分别表示的一阶时间导数,二阶时间导数和阶时间导数。
[0005]S2、构建基于控制屏障函数CBF的保护屏障和基于CBF保护屏障的多智能体强化学习算法,以实现移动机器人AMR基于强化学习的安全运动,其具体为:可以通过多智能体强化学习处理复杂的高级任务,并通过基于CBF的保护屏障处理AMR的安全问题。该安全运动方法是可扩展的,通过少量AMR学得的安全运动方法,可以部署在大量同一型号的AMR上;CBF的保护屏障可以基于多个安全目标来确定,其中,多个安全目标的k个CBF,记为,可以通过布尔运算融合多个CBF,实现一个复合CBF,用表示:;基上式导出的复合CBF,获得基于CBF的保护屏障。
[0006]基于CBF的保护屏障只有在AMR倾向于违反安全条件的情况下才会修正AMR的动
作;基于CBF的保护屏障可以确定一个安全动作: ;;其中为根据多智能体强化学习确定的AMR的名义动作,为的上界。
[0007]算法1:包含基于控制屏障函数的保护屏障的多智能体强化学习算法具体为:1:设计AMR的基于CBF的保护屏障;2:初始化多智能体强化学习网络参数;3:回合从1到M;4:重置环境;5:接收初始状态;6:时间步从1到T;7:可控AMR的编号i从1到N;8:根据多智能体强化学习选择一个动作;9:基于和确定安全动作;10:更新动作;11:结束;12:执行;13:获得奖励和新状态;14:存储;15:更新状态;16:结束;17:更新网络的参数;18:结束;19:返回一个由网络参数和基于CBF的保护屏障确定的策略。
[0008]对于由第i个可控AMR和一个不可控AMR组成的系统,设()表示第i个AMR的位姿,()表示不可控AMR的位姿,第i个可控AMR和不可控AMR的位置差异表示为,可以写作:;
假设,其中表示的上界,设和分别表示第i个功能性AMR和不可控AMR的平移速度的大小,可控AMR和不可控AMR的速度的大小是相同的,其中一个有;第i个可控AMR与不可控AMR的速度之差记为,可表示为:;第i个功能AMR和不可控AMR的角速度分别记为和;和表示表示可控AMR和不可控AMR的最大可行角速度,且;针对第i个可控AMR,根据最坏情况设计基于CBF的保护屏障以提高AMR的安全性;在最坏的情况下,不可控的AMR将按照最优追击策略追击第i个可控AMR:;其中,表示,是一个符号函数:;表示沿逆时针从二维笛卡尔坐标的x轴到不可控AMR位置与第i个可控AMR位置连线的夹角,其中;对于一个由可控AMR和不可控AMR组成的系统,可以基于AMR的运动学模型设计一个基于CBF的保护屏障,以保证第i个可控AMR与不可控的AMR不会碰撞;为实现基于CBF的保护屏障,将第i个可控AMR的安全状态定义为:;其中是安全距离;一个连续可微的函数被定义为:;的一阶导数和二阶导数可以表示为:;其中
;对于该系统有,则可以表示为:;对于由第i个可控AMR和不可控AMR组成的系统,如果存在满足并保持上式大于零,那么由定义的是一个有效的保护屏障;然后,得到以下定理:在由一个可控AMR与同型号不可控AMR组成的系统中,如果可控AMR的状态最初是安全的,依据适当设计的控制屏障函数,可控AMR总有一个动作可以保持该可控AMR的状态在安全集中。
[0009]对于系统,如果第i个可控AMR的状态在安全集内,则有;如果有一组,然后就可以使;和中的项可以表示为:;其中,当且仅当时等号成立。由于,若;则有和,可以表示为:
;其中;第i个可控AMR通过选择适当的动作使;进而可使;如果第i个可控AMR选择适当的动作使;表示,并使CBF保护屏障的参数设置和满足;表示可控AMR与不可控AMR的最大距离。可以发现,总有一个满足和条件的动作,如果可控AMR的初始状态在安全集中且基于CBF的保护屏障的参数满足:;则总有一个动作可以保持可控AMR的状态安全;第i个可控AMR的安全动作,记为,可以表示为:,可以表示为:;其中是由多智能体强化学习确定的可控AMR的名义动作;表示安全距离的阈值;表示第i个可控AMR和不可控AMR的位置差异;和分别表示第i个功能性AMR和不可控AMR的平移速度的大小;表示第i个可控AMR与不可控AMR的速度之差;和分
别表示第i个可控AMR和不可控AMR的角速度;表示功能AMR的最大可行角速度;()表示第i个功能AMR的姿态,()表示不可控AMR的位姿;是一个符号函数;表示,表示,表示沿逆时针从二维笛卡尔坐标的x轴到不可控AMR位置与第i个可控AMR位置连线的夹角。
[0010]因此,本专利技术采用上述一种基于强化学习的移动机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的移动机器人安全运动方法,其特征在于:具体步骤如下:S1、构建移动机器人AMR的运动方程和非线性仿射系统;S2、构建基于控制屏障函数CBF的保护屏障和基于CBF保护屏障的多智能体强化学习算法,以实现移动机器人AMR基于强化学习的安全运动。2.根据权利要求1所述的一种基于强化学习的移动机器人安全运动方法,其特征在于:在步骤S1中,设定运动方程的具体操作为:所述AMR在工作过程中,失控的AMR会干扰可控的AMR;设定AMR型号相同,并且运动学模型已知,每个可控的和不可控的AMR都观察到附近AMR的位姿,AMR指差动驱动机器人DDR,以表示DDR在二维笛卡尔坐标中的位姿状态,其中和表示DDR在二维笛卡尔坐标中的位置,表示DDR在二维笛卡尔坐标中的朝向,DDR状态的演化运动方程具体为:;和分别表示和,表示DDR的平移速度的大小,、和分别表示、和的一阶导数,DDR的作用是调整角速度。3.根据权利要求2所述的一种基于强化学习的移动机器人安全运动方法,其特征在于:步骤S1中,非线性仿射系统为:;表示系统的状态,其中表示一个广义状态,表示一个广义状态空间,表示维实空间;表示控制输入,即动作,其中表示一个广义动作,表示一个广义动作空间,表示维实空间,和是两个局部Lipschitz的函数;通过安全集的不变性,保证系统状态的安全性,一个连续可微函数定义的集合C满足: ;;;集合C被称为安全集;其中表示集合C的边界,表示集合C的内部;对于系统和集合C,具有相对阶的是指数控制屏障函数ECBF,存在满足;表示维实空间,表示上确界,表示函数对的李导数,表示函
数对的重李导数,表...

【专利技术属性】
技术研发人员:熊昊曾伟锋江翰韬陆文杰
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1