基于分层深度强化学习的多机器人安全导航方法及系统技术方案

技术编号:37969631 阅读:6 留言:0更新日期:2023-06-30 09:44
本发明专利技术公开了基于分层深度强化学习的多机器人安全导航方法及系统,属于深度强化学习技术领域,尤其涉及基于深度强化学习的多机器人导航方法。该方法采用基于技能的分层深度强化学习模型框架,通过设计基于规则的目标驱动策略和安全转向策略,以及基于深度强化学习的避障导航策略,分别实现目标接近、紧急制动以及避障导航三种低层行为策略;通过深度强化学习训练高层的行为选择策略,学习好的行为选择模型能够有效避免对人为设计策略选择规则的依赖。本发明专利技术通过设计多个基于传统控制规则的子行为策略,以及引入基于深度强化学习的行为选择策略,加强了机器人对当前环境的辨识能力,提高了多机器人避障导航的快速性以及安全性。性。性。

【技术实现步骤摘要】
基于分层深度强化学习的多机器人安全导航方法及系统


[0001]本专利技术涉及深度强化学习
,具体涉及基于分层深度强化学习的多机器人安全导航方法及系统。

技术介绍

[0002]随着机器人技术以及电子信息技术的发展,移动机器人的应用越来越智能化,其在有效地提高人类生产效率的同时,也能代替人类完成危险的工作。导航是移动机器人开展一切工作的基础,它要求机器人在较短时间内从起点无碰撞地移动到目标点。多机器人系统在此基础上,需要面对更加复杂的场景,具有更强的动态特性,机器人不仅要躲避外部障碍物,还要在相互不碰撞的前提下与其他机器人形成一定的协同。因此,多机器人系统的导航问题对机器人的避障能力、协同能力都提出了更高的要求。
[0003]传统的多机器人导航问题可以分为集中式与分布式两种。集中式方法假定中央服务器能够通过全局通信系统知道全局地图并且实时获得所有机器人的状态,根据这些信息,中央服务器可以为每个机器人规划出最优轨迹。然而,受限于中央服务器的算力以及稳定可靠的通信能力,集中式方法很难拓展到大型多机器人系统上。分布式方法假定每个机器人能够获得其它机器人的状态并进行独立决策,大多数分布式方法主要基于速度障碍(VO)框架,如RVO、ORCA、NH

ORCA等,这些方法都假设每个机器人对周围环境有完美感知,然而在实际应用中,传感器有误差且通信网络存在延迟、丢包等问题;另外,这些方法有很多对环境敏感的可调参数,这也限制了它们的使用范围。
[0004]随着深度强化学习技术的发展,基于深度强化学习的多机器人导航方法不断涌现。2016年Chen等首先提出了基于深度强化学习的智能体级别多机器人避障算法(CADRL),CADRL算法将传统方法中的大量在线计算转为值网络的离线训练,机器人获得自身以及邻居的状态可通过值网络直接得到无碰撞动作指令。然而,机器人邻居的状态不能直接获得且训练过程非常耗时,限制了该算法的使用范围。为了简化机器人的行为决策过程,传感器级别的多机器人导航算法被提出。Long等人提出了一种直接将传感器数据映射到机器人行为动作的分布式多机器人导航算法,该算法通过多场景多阶段学习框架加快了并行PPO算法的训练效率。然而,该算法训练出的避障策略在复杂的场景下仍然不能持续地生成完美的行为动作。在此基础上,Fan等将深度强化学习策略与传统控制策略相结合,根据不同场景设计了多个子策略,机器人根据传感器判断当前所处的场景进而选择不同的子策略。该算法在简单场景下易移植、鲁棒性强,然而该算法依赖于人为设计的策略选择规则,在实际场景下,机器人搭载的传感器存在误差,且机器人遇到的场景更加复杂,该算法很容易导致机器人出现决策失误。
[0005]因此在已有的深度强化学习策略与传统控制策略的结合方案中,过于依赖人为设计的策略选择规则,机器人对当前环境辨识能力差,无法适应复杂的实际场景,缺乏避障导航的实时性和安全性。

技术实现思路

[0006]有鉴于此,本专利技术提供了一种基于分层深度强化学习的多机器人安全导航方法及系统,通过设计多个基于传统控制规则的子行为策略,以及引入基于深度强化学习的行为选择策略,摆脱了对人为设计的策略选择规则的依赖,加强了机器人对当前环境的辨识能力,提高了多机器人避障导航的实时性以及安全性。
[0007]为达到上述目的,本专利技术的技术方案包括如下步骤:
[0008]步骤1:针对多机器人导航问题模型,构建分层深度强化学习网络框架;网络框架包括六个模块:输入模块、特征提取模块、行为选择模块、DRL控制模块、辅助控制模块以及输出模块。
[0009]输入模块用于接收获取每个机器人对环境的观测数据,包括三个部分,其一为机器人实时的激光雷达搜索帧,其二为机器人坐标系下的目标点坐标,其三为实时的机器人速度;其中激光雷达搜索帧送入特征提取模块,目标点坐标和机器人速度的组合送入行为选择模块;特征提取模块的输出、目标点坐标和机器人速度的组合送入DRL控制模块;目标点坐标送入辅助控制模块。
[0010]特征提取模块由一维卷积网络组成,用于针对激光雷达搜索帧进行环境特征提取,所提取到的环境特征送入行为选择模块和DRL控制模块。
[0011]行为选择模块由全连接层组成,根据环境特征、目标点坐标以及机器人的速度,生成离散动作值并输出,离散动作值分别对应三种子行为策略,子行为策略包括DRL策略、目标驱动策略和安全转向策略。
[0012]DRL控制模块由全连接层组成,用于执行DRL策略,DRL策略是根据环境特征、目标点坐标和速度的组合来控制机器人进行避障,生成机器人避障控制指令。
[0013]辅助控制模块用于执行目标驱动策略和安全转向策略,目标驱动策略是根据目标点坐标驱动控制机器人向目标行进,生成目标驱动控制指令;安全转向策略用于控制机器人紧急制动并转向,生成转向控制指令。
[0014]输出模块用于根据行为选择模块的输出,确定取一子行为策略的控制指令并输出,用于对机器人进行控制。
[0015]步骤2:训练DRL控制模块。
[0016]步骤3:训练行为选择模块。
[0017]步骤4:针对经过步骤2和3训练好的分层深度强化学习网络框架,对多机器人系统进行导航控制。
[0018]进一步地,多机器人导航问题模型,具体为:
[0019]将多机器人导航问题建模为一个部分可观测马尔可夫决策过程POMDP,POMDP由六元组(S,A,R,P,Ω,O)组成,其中S为状态空间,A为动作函数,R为奖励函数,P为状态转移模型,Ω为观测空间,O为系统状态的观测概率分布;
[0020]在每一个时间步长t,第i个机器人观测到根据共享策略执行动作获得奖励并根据状态转移模型进入到下一状态
[0021]POMDP的目标是通过最小化同一场景下所有机器人到达目标的时间,找到所有机
器人最佳的共享策略,表示为:其中是第i个机器人到达目标的导航时间。
[0022]进一步地,输入模块用于接收获取每个机器人对环境的观测数据,包括三个部分,具体为:
[0023][0024]其中o
t
为机器人对环境的观测数据;为机器人当前时刻最后三帧连续激光雷达数据,为目标点在机器人坐标系下的坐标,为当前时刻机器人的速度,包括线速度和角速度,其中线速度的取值范围为[0,1],角速度的取值范围为[

1,1]。
[0025]进一步地,DRL控制模块生成的机器人避障控制指令包含机器人应采取的线速度与角速度,在DRL控制模块的输出层设置两种不同的激活函数,其一是sigmoid函数将线速度控制指令的输出约束到[0,1],另一个是使用tanh函数将角速度控制指令的输出约束到[

1,1]。
[0026]进一步地,辅助控制模块中,安全转向策略的控制规则为:设定线速度为0,设定角速度取DRL策略生成的角速度。
[0027]进一步地,辅助控制模块中,目标驱动策略生成的目标驱动控制指令包括机器人应采取的线速度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于分层深度强化学习的多机器人安全导航方法,其特征在于,该方法的步骤包括:步骤1:针对多机器人导航问题模型,构建分层深度强化学习网络框架;所述网络框架包括六个模块:输入模块、特征提取模块、行为选择模块、DRL控制模块、辅助控制模块以及输出模块;所述输入模块用于接收获取每个机器人对环境的观测数据,包括三个部分,其一为机器人实时的激光雷达搜索帧,其二为机器人坐标系下的目标点坐标,其三为实时的机器人速度;其中激光雷达搜索帧送入特征提取模块,目标点坐标和机器人速度的组合送入行为选择模块;特征提取模块的输出、目标点坐标和机器人速度的组合送入DRL控制模块;目标点坐标送入辅助控制模块;所述特征提取模块由一维卷积网络组成,用于针对激光雷达搜索帧进行环境特征提取,所提取到的环境特征送入行为选择模块和DRL控制模块;所述行为选择模块由全连接层组成,根据环境特征、目标点坐标以及机器人速度,生成离散动作值并输出,离散动作值分别对应三种子行为策略,所述子行为策略包括DRL策略、目标驱动策略和安全转向策略;所述DRL控制模块由全连接层组成,用于执行DRL策略,所述DRL策略是根据环境特征、目标点坐标和速度的组合来控制机器人进行避障,生成机器人避障控制指令;所述辅助控制模块用于执行目标驱动策略和安全转向策略,所述目标驱动策略是根据目标点坐标驱动控制机器人向目标行进,生成目标驱动控制指令;所述安全转向策略用于控制机器人紧急制动并转向,生成转向控制指令;所述输出模块用于根据行为选择模块的输出,确定取一子行为策略的控制指令并输出,用于对机器人进行控制;步骤2:训练所述DRL控制模块;步骤3:训练所述行为选择模块;步骤4:针对经过步骤2和3训练好的分层深度强化学习网络框架,对多机器人系统进行导航控制。2.如权利要求1所述的基于分层深度强化学习的多机器人安全导航方法,其特征在于,所述多机器人导航问题模型,具体为:将多机器人导航问题建模为一个部分可观测马尔可夫决策过程POMDP,POMDP由六元组(S,A,R,P,Ω,O)组成,其中S为状态空间,A为动作函数,R为奖励函数,P为状态转移模型,Ω为观测空间,O为系统状态的观测概率分布;在每一个时间步长t,第i个机器人观测到根据共享策略执行动作获得奖励并根据状态转移模型进入到下一状态POMDP的目标是通过最小化同一场景下所有机器人到达目标的时间,找到所有机器人最佳的共享策略,表示为:其中是第i个机器人到达目标的导航时间。3.根据权利要求1所述的基于分层深度强化学习的多机器人安全导航方法,其特征在于:所述输入模块用于接收获取每个机器人对环境的观测数据,包括三个部分,具体为:
其中o
t
为机器人对环境的观测数据;为机器人当前时刻最后三帧连续激光雷达数据,为目标点在机器人坐标系下的坐标,为当前时刻机器人的速度,包括线速度和角速度,其中线速度的取值范围为[0,1],角速度的取值范围为[

1,1]。4.根据权利要求3所述的一种基于分层深度强化学习的多机器人安全导航方法,其特征在于:所述DRL控制模块生成的机器人避障控制指令包含机器人应采取的线速度与角速度,在DRL控制模块的输出层设置两种不同的激活函数,其一是sigmoid函数将线速度控制指令的输出约束到[0,1],另一个是使用tanh函数将角速度控制指令的输出约束到[

1,1]。5.根据权利要求4所述的一种基于分层深度强化学习的多机器人安全导航方法,其特征在于:所述辅助控制模块中,所述安全转向策略的控制规则为:设定线速度为0,设定角速度取DRL策略生成的角速度。6.根据权利要求4所述的一种基于分层深度强化学习的多机器人安全导航方法,其特征在于:所述辅助控制模块中,所述目标驱动策略生成的目标驱动控制指令包括机器人应采取的线速度与角速度,由预先设定的可调参数p(p
l
,p
r
)进行控制,控制规则为:其中v
t
为时间t的线速度;w
t
为时间t的角速度;p
l
,p
r
分别是线速度和角速度的预设的可调参数;为时间t的机器人在地图坐标系下的坐标;为时间t时机器人在地图坐标系下的方向角;为时间t时目标点在地图坐标系下的坐标。7.根据权利要求1~6任一所述...

【专利技术属性】
技术研发人员:孙健晏玮王钢陈杰
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1