【技术实现步骤摘要】
基于分层深度强化学习的多机器人安全导航方法及系统
[0001]本专利技术涉及深度强化学习
,具体涉及基于分层深度强化学习的多机器人安全导航方法及系统。
技术介绍
[0002]随着机器人技术以及电子信息技术的发展,移动机器人的应用越来越智能化,其在有效地提高人类生产效率的同时,也能代替人类完成危险的工作。导航是移动机器人开展一切工作的基础,它要求机器人在较短时间内从起点无碰撞地移动到目标点。多机器人系统在此基础上,需要面对更加复杂的场景,具有更强的动态特性,机器人不仅要躲避外部障碍物,还要在相互不碰撞的前提下与其他机器人形成一定的协同。因此,多机器人系统的导航问题对机器人的避障能力、协同能力都提出了更高的要求。
[0003]传统的多机器人导航问题可以分为集中式与分布式两种。集中式方法假定中央服务器能够通过全局通信系统知道全局地图并且实时获得所有机器人的状态,根据这些信息,中央服务器可以为每个机器人规划出最优轨迹。然而,受限于中央服务器的算力以及稳定可靠的通信能力,集中式方法很难拓展到大型多机器人系统上。分布式方法假定每个机器人能够获得其它机器人的状态并进行独立决策,大多数分布式方法主要基于速度障碍(VO)框架,如RVO、ORCA、NH
‑
ORCA等,这些方法都假设每个机器人对周围环境有完美感知,然而在实际应用中,传感器有误差且通信网络存在延迟、丢包等问题;另外,这些方法有很多对环境敏感的可调参数,这也限制了它们的使用范围。
[0004]随着深度强化学习技术的发展,基于深度强化学习 ...
【技术保护点】
【技术特征摘要】
1.基于分层深度强化学习的多机器人安全导航方法,其特征在于,该方法的步骤包括:步骤1:针对多机器人导航问题模型,构建分层深度强化学习网络框架;所述网络框架包括六个模块:输入模块、特征提取模块、行为选择模块、DRL控制模块、辅助控制模块以及输出模块;所述输入模块用于接收获取每个机器人对环境的观测数据,包括三个部分,其一为机器人实时的激光雷达搜索帧,其二为机器人坐标系下的目标点坐标,其三为实时的机器人速度;其中激光雷达搜索帧送入特征提取模块,目标点坐标和机器人速度的组合送入行为选择模块;特征提取模块的输出、目标点坐标和机器人速度的组合送入DRL控制模块;目标点坐标送入辅助控制模块;所述特征提取模块由一维卷积网络组成,用于针对激光雷达搜索帧进行环境特征提取,所提取到的环境特征送入行为选择模块和DRL控制模块;所述行为选择模块由全连接层组成,根据环境特征、目标点坐标以及机器人速度,生成离散动作值并输出,离散动作值分别对应三种子行为策略,所述子行为策略包括DRL策略、目标驱动策略和安全转向策略;所述DRL控制模块由全连接层组成,用于执行DRL策略,所述DRL策略是根据环境特征、目标点坐标和速度的组合来控制机器人进行避障,生成机器人避障控制指令;所述辅助控制模块用于执行目标驱动策略和安全转向策略,所述目标驱动策略是根据目标点坐标驱动控制机器人向目标行进,生成目标驱动控制指令;所述安全转向策略用于控制机器人紧急制动并转向,生成转向控制指令;所述输出模块用于根据行为选择模块的输出,确定取一子行为策略的控制指令并输出,用于对机器人进行控制;步骤2:训练所述DRL控制模块;步骤3:训练所述行为选择模块;步骤4:针对经过步骤2和3训练好的分层深度强化学习网络框架,对多机器人系统进行导航控制。2.如权利要求1所述的基于分层深度强化学习的多机器人安全导航方法,其特征在于,所述多机器人导航问题模型,具体为:将多机器人导航问题建模为一个部分可观测马尔可夫决策过程POMDP,POMDP由六元组(S,A,R,P,Ω,O)组成,其中S为状态空间,A为动作函数,R为奖励函数,P为状态转移模型,Ω为观测空间,O为系统状态的观测概率分布;在每一个时间步长t,第i个机器人观测到根据共享策略执行动作获得奖励并根据状态转移模型进入到下一状态POMDP的目标是通过最小化同一场景下所有机器人到达目标的时间,找到所有机器人最佳的共享策略,表示为:其中是第i个机器人到达目标的导航时间。3.根据权利要求1所述的基于分层深度强化学习的多机器人安全导航方法,其特征在于:所述输入模块用于接收获取每个机器人对环境的观测数据,包括三个部分,具体为:
其中o
t
为机器人对环境的观测数据;为机器人当前时刻最后三帧连续激光雷达数据,为目标点在机器人坐标系下的坐标,为当前时刻机器人的速度,包括线速度和角速度,其中线速度的取值范围为[0,1],角速度的取值范围为[
‑
1,1]。4.根据权利要求3所述的一种基于分层深度强化学习的多机器人安全导航方法,其特征在于:所述DRL控制模块生成的机器人避障控制指令包含机器人应采取的线速度与角速度,在DRL控制模块的输出层设置两种不同的激活函数,其一是sigmoid函数将线速度控制指令的输出约束到[0,1],另一个是使用tanh函数将角速度控制指令的输出约束到[
‑
1,1]。5.根据权利要求4所述的一种基于分层深度强化学习的多机器人安全导航方法,其特征在于:所述辅助控制模块中,所述安全转向策略的控制规则为:设定线速度为0,设定角速度取DRL策略生成的角速度。6.根据权利要求4所述的一种基于分层深度强化学习的多机器人安全导航方法,其特征在于:所述辅助控制模块中,所述目标驱动策略生成的目标驱动控制指令包括机器人应采取的线速度与角速度,由预先设定的可调参数p(p
l
,p
r
)进行控制,控制规则为:其中v
t
为时间t的线速度;w
t
为时间t的角速度;p
l
,p
r
分别是线速度和角速度的预设的可调参数;为时间t的机器人在地图坐标系下的坐标;为时间t时机器人在地图坐标系下的方向角;为时间t时目标点在地图坐标系下的坐标。7.根据权利要求1~6任一所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。