一种基于强化学习的机器人导航避障方法及系统技术方案

技术编号:37234502 阅读:18 留言:0更新日期:2023-04-20 23:16
本公开提供的基于强化学习的机器人导航避障方法及系统,可以利用在目标地图上确定机器人在当前时刻的当前位置,获得目标点位置信息;获得机器人在当前时刻采集到的行人地图信息;获得机器人在当前时刻采集到的周边环境信息;将目标点位置信息、行人地图信息和周边环境信息输入至预先训练好的PPO

【技术实现步骤摘要】
一种基于强化学习的机器人导航避障方法及系统


[0001]本公开涉及机器人导航技术,尤其涉及一种基于强化学习的机器人导航避障方法及系统。

技术介绍

[0002]目前,在密集人群中实现机器人导航的方法主要包括模仿学习(Imitation learning)方法和强化学习(deep reinforcement learing)方法。模仿学习是指机器人通过学习专家数据使得自己的策略更加有效,而强化学习是通过在环境中进行探索来获取数据进行学习。由于强化学习具有无需大量标签数据的特性,相对于模仿学习,强化学习可以更有利于应用在机器人导航领域。
[0003]然而,上述两种方法由于缺少与行人的交互,往往会出现陷入局部冻结的问题。例如:机器人在拥挤的行人环境中出现原地打转发呆的情况。同时,强化学习的泛用性、鲁棒性较差的弊端以及调差困难的因素,也阻碍了强化学习在机器人导航避障上的高效应用,从而导致机器人在行人密集场景下导航避障效果差的问题。
[0004]因此,如何在行人密集场景下提升机器人的导航避障效果,成为本领域技术人员急需解决的技术问题。...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的机器人导航避障方法,其特征在于,包括:在预先建模好的目标地图上确定机器人在当前时刻的当前位置;利用所述当前位置,获得所述机器人在所述目标地图上相对于指定位置的目标点位置信息;获得所述机器人在所述当前时刻采集到的行人地图信息;获得所述机器人在所述当前时刻采集到的周边环境信息;将所述目标点位置信息、所述行人地图信息和所述周边环境信息输入至预先训练好的PPO

Beep算法模型中,获得所述PPO

Beep算法模型输出的机器人行动参数,其中,所述PPO

Beep算法模型为基于强化学习算法的神经网络模型;利用所述机器人行动参数,控制所述机器人在所述当前时刻的导航避障操作,再将所述当前时刻的下一时刻作为当前时刻,返回执行所述在预先建模好的目标地图上确定机器人在当前时刻的当前位置的步骤,直至所述当前位置为所述指定位置。2.根据权利要求1所述的方法,其特征在于,所述PPO

Beep算法模型包括基于强化学习算法构建的策略网络和价值网络,所述PPO

Beep算法模型的训练过程包括:获得为所述强化学习算法设计的状态空间、动作空间和奖励函数;在对所述策略网络和所述价值网络的参数进行初始化之后,获得训练信息,其中,所述训练信息由所述机器人在预设仿真环境中采集得到,所述训练信息包括任一训练时刻所述目标机器人相对于指定训练位置的目标点位置训练信息、行人地图训练信息和周边环境训练信息;将所述训练信息输入至所述策略网络中,基于所述状态空间和所述动作空间,获得所述策略网络输出的与所述训练时刻对应的机器人行动训练参数;将所述训练信息输入至所述价值网络中,获得所述价值网络输出的与所述训练时刻对应的机器人状态价值;基于所述奖励函数,获得所述机器人行动训练参数对应的奖励信号;基于所述奖励信号和所述机器人状态价值,调整所述强化学习算法中的超参数,经过预设次数的往复迭代后,获得训练好所述策略网络的所述PPO

Beep算法模型。3.根据权利要求2所述的方法,其特征在于,所述奖励函数为:3.根据权利要求2所述的方法,其特征在于,所述奖励函数为:3.根据权利要求2所述的方法,其特征在于,所述奖励函数为:
其中,为对所述机器人到达所述指定训练位置的目标到达奖励参数;为所述机器人移动至所述指定训练位置过程中的路径惩罚参数;为所述机器人的碰撞惩罚参数;为所述机器人的移动探索奖励参数;为所述机器人的平衡交互惩罚参数;r
arrive
为对所述机器人到达所述指定训练位置设置的目标到达奖励常数;r
pen
为对所述机器人移动至所述指定训练位置过程中每步设置的路径惩罚常数;r
col
为对所述机器人发生碰撞设置的碰撞惩罚常数;为所述机器人与行人的最小距离,小于1;β1和β2为超参数;L
t
‑1为所述机器人在时刻t

1的位置;L
goal
为所述指定训练位置;L
t
为所述机器人在时刻t的位置;γ1、γ2和γ3为小于0的折扣因子;e为自然常数;η为超参数,其中,η=αT/T
sum
,α大于1,T
sum
为训练历元总数,T为当前训练的历元数。4.根据权利要求2所述的方法,其特征在于,所述预设仿真环境至少由行人策略模型构成,所述行人策略模型使用正态分布表示为:成,所述行人策略模型使用正态分布表示为:其中,为在时刻t时第i个行人受到的影响;为在时刻t是第i个行人的位置;为在时刻t时所述机器人的位置;为在时刻t时第i个行人距离...

【专利技术属性】
技术研发人员:陈树言吉建民裘悫成
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1