【技术实现步骤摘要】
密集人群环境里移动机器人的安全导航方法及装置
[0001]本专利技术涉及密集人群环境里移动机器人的安全导航方法及装置,属于人工智能
技术介绍
[0002]移动机器人的导航目标是规划出高效率和无碰撞的安全轨迹。针对密集人群环境,移动机器人需要通过观察周围的环境,准确地估计周围行人的位置、速度等信息,决策规划出一条既满足机器人自身运动限制,又能安全地避让行人,且以较少的时间到达目的地的运动轨迹。
[0003]这里有两类方法。一类是基于反应的导航方法,另一类是基于学习的导航方法。前者把行人当成普通的动态障碍物,主要使用速度障碍VO(VelocityObstacles)概念限制移动机器人的速度动作空间,在线地求解优化问题,针对当前的移动机器人和行人状态做出免碰撞的最优动作,并执行动作。其中RVO(Reciprocal Velocity Obstacles)的方法通过在免碰撞的速度动作空间里挑选最优动作,实现无碰撞的要求,并且改善了VO方法。而基于反应的导航方法没有考虑周围行人的未来状态,是短视的,导致了导航时间过长、发生碰撞等问题。
[0004]基于学习的导航方法,能很好地解决基于反应的导航方法的短视的问题。这类方法一般可以分为两步,首先对行人状态进行编码,然后通过深度强化学习训练出最优的动作策略。而在处理变数量的行人时,现有方法中,一些方法只考虑和距离机器人最近的行人进行避障,或者通过在奖励函数里鼓励机器人与行人进行社会交互,使价值网络在训练过程中学会了选择社会交互性的动作,但由于价值网络采用的是 ...
【技术保护点】
【技术特征摘要】
1.一种密集人群环境里移动机器人的安全导航方法,其特征在于,应用于移动机器人,所述移动机器人设置有感知模块、定位模块、激光雷达和传感器;其中,所述方法包括以下步骤:S100、获取所述激光雷达和所述传感器的数据,并输入到所述感知模块和所述定位模块中,估计并输出移动机器人状态和周围的行人状态,以获得移动机器人和行人的联合状态;S200、根据所述移动机器人和行人的联合状态,通过基于深度强化学习的价值网络,获得所述移动机器人的最优动作,以作为安全过滤器的参考输入;S300、构建所述移动机器人的多面体状态约束,以获得作为安全状态约束的控制不变集;S400、通过离散的广义速度障碍,从离散的动作空间中筛选出安全的动作,以获得安全动作约束;S500、根据所述安全状态约束和所述安全动作约束,对所述安全过滤器求解优化问题,以获得对所述参考输入进行修正后的最优参考动作;S600、当步骤S500出现优化问题无可行解并且安全动作约束的离散动作个数为零时,通过添加局部导航目标作为软约束,并取消安全动作约束,重新求解新的优化问题,以获得新的修正后的最优参考动作;S700、当步骤S600出现优化问题无可行解并且所述移动机器人下一时刻的状态都不满足安全状态约束,则在步骤S600的优化问题基础上取消所述安全状态约束,重新求解新的优化问题,以获得新的修正后的最优参考动作;S800、将最终获得的修正后的最优参考动作输入到所述移动机器人中,以作为所述移动机器人的执行指令。2.根据权利要求1所述的方法,其特征在于,所述步骤200中,安全过滤器的参考输入表示如下:式中,u
d
表示基于深度强化学习获得的所述移动机器人的最优动作,表示所述价值网络的价值函数,表示所述移动机器人和行人的联合状态,其中通过深度强化学习获得最优策略3.根据权利要求1所述的方法,其特征在于,所述步骤300中,所述移动机器人的多面状态约束表示如下:式中,表示第k个采样时刻的所述移动机器人的安全状态约束,x
k
表示三维的移动机器人状态,x
k
=[p
x
,p
y
,θ]
T
,其中,(p
x
,p
y
)表示所述移动机器人的二维的位置坐标,θ表示所述移动机器人的航向角,R3表示三维空间,T
k
与t
k
表示对移动机器人位置[p
x
,p
y
]
T
的安全限制的矩阵。
4.根据权利要求3所述的方法,其特征在于,所述步骤300中,所述移动机器人的未来状态通过以下系统方程获得:x
i∣k
=Ax
i∣k
+Bu
0∣k
,u
0∣k
=u
k
式中,x
i∣k
表...
【专利技术属性】
技术研发人员:许鋆,冯凯俊,卢泽涛,楼云江,
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。