密集人群环境里移动机器人的安全导航方法及装置制造方法及图纸

技术编号:39427863 阅读:12 留言:0更新日期:2023-11-19 16:13
本发明专利技术涉及密集人群环境里移动机器人的安全导航方法及装置。其中的方法包括:估计移动机器人和行人的联合状态,通过基于深度强化学习的价值网络,以获得安全状态约束,通过离散的广义速度障碍,获得安全动作约束,根据安全状态约束和安全动作约束,对安全过滤器求解优化问题,以获得对参考输入进行修正后的最优参考动作,当优化问题无可行解,通过添加局部导航目标作为软约束,并取消安全动作约束,重新求解新的优化问题,当优化问题仍然无可行解,则取消安全状态约束,重新求解新的优化问题,最终获得的修正后的最优参考动作输入到移动机器人中。本发明专利技术通过修正基于学习的导航方法求解的最优动作,提高基于学习的导航方法的安全性。安全性。安全性。

【技术实现步骤摘要】
密集人群环境里移动机器人的安全导航方法及装置


[0001]本专利技术涉及密集人群环境里移动机器人的安全导航方法及装置,属于人工智能


技术介绍

[0002]移动机器人的导航目标是规划出高效率和无碰撞的安全轨迹。针对密集人群环境,移动机器人需要通过观察周围的环境,准确地估计周围行人的位置、速度等信息,决策规划出一条既满足机器人自身运动限制,又能安全地避让行人,且以较少的时间到达目的地的运动轨迹。
[0003]这里有两类方法。一类是基于反应的导航方法,另一类是基于学习的导航方法。前者把行人当成普通的动态障碍物,主要使用速度障碍VO(VelocityObstacles)概念限制移动机器人的速度动作空间,在线地求解优化问题,针对当前的移动机器人和行人状态做出免碰撞的最优动作,并执行动作。其中RVO(Reciprocal Velocity Obstacles)的方法通过在免碰撞的速度动作空间里挑选最优动作,实现无碰撞的要求,并且改善了VO方法。而基于反应的导航方法没有考虑周围行人的未来状态,是短视的,导致了导航时间过长、发生碰撞等问题。
[0004]基于学习的导航方法,能很好地解决基于反应的导航方法的短视的问题。这类方法一般可以分为两步,首先对行人状态进行编码,然后通过深度强化学习训练出最优的动作策略。而在处理变数量的行人时,现有方法中,一些方法只考虑和距离机器人最近的行人进行避障,或者通过在奖励函数里鼓励机器人与行人进行社会交互,使价值网络在训练过程中学会了选择社会交互性的动作,但由于价值网络采用的是全连接网络,其输入的尺寸是固定的,所以只能处理至多邻近的四个行人的避障问题,或者通过使用LSTM网络聚合所有行人和机器人的状态,用隐变量的形式表达对机器人导航有用的交互信息,但是LSTM

RL只是根据机器人跟各个行人之间的距离远近作为LSTM网络的输入顺序,距离机器人越近的行人状态,越晚输入LSTM网络,这意味着LSTM

RL认为离机器人越近的行人对机器人的导航影响越大,而实际上,行人对机器人导航的影响大小不一定与距离成反比,还应该考虑行人的行走速度及方向、机器人自身的目标朝向等因素,或者提出了SARL方法,使用自注意力机制替代LSTM网络,对行人与行人、行人与机器人的交互进行联合编码,能够在训练时学习所有行人对机器人的影响权重,优先避让对机器人导航影响最大的行人,或者采用基于注意力机制的图神经网络去编码行人与行人、行人与机器人的交互,并预测出行人的未来轨迹,最后使用PPO算法进行导航策略的训练。
[0005]上述方法的思路是通过更好地编码行人与行人、行人与机器人的交互,获得隐变量或者预测轨迹,以提高深度强化学习的成功率和降低碰撞率。但是深度强化学习无法保证安全性,缺乏显式的和可解释的安全约束,,尽管基于学习的导航方法获得了比较好的仿真效果,在实际应用时往往不能确保安全约束的满足,以及在设计深度强化学习的奖励函数时考虑了对碰撞行为的惩罚,在移动机器人在面对未知的、不确定的情况时,仍会做出危
险的行为,导致移动机器人与行人发生碰撞。因此,提高基于学习的导航方法的安全性是十分重要的。

技术实现思路

[0006]本专利技术提供密集人群环境里移动机器人的安全导航方法及装置,旨在至少解决现有技术中存在的技术问题之一。
[0007]本专利技术的技术方案涉及密集人群环境里移动机器人的安全导航方法,应用于移动机器人,所述移动机器人设置有感知模块、定位模块、激光雷达和传感器,根据本专利技术的方法包括以下步骤:
[0008]S100、获取所述激光雷达和所述传感器的数据,并输入到所述感知模块和所述定位模块中,估计并输出移动机器人状态和周围的行人状态,以获得移动机器人和行人的联合状态;
[0009]S200、根据所述移动机器人和行人的联合状态,通过基于深度强化学习的价值网络,获得所述移动机器人的最优动作,以作为安全过滤器的参考输入;
[0010]S300、构建所述移动机器人的多面体状态约束,以获得作为安全状态约束的控制不变集;
[0011]S400、通过离散的广义速度障碍,从离散的动作空间中筛选出安全的动作,以获得安全动作约束;
[0012]S500、根据所述安全状态约束和所述安全动作约束,对所述安全过滤器求解优化问题,以获得对所述参考输入进行修正后的最优参考动作;
[0013]S600、当步骤S500出现优化问题无可行解并且安全动作约束的离散动作个数为零时,通过添加局部导航目标作为软约束,并取消安全动作约束,重新求解新的优化问题,以获得新的修正后的最优参考动作;
[0014]S700、当步骤S600出现优化问题无可行解并且所述移动机器人下一时刻的状态都不满足安全状态约束,则在步骤S600的优化问题基础上取消所述安全状态约束,重新求解新的优化问题,以获得新的修正后的最优参考动作;
[0015]S800、将最终获得的修正后的最优参考动作输入到所述移动机器人中,以作为所述移动机器人的执行指令。
[0016]进一步,所述步骤200中,安全过滤器的参考输入表示如下:
[0017][0018]式中,u
d
表示基于深度强化学习获得的所述移动机器人的最优动作,表示所述价值网络的价值函数,表示所述移动机器人和行人的联合状态,其中通过深度强化学习获得最优策略π
*
:
[0019]进一步,所述步骤300中,所述移动机器人的多面状态约束表示如下:
[0020][0021]式中,表示第k个采样时刻的所述移动机器人的安全状态约束,x
k
表示三维的移
动机器人状态,x
k
=[p
x
,p
y
,θ]T
,其中,(p
x
,p
y
)表示所述移动机器人的二维的位置坐标,θ表示所述移动机器人的航向角,R3表示三维空间,T
k
与t
k
表示对移动机器人位置[p
x
,p
y
]T
的安全限制的矩阵。
[0022]进一步,所述步骤300中,所述移动机器人的未来状态通过以下系统方程获得:
[0023]x
i∣k
=Ax
i∣k
+Bu
0∣k
,u
0∣k
=u
k
[0024]式中,x
i∣k
表示基于第k个采样时刻的离散线性系统递推而来的未来状态量,u
0∣k
表示第k个时刻的动作,u
k
表示第k个采样时刻所述安全过滤器的最优动作,A与B是系统矩阵。
[0025]进一步,所述步骤S400中,所述离散的广义速度障碍中行人未来状态通过以下系统方程获得:
[0026][0027]式中,表示第j个行人的未来状态,表示第j个行人的未来动作。
[0028]进一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种密集人群环境里移动机器人的安全导航方法,其特征在于,应用于移动机器人,所述移动机器人设置有感知模块、定位模块、激光雷达和传感器;其中,所述方法包括以下步骤:S100、获取所述激光雷达和所述传感器的数据,并输入到所述感知模块和所述定位模块中,估计并输出移动机器人状态和周围的行人状态,以获得移动机器人和行人的联合状态;S200、根据所述移动机器人和行人的联合状态,通过基于深度强化学习的价值网络,获得所述移动机器人的最优动作,以作为安全过滤器的参考输入;S300、构建所述移动机器人的多面体状态约束,以获得作为安全状态约束的控制不变集;S400、通过离散的广义速度障碍,从离散的动作空间中筛选出安全的动作,以获得安全动作约束;S500、根据所述安全状态约束和所述安全动作约束,对所述安全过滤器求解优化问题,以获得对所述参考输入进行修正后的最优参考动作;S600、当步骤S500出现优化问题无可行解并且安全动作约束的离散动作个数为零时,通过添加局部导航目标作为软约束,并取消安全动作约束,重新求解新的优化问题,以获得新的修正后的最优参考动作;S700、当步骤S600出现优化问题无可行解并且所述移动机器人下一时刻的状态都不满足安全状态约束,则在步骤S600的优化问题基础上取消所述安全状态约束,重新求解新的优化问题,以获得新的修正后的最优参考动作;S800、将最终获得的修正后的最优参考动作输入到所述移动机器人中,以作为所述移动机器人的执行指令。2.根据权利要求1所述的方法,其特征在于,所述步骤200中,安全过滤器的参考输入表示如下:式中,u
d
表示基于深度强化学习获得的所述移动机器人的最优动作,表示所述价值网络的价值函数,表示所述移动机器人和行人的联合状态,其中通过深度强化学习获得最优策略3.根据权利要求1所述的方法,其特征在于,所述步骤300中,所述移动机器人的多面状态约束表示如下:式中,表示第k个采样时刻的所述移动机器人的安全状态约束,x
k
表示三维的移动机器人状态,x
k
=[p
x
,p
y
,θ]
T
,其中,(p
x
,p
y
)表示所述移动机器人的二维的位置坐标,θ表示所述移动机器人的航向角,R3表示三维空间,T
k
与t
k
表示对移动机器人位置[p
x
,p
y
]
T
的安全限制的矩阵。
4.根据权利要求3所述的方法,其特征在于,所述步骤300中,所述移动机器人的未来状态通过以下系统方程获得:x
i∣k
=Ax
i∣k
+Bu
0∣k
,u
0∣k
=u
k
式中,x
i∣k
表...

【专利技术属性】
技术研发人员:许鋆冯凯俊卢泽涛楼云江
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1