一种移动机器人端到端导航方法、系统和设备技术方案

技术编号:33642599 阅读:19 留言:0更新日期:2022-06-02 20:18
本发明专利技术提供一种移动机器人端到端导航方法、系统和设备,所述方法包括:步骤1、获取观测值信息、目标点信息和上一时刻速度信息,所述观测值信息为机器人的激光雷达与障碍物的距离点;步骤2、将所述观测值信息进行滤波后,与目标点信息和上一时刻速度信息进行融合,得到新的多维矩阵;步骤3、将新的多维矩阵输入神经网络模型中进行训练得到当前机器人速度信息。本发明专利技术采用了位置,距离以及方向的复合奖励机制实现了对较为精确的机器人导航。制实现了对较为精确的机器人导航。制实现了对较为精确的机器人导航。

【技术实现步骤摘要】
一种移动机器人端到端导航方法、系统和设备


[0001]本专利技术涉及机器人
,尤其涉及一种移动机器人端到端导航方 法、系统和设备。

技术介绍

[0002]在人机共融场景下,传统机器人需要具备处理突发事件的能力以适应非 结构化感知和动态化避障的场景,即智能化是机器人日常中的任务中的关键 技术。随着深度学习的热潮来临,谷歌的DeepMind团队也提出了深度强化 学习的概念,基于深度强化学习的移动机器人的导航的研究再次成为了一个 新的研究热点。
[0003]目前基于深度强化学习的移动机器人的导航研究仍然处于一个尝试阶 段,国内外研究者采用了不同感知环境的方法进行研究,并取得一定的效果。 其中Tail等人提出采用深度相机的图像作为输入,由于深度相机可以获取 物体间的距离信息,机器人可以实现一定的避障功能,但对于导航的成功率 较低。Jaderberg等人提出预测值的概念,结合纹理控制和非监督学习的方 式,但是该方法适用范围存在一定的局限性,需要提前知道纹理信息。Zhelo 等人也是引入预测值比较机制,预测值与实际值之间的差值赋予奖惩值,可 以很好解决稀松值问题,但是个方法需要一个合适的预测值,依旧存在局限 性。马如龙等人在摄像头的RGB图像上做出尝试,RGB图像虽然信息较多, 但是没有距离信息,这将对避障功能带来很大的挑战,实现的效果不是很理 想。王大方等人则采用DQN算法进行训练模型,其中的策略是机器人的运 动控制,实现机器人完成避障操作,没有对导航进行深入研究。Zhu等人提 出采用预训练的方式结合孪生网络(SiameseNetwork)以及Actor

critic网络, 他们成功的解决了小范围视觉导航的问题,但该网络过于复杂,难以实现实 际机器人的迁移。

技术实现思路

[0004]本专利技术要解决的技术问题,在于提供一种移动机器人端到端导航方法、 系统和设备,采用了位置,距离以及方向的复合奖励机制实现了对较为精确 的机器人导航。
[0005]第一方面,本专利技术提供了一种移动机器人端到端导航方法,包括如下步 骤:
[0006]步骤1、获取观测值信息、目标点信息和上一时刻速度信息,所述观测 值信息为机器人的激光雷达与障碍物的距离点;
[0007]步骤2、将所述观测值信息进行滤波后,与目标点信息和上一时刻速度 信息进行融合,得到新的多维矩阵;
[0008]步骤3、将新的多维矩阵输入神经网络模型中进行训练得到当前机器人 速度信息。
[0009]进一步的,所述步骤2具体为:将多维观测值信息矩阵(...)进行滤波 后,与二维的速度信息矩阵(x,y)以及二维的目标点信息矩阵(z,w) 进行融合,组合成一个新的多维矩阵(x,y,z,w,...)作为神经网络模型 的输入。
[0010]进一步的,所述神经网络模型是基于TensorFlow框架搭建的,所述神 经网络模型中采用的强化学习算法为近端策略优化算法(ProximalPolicyOptimization,PPO),所述神经网络模型包括两个稠密层,每一稠密层的维 度均为512。
[0011]进一步的,所述近端策略优化算法的奖赏函数设置为:
[0012][0013]其中,当移动机器人的激光检测到与障碍物的距离laser
r
(t)小于0.2m的 时,此时判定为碰撞到障碍物,回馈为一个负的奖励值R
c
,进行对移动机 器人的惩罚,结束这一回合,重置机器人与环境的位置,重新开始新一类的 训练;当机器人与指定目标点的距离d(t)小于目标点圆心距离阈值c
d
时,则 判定机器人抵达目标点。其中,c
r
(d(t

1)

d(t))

c
p
为时刻前后距离差的奖 赏值计算公式,c
r
为奖赏倍率,c
p
为时间惩罚因子。
[0014]进一步的,所述方法还包括,对所述机器人限制其最大线速度V
max
为 0.5m/s,以及最大角速度W
max
为1.2rad/s。
[0015]第二方面,本专利技术提供了一种移动机器人端到端导航系统,包括:
[0016]数据采集模块,用于获取观测值信息、目标点信息和上一时刻速度信息, 所述观测值信息为机器人的激光雷达与障碍物的距离点,所述速度信息包括 线速度和角速度;
[0017]融合模块,用于将所述观测值信息进行滤波后,与目标点信息和上一时 刻速度信息进行融合,得到新的多维矩阵;以及
[0018]训练与输出模块,用于将新的多维矩阵输入神经网络模型中进行训练得 到当前机器人速度信息。
[0019]进一步的,所述融合模块具体为:用于将多维观测值信息矩阵(...)进 行滤波后,与二维的速度信息矩阵(x,y)以及二维的目标点信息矩阵(z, w)进行融合,组合成一个新的多维矩阵(x,y,z,w,...)作为神经网络 模型的输入。
[0020]进一步的,所述神经网络模型是基于TensorFlow框架搭建的,所述神 经网络模型中采用的强化学习算法为近端策略优化算法(Proximal PolicyOptimization,PPO),所述神经网络模型包括两个稠密层,每一稠密层的维 度均为512。
[0021]进一步的,所述近端策略优化算法的奖赏函数设置为:
[0022][0023]其中,当移动机器人的激光检测到与障碍物的距离laser
r
(t)小于0.2m的 时,此时判定为碰撞到障碍物,回馈为一个负的奖励值R
c
,进行对移动机 器人的惩罚,结束这一回合,重置机器人与环境的位置,重新开始新一类的 训练;当机器人与指定目标点的距离d(t)小于目标点圆心距离阈值c
d
时,则 判定机器人抵达目标点。其中,c
r
(d(t

1)

d(t))

c
p
为时刻前后距离差的奖 赏值计算公式,c
r
为奖赏倍率,c
p
为时间惩罚因子。
[0024]第三方面,本专利技术提供了一种电子设备,包括存储器、处理器及存储在 存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实 现第一方面所述的方法。
[0025]本专利技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或 优点:
[0026]本专利技术采用了位置,距离以及方向的复合奖励机制,智能体在每个时刻 都将得到一个奖励值,这样可以避免稀松问题,提高机器人导航准确度。本 专利技术中深度强化学习网络采用雷达点作为观测值输入,可以降低仿真场景与 实际场景可以差异性,便于策略迁移,本专利技术可在仿真环境训练策略模型, 构建多个复杂场景,使得仿真环境下的移动机器人具备导航避障能力,再将 训练好的模型移植到实际机器人,使得实际的机器人本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种移动机器人端到端导航方法,其特征在于:包括如下步骤:步骤1、获取观测值信息、目标点信息和上一时刻速度信息,所述观测值信息为机器人的激光雷达与障碍物的距离点;步骤2、将所述观测值信息进行滤波后,与目标点信息和上一时刻速度信息进行融合,得到新的多维矩阵;步骤3、将新的多维矩阵输入神经网络模型中进行训练得到当前机器人速度信息。2.如权利要求1所述的一种移动机器人端到端导航方法,其特征在于:所述步骤2具体为:将多维观测值信息矩阵(...)进行滤波后,与二维的速度信息矩阵(x,y)以及二维的目标点信息矩阵(z,w)进行融合,组合成一个新的多维矩阵(x,y,z,w,...)作为神经网络模型的输入。3.如权利要求1所述的一种移动机器人端到端导航方法,其特征在于:所述神经网络模型是基于TensorFlow框架搭建的,所述神经网络模型中采用的强化学习算法为近端策略优化算法,所述神经网络模型包括两个稠密层,每一稠密层的维度均为512。4.如权利要求3所述的一种移动机器人端到端导航方法,其特征在于:所述近端策略优化算法的奖赏函数设置为:其中,当移动机器人的激光检测到与障碍物的距离laser
r
(t)小于0.2m的时,此时判定为碰撞到障碍物,回馈为一个负的奖励值R
c
,进行对移动机器人的惩罚,结束这一回合,重置机器人与环境的位置,重新开始新一类的训练;当机器人与指定目标点的距离d(t)小于目标点圆心距离阈值c
d
时,则判定机器人抵达目标点。其中,c
r
(d(t

1)

d(t))

c
p
为时刻前后距离差的奖赏值计算公式,c
r
为奖赏倍率,c
p
为时间惩罚因子。5.如权利要求1所述的一种移动机器人端到端导航方法,其特征在于:所述方法还包括,对所述机器人限制其最大线速度V
max
为0.5m/s,以及最大角速度W
max
为1.2rad/s。6.一种移动...

【专利技术属性】
技术研发人员:戴厚德陈兴彭建伟姚瀚晨朱利琦
申请(专利权)人:泉州装备制造研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1