当前位置: 首页 > 专利查询>鹏城实验室专利>正文

一种基于信息预处理和强化学习的机器人避障导航方法技术

技术编号:37999377 阅读:9 留言:0更新日期:2023-06-30 10:13
本发明专利技术公开了一种基于信息预处理和强化学习的机器人避障导航方法。该方法包括以下步骤:首先,利用不同类型的神经网络层组成信息预处理模块对机器人采集的多模数据进行信息预处理;其次,将无地图环境下的机器人避障导航过程描述为马尔可夫决策过程并引入强化学习框架在仿真环境中训练机器人,设计有关多维目标的奖励函数,实现仿真环境下的避障导航功能;最后,将训练好的信息预处理模块和动作网络移植到现实环境中完成机器人的避障导航任务。本发明专利技术通过多模信息预处理模块实现了对环境更完整的感知,端到端的强化学习方法无需关于环境的先验知识,提高了无地图环境下机器人的导航表现和算法在现实环境下的泛化性。的导航表现和算法在现实环境下的泛化性。的导航表现和算法在现实环境下的泛化性。

【技术实现步骤摘要】
一种基于信息预处理和强化学习的机器人避障导航方法


[0001]本专利技术涉及移动机器人的导航
,具体涉及一种基于信息预处理和强化学习的机器人避障导航方法。

技术介绍

[0002]随着科学技术的发展,机器人已经广泛应用于自动化仓储,危险环境自主探测等任务。但是在无地图的复杂动态环境中,机器人的自主性和智能化水平受到了限制。于是,当机器人应用于实际问题时,自主避障导航技术成为实现机器人智能化的关键一步。
[0003]为了应对未知环境的复杂性和不可预测性,前人提出了一些自主定位导航方法。但是这些方法主要分为同步定位和地图创建与路径规划和运动控制两个部分,在实际应用中普遍存在以下局限性:1.机器人的路径规划和运动控制十分依赖于地图创建的准确性。在实际复杂动态环境中,机器人绘制地图对激光雷达、深度摄像头等传感器的精度要求较高。2.对于复杂动态环境来说,地图构建消耗大量的时间和计算资源,且环境中往往包含不可预测轨迹的动态障碍物,这使得机器人描述环境、认识环境的过程更加具有挑战性。因此设计一种基于信息预处理的无模型端到端的机器人避障导航方法对于提高机器人的智能化水平及其在复杂动态环境中的实用性具有重要的意义。

技术实现思路

[0004]本专利技术针对无地图环境的复杂性和不可预测性带来的移动机器人控制难题,实现一种基于信息预处理的无模型端到端的机器人避障导航方法。该方法无需有关环境的先验知识,通过深度强化学习框架融合多模传感器信息预处理,根据从环境中获取的信息端到端地输出机器人的控制动作,提升了移动机器人在复杂动态的仿真环境或现实环境中的避障导航性能。
[0005]为了实现上述目的,本专利技术的技术方案如下,一种基于信息预处理和强化学习的机器人避障导航方法,主要包括利用不同的信息预处理模块对机器人采集到的RGB图像和激光雷达数据进行预处理,之后基于动作网络确定移动机器人的控制动作,并结合奖励信息利用评论家网络评估机器人的决策行为,并引入深度强化学习框架优化神经网络,包括评论家网络,动作网络和信息预处理模块,最终通过训练得到最优的机器人控制策略,其具体的技术方案包括以下步骤:
[0006]步骤S1:设计不同的信息预处理模块对机器人所采集的多模传感器信息进行数据预处理;
[0007]步骤S2:将无地图环境下的机器人避障导航任务描述为马尔可夫决策过程并在仿真环境中引入强化学习框架,将处理后的传感器信息与机器人距离目标的位置信息、机器人本身的速度信息联合作为机器人的状态信息,由此得出机器人的决策行为,根据奖励信息在仿真环境中对机器人控制智能体进行训练,以获得能够最大化累计奖励的最优策略;
[0008]步骤S3:将训练好的信息预处理模块和动作网络移植到现实环境中的导航过程,
使机器人在避障的同时以最短的时间到达目标位置。
[0009]进一步的,步骤S1所述的设计不同的信息预处理模块进行数据预处理,具体方法是:
[0010]步骤S11:针对由摄像头获取的RGB图像,利用若干层卷积神经网络构成信息预处理模块;
[0011]步骤S12:针对由激光雷达束获取的机器人与障碍物之间的距离信息,利用若干层循环神经网络构成信息预处理模块。
[0012]进一步的,步骤S2所述的将无地图环境下的机器人避障导航任务描述为马尔可夫决策过程并在仿真环境中引入强化学习框架训练机器人,具体方法是:
[0013]步骤S21:初始化神经网络参数,包括信息预处理模块,动作网络以及评论家网络;
[0014]步骤S22:仿真环境中,采集机器人多模数据,经由相应的信息预处理模块处理后与机器人距离目标的位置信息、机器人本身的速度信息联合作为机器人的状态信息;
[0015]步骤S23:将机器人的状态信息输入动作网络中输出机器人的决策动作,机器人的决策动作包括机器人的转角速度以及前移和侧移速度;
[0016]步骤S24:执行了决策动作后,机器人的位置和观测状态发生转换;
[0017]步骤S25:设计一个多维密集奖励函数;奖励函数包括5个部分:距离惩罚,角度惩罚,碰撞惩罚,完成奖励,时间惩罚;距离惩罚指机器人的位置与目标位置的距离作为惩罚,以激励机器人靠近目标点,表示为角度惩罚指机器人前方摄像头与目标的角度差值作为惩罚,以激励机器人正对目标,表示为碰撞惩罚是指当机器人与障碍物的距离小于安全距离时,判定其发生碰撞,其惩罚信号表示为完成奖励指当机器人与目标之间的距离小于一定的阈值且中间无障碍物遮挡,并且机器人前方的摄像头正对目标时,视为完成导航任务,其奖励信号表示为时间惩罚指为了防止机器人陷入停顿,在每个决策时间步给予一个恒定损失r
t
;因此,总奖励定义为以上5个部分的总和:r=r
d
+r
o
+r
c
+r
f
+r
t

[0018]步骤S26:利用评论家网络评估机器人的决策行为,并采用强化学习框架更新神经网络,包括评论家网络,动作网络和信息预处理模块;
[0019]步骤S27:为了提升算法更新的稳定性,引入了目标网络,采用软更新的方式更新神经网络参数;
[0020]步骤S28:重复步骤S22

S27,直至算法收敛至最优策略,其中最优策略是指能够最大化累计奖励的最优信息预处理策略和最优导航避障策略。
[0021]进一步的,步骤S3所述的将训练好的信息预处理模块和动作网络移植到现实环境中的导航过程,具体方法是:
[0022]步骤S31:现实环境中,采集机器人多模数据,经由训练好的信息预处理模块处理后与机器人距离目标的位置信息、机器人本身的速度信息联合作为机器人的状态信息,然
后送入训练完成的动作网络中输出机器人的决策动作;
[0023]步骤S32:机器人执行决策动作后,状态发生变化并通过传感器接收新状态下的多模数据;
[0024]步骤S33:重复步骤S31

S32,直至完成避障导航任务。
[0025]有益效果
[0026]相比于现有技术,本专利技术具有如下优点,1)与单模态模式相比,本专利技术采取多模机制,采集多模数据,并利用不同种类的神经网络组成信息预处理模块对多模数据进行预处理,这可以对环境进行更加全面的感知,使得基于感知信息的避障导航行为更加准确;2)本专利技术提供了基于强化学习框架的端到端的避障导航方法,无需有关环境的先验知识,设计有关多维目标的奖励函数,使得算法能够在无地图的情况下对指定目标进行有效导航与避障并具有优良的从仿真环境移植到现实环境的性能;3)本专利技术在仿真环境中不断训练直至获得仿真环境下的避障导航能力,减小了机器人在现实环境下在线训练给机器人带来的不可逆损伤,后将训练好的信息预处理模块和动作网络移植到现实环境,具有良好的经济效益和社会效益。
附图说明
[0027]图1为本专利技术实施例中的基于信息预处理和强化学习的机器人避障导航方法的算法框图。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信息预处理和强化学习的机器人避障导航办法,其特征在于,所述方法包括以下步骤:步骤S1:设计不同的信息预处理模块对机器人所采集的多模传感器信息进行数据预处理;步骤S2:将无地图环境下的机器人避障导航任务描述为马尔可夫决策过程并在仿真环境中引入强化学习框架,将处理后的传感器信息与机器人距离目标的位置信息、机器人本身的速度信息联合作为机器人的状态信息,由此得出机器人的决策行为,根据奖励信息在仿真环境中对机器人控制智能体进行训练,以获得能够最大化累计奖励的最优策略;步骤S3:将训练好的信息预处理模块和动作网络移植到现实环境中的导航过程,使机器人在避障的同时以最短的时间到达目标位置。2.根据权利要求1所述的基于信息预处理和强化学习的机器人避障导航方法,其特征在于,步骤S1所述的设计不同的信息预处理模块对采集的多模传感器信息进行数据预处理,具体方法是:步骤S11:针对由摄像头获取的RGB图像,利用若干层卷积神经网络构成信息预处理模块;步骤S12:针对由激光雷达束获取的机器人与障碍物之间的距离信息,利用若干层循环神经网络构成信息预处理模块。3.根据权利要求1所述的基于信息预处理和强化学习的机器人避障导航方法,其特征在于,步骤S2所述的将无地图环境下的机器人避障导航任务描述为马尔可夫决策过程并引入强化学习框架在仿真环境中训练机器人控制智能体,具体方法是:步骤S21:初始化神经网络参数,包括信息预处理模块,动作网络以及评论家网络;步骤S22:仿真环境中,采集机器人多模数据,经由相应的信息预处理模块处理后与机器人距离目标的位置信息、机器人本身的速度信息联合作为机器人的状态信息;步骤S23:将机器人的状态信息输入动作网络中输出机器人的决策动作,机器人的决策动作包括机器人的转角速度以及前移和侧移速度;步骤S24:执行了决策动作后,机器人的位置和观测状态发生转换;步骤S25:设计一个多维密集奖励函数;奖励函数包括5个部分:距离惩罚,角度惩罚,碰撞惩罚,完成奖励,时间惩罚;距离惩罚指机器人的位置与目标位置的距离作为惩罚,以激励机器人靠近目标点,表示为其中d
x
表示机器人的位置与目标位置在横轴方向上的距离,d

【专利技术属性】
技术研发人员:孙长银操菁瑜蒋坤董璐穆朝絮
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1