【技术实现步骤摘要】
一种基于信息预处理和强化学习的机器人避障导航方法
[0001]本专利技术涉及移动机器人的导航
,具体涉及一种基于信息预处理和强化学习的机器人避障导航方法。
技术介绍
[0002]随着科学技术的发展,机器人已经广泛应用于自动化仓储,危险环境自主探测等任务。但是在无地图的复杂动态环境中,机器人的自主性和智能化水平受到了限制。于是,当机器人应用于实际问题时,自主避障导航技术成为实现机器人智能化的关键一步。
[0003]为了应对未知环境的复杂性和不可预测性,前人提出了一些自主定位导航方法。但是这些方法主要分为同步定位和地图创建与路径规划和运动控制两个部分,在实际应用中普遍存在以下局限性:1.机器人的路径规划和运动控制十分依赖于地图创建的准确性。在实际复杂动态环境中,机器人绘制地图对激光雷达、深度摄像头等传感器的精度要求较高。2.对于复杂动态环境来说,地图构建消耗大量的时间和计算资源,且环境中往往包含不可预测轨迹的动态障碍物,这使得机器人描述环境、认识环境的过程更加具有挑战性。因此设计一种基于信息预处理的无模型端到端的机 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于信息预处理和强化学习的机器人避障导航办法,其特征在于,所述方法包括以下步骤:步骤S1:设计不同的信息预处理模块对机器人所采集的多模传感器信息进行数据预处理;步骤S2:将无地图环境下的机器人避障导航任务描述为马尔可夫决策过程并在仿真环境中引入强化学习框架,将处理后的传感器信息与机器人距离目标的位置信息、机器人本身的速度信息联合作为机器人的状态信息,由此得出机器人的决策行为,根据奖励信息在仿真环境中对机器人控制智能体进行训练,以获得能够最大化累计奖励的最优策略;步骤S3:将训练好的信息预处理模块和动作网络移植到现实环境中的导航过程,使机器人在避障的同时以最短的时间到达目标位置。2.根据权利要求1所述的基于信息预处理和强化学习的机器人避障导航方法,其特征在于,步骤S1所述的设计不同的信息预处理模块对采集的多模传感器信息进行数据预处理,具体方法是:步骤S11:针对由摄像头获取的RGB图像,利用若干层卷积神经网络构成信息预处理模块;步骤S12:针对由激光雷达束获取的机器人与障碍物之间的距离信息,利用若干层循环神经网络构成信息预处理模块。3.根据权利要求1所述的基于信息预处理和强化学习的机器人避障导航方法,其特征在于,步骤S2所述的将无地图环境下的机器人避障导航任务描述为马尔可夫决策过程并引入强化学习框架在仿真环境中训练机器人控制智能体,具体方法是:步骤S21:初始化神经网络参数,包括信息预处理模块,动作网络以及评论家网络;步骤S22:仿真环境中,采集机器人多模数据,经由相应的信息预处理模块处理后与机器人距离目标的位置信息、机器人本身的速度信息联合作为机器人的状态信息;步骤S23:将机器人的状态信息输入动作网络中输出机器人的决策动作,机器人的决策动作包括机器人的转角速度以及前移和侧移速度;步骤S24:执行了决策动作后,机器人的位置和观测状态发生转换;步骤S25:设计一个多维密集奖励函数;奖励函数包括5个部分:距离惩罚,角度惩罚,碰撞惩罚,完成奖励,时间惩罚;距离惩罚指机器人的位置与目标位置的距离作为惩罚,以激励机器人靠近目标点,表示为其中d
x
表示机器人的位置与目标位置在横轴方向上的距离,d
技术研发人员:孙长银,操菁瑜,蒋坤,董璐,穆朝絮,
申请(专利权)人:鹏城实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。