【技术实现步骤摘要】
基于模仿学习及深度强化学习的移动机器人导航方法
[0001]本专利技术涉及一种移动机器人导航技术,特别是一种基于模仿学习及深度强化学习的移动机器人导航方法。
技术介绍
[0002]随着移动机器人技术的飞速发展,越来越多的移动机器人进入人们的生活、服务和生产领域。在机器人应用中,导航起着重要的作用,为进一步执行其他任务奠定了基础。传统导航框架主要由感知模块、地图模块和规划模块组成,但是在选择环境代表性特征值中的工程量、特征计算和规划过程中的计算复杂度以及维护地图所需要的大量存储资源和传输带宽都进一步限制了传统导航方式的应用。
[0003]机器学习在决策问题上取得了巨大的成功,将机器学习应用到机器人领域得到了广泛关注。近年来许多基于学习的导航方法被提出,其中包括模仿学习和强化学习,但每种方法都存在一定的弊端。模仿学习需要大量的成功示范来完成学习任务,训练的性能无法超越示范经验,且示范经验也不一定总是最优的;强化学习方法由于其初始探索过程中的随机性和稀疏奖励,导致需要大量的时间来与环境进行交互,并且在探索过程中的某些过度探 ...
【技术保护点】
【技术特征摘要】
1.一种基于模仿学习及深度强化学习的移动机器人导航方法,其特征在于,包括如下步骤:步骤1,建立移动机器人的环境模型;步骤2,构建基于模仿学习及深度强化学习算法耦合的导航控制框架,利用耦合的导航框架对移动机器人模型进行训练;步骤3,利用训练好的模型实现导航任务。2.根据权利要求1所述的方法,其特征在于,步骤1具体包括:步骤1.1,布置训练环境场地及障碍物,移动机器人通过与环境交互来学习无地图导航策略;步骤1.2,编写移动机器人模型,设置运动控制方式,添加扫描激光测距仪用于感知环境,设置扫描激光测距仪的传感器类型、扫描精度、以及检测范围。3.根据权利要求1所述的方法,其特征在于,步骤2具体包括:步骤2.1,获取人类的演示经验并存储到离线经验回放池,再利用模仿学习算法学习人类的演示经验并保存为先验知识模型;步骤2.2,采用DDPG算法作为是年度强化学习模型,利用模仿学习的先验知识模型和离线经验回放池作为DDPG算法的初始化,使用Actor-Critic框架的神经网络来对Q函数和确定性策略a进行近似拟合并更新网络参数;步骤2.3,利用人类演示经验初始化深度强化学习的经验回放池,深度强化学习网络预先训练N次,再与环境交互;步骤2.4,移动机器人与环境的交互采取回合制;步骤2.5,在移动机器人与环境交互的过程中,每一步运动后,DDPG模型从环境中得到反馈奖励,奖励信号的公式为:其中,c1、c2为...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。