【技术实现步骤摘要】
一种基于无地图运动规划器的移动机器人连续控制方法
本专利技术涉及机器人控制领域,尤其是涉及了一种基于无地图运动规划器的移动机器人连续控制方法。
技术介绍
随着科学技术的发展,移动机器人导航已经日渐成为机器人学和人工智能领域研究的热点问题之一,同时,它也是全自主机器人智能水平的体现。人们希望能实现在未知的环境工作时,移动机器人能够根据自身传感器来获得局部环境信息,自主地建立起环境地图,并根据建立的地图,规划出可以无碰撞到达目的地的可行路径。这样,移动机器人就可以应用于日常导航、路径规划等领域,给人们的出行及工作带来便利。然而,传统的方法使用同时定位与地图创建来实现导航,不仅耗时,而且对地图具有较强的依赖性。本专利技术提出了一种基于无地图运动规划器的移动机器人连续控制方法,利用无地图运动规划器进行端对端训练,为无地图运动规划器找到转换函数来控制频率,以便机器人可以立即对新的观察结果做出反应;修改原始深度确定策略梯度,成为异步深度确定策略梯度;进行强化学习,使训练和样本收集能够并行执行;利用评估网络对运动规划器进行评估,定义奖励函数检查到达目标。本专利技术使用高精度激光 ...
【技术保护点】
一种基于无地图运动规划器的移动机器人连续控制方法,其特征在于,主要包括无地图运动规划器(一);异步深度确定策略梯度(二);强化学习(三);评估网络(四);奖励函数(五)。
【技术特征摘要】
1.一种基于无地图运动规划器的移动机器人连续控制方法,其特征在于,主要包括无地图运动规划器(一);异步深度确定策略梯度(二);强化学习(三);评估网络(四);奖励函数(五)。2.基于权利要求书1所述的基于无地图运动规划器的移动机器人连续控制方法,其特征在于,仅提取10维测距结果和目标相对信息作为参考,无地图运动规划器通过异步深层加强学习方法从头开始进行端到端的训练,并且可以直接输出连续的直线和角速度。3.基于权利要求书1所述的无地图运动规划器(一),其特征在于,通过采取10维测距结果和目标位置作为输入,连续转向命令作为输出;对无地图运动规划器进行端对端的训练,可以直接应用于虚拟和真实环境中;无地图运动规划器可以将移动机器人导航到所需的目标,并且不会与任何障碍物发生碰撞。4.基于权利要求书3所述的转换函数,其特征在于,为无地图运动规划器定义转换函数:vt=f(xt,pt,vt-1)(1)其中,xt是原始传感器信息的观察值,pt是目标的相对位置,vt-1是最后时间步长中移动机器人的速度;它们可以被视为移动机器人的即时状态;模型将状态直接映射到动作,即下一次的速度vt;有效的运动规划器必须保证控制频率,以便机器人可以立即对新的观察结果做出反应。5.基于权利要求书1所述的异步深度确定策略梯度(二),其特征在于,与原始深度确定策略梯度相比,将采样过程分离到另一个线程;在训练线程中,每个迭代步骤通过从缓冲区收集的批次,更新评估网络θQ和执行器网络θu的权重;评估网络的预测目标是根据奖励ri和估计Q值γQ′计算的;Q′是下一个状态st+1给出的权重θQ′的目标评估网络的输出,并且以估计的最优动作at+1=u′(si+1|θu′)目标执行器网络θu作为输入。6.基于权利要求书5所述的样本收集,其特征在于,执行器网络通过采样批量转换的策略梯度来更新;样本收集线程并行执行,动作由执行器网络决定;在训练时间内,添加随机过程N,激发对动作空间的探索;新的转换保存到由训练和采样线程共享的应答缓冲区中;异步深度确定策略梯度...
【专利技术属性】
技术研发人员:夏春秋,
申请(专利权)人:深圳市唯特视科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。