The present invention provides a method of dynamic robust controller based on reinforcement learning and systemic design, a framework around the phase space planning (PSP) of a reinforcement learning process, using directional walking constraints inherent in the PSP model, the phase space planning, reinforcement learning and learning strategy evaluation, and the whole body dynamic controller as the acceleration command computed on the space, the use of differential motion is transformed into joint acceleration, according to the optimization of non robot driven reaction acceleration, can also calculate the location or time for the two parameter output, can produce a variety of walking mode, the process speed is suitable for real-time control. The invention proposes a robust dynamic walking controller consisting of a dynamic motion planning program, a robust reinforcement learning process and a new whole body motion controller, which achieves high computation efficiency and excellent robustness.
【技术实现步骤摘要】
一种基于强化学习和全身控制器的鲁棒性动态运动方法
本专利技术涉及机器人动态运动领域,尤其是涉及了一种基于强化学习和全身控制器的鲁棒性动态运动方法。
技术介绍
移动能力是机器人的一项重要性能指标,是近年来机器人研究领域的热点之一,涉及了计算机视觉、作业规划、路径规划、静态和动态步行控制等诸多方面,常用于智能家居、智能交通、医疗、军用以及工业等前瞻性领域,在为人类设计的环境中进行服务,在危险环境中代替人类进行工作,在一定程度上代替人类并服务于人类,对人类工作生活发展具有重要意义,但是由于机器人关节众多,活动点过多,系统涉及的领域较多,使得动态步行控制的难度很大。现有的机器人动态运动规划研究在量化鲁棒性方面一直表现不佳,而且计算效率低,限制了机器人动态步行控制的应用。此外,基于相空间规划动力学和强化学习的三维全身的仿人动态步行至今尚未研究。本专利技术提出了一种基于强化学习和全身控制器的鲁棒性动态运动方法,设计了一个围绕相空间规划框架(PSP)的一个强化学习过程,利用PSP固有的定向行走约束简化模型,进行相空间规划、强化学习问题以及学习策略评价,同时采用全身动态控制器,在 ...
【技术保护点】
一种基于强化学习和全身控制器的鲁棒性动态运动方法,其特征在于,主要包括基于强化学习的相空间规划方法(一);全身的动态控制(二)。
【技术特征摘要】
1.一种基于强化学习和全身控制器的鲁棒性动态运动方法,其特征在于,主要包括基于强化学习的相空间规划方法(一);全身的动态控制(二)。2.基于权利要求书1所述的基于强化学习的相空间规划方法(一),其特征在于,设计了一个围绕相空间规划框架(PSP)的一个强化学习过程,利用PSP固有的定向行走约束简化模型,利用简化模型产生有效步长切换信息,运动的组成部分(CoM)的矢状面和基于棱形倒立摆模型动态的侧向相图的多个步行步骤的相位图中,在矢状面上,路径包括连接的抛物线,在正面,行走路线依据一个封闭的循环半周期的抛物线,将x代表矢状面,y代表正面,相空间规划方法主要包括相空间规划、强化学习问题以及学习策略评价。3.基于权利要求书2所述的相空间规划,其特征在于,引导步进规划生成器,查找CoM路径的给定位置和时间作为输入信息,给定矢状脚位置和心尖速,PSP获取步骤切换时间和横向脚位置,顶点状态是矢状面CoM速度最小时的状态,连接到站立脚的局部框架上的矢状面CoM位置为零的状态,机器人当前的CoM的状态和下一个的顶点状态之间进行转换状态,切换时间和顶点时间,计时是用来寻找下一个外侧脚位置py,2,假如是一个正数,由此产生的运动轨迹是直线前进的,对算法进行简单的修改,允许动态地引导两足动物向任何方向行走,需要转向移动方向时,重新初始化本地边框的方向为新的方向,并将当前状态投射到新的边框中,原本PSP算法是通过数值积分设计运动轨迹,为了达到一定的算法速度,假定CoM的高度是线性的,提供一个初始的CoM状态和一个目标状态PSP发现下一步的位置和时间[py,tswitch]T,行走方向用顶点速度表示,通过减少学习状态变量的维数,PSP算法可提升强化学习问题的解决效率。4.基于权利要求书2所述的强化学习问题,其特征在于,行走方法的核心部分通过强化学习来实现鲁棒性,使用可追踪策略梯度值函数的计算方法,定义s为CoM的顶点值,xapex在局部中被视为0,s并不包含变量xapex,设定动作为PSP过程的参数输入,转换函数T(s,a)计算下一个顶点值s′和瞬时反馈值,转换函数包含两个阶段:1)通过PSP寻找步时和位置值;2)通过线性倒立摆模型的解析计算下一个顶点状态。5.基于权利要求书4所述的两个阶段,其特征在于,第一个阶段允许通过当前的顶点状态寻找Tswitch,Tapex和py,第二阶段,使用CoM动态分析方案寻找下一个顶点值,网络使用由CoM顶点状态组成的三维输入向量:隐藏层由偏置项和在沿输入三维网格中心间距2cm的18×30×56的高斯函数组成,决策函数由径向基函数(RBF)神经网络组成,基于随机评价选择动作,考虑所需的步行速度和步长限制,RBF神经网络的输出手段和截断正态分布的标准偏差π(a|s,θ),分布的范围如下:网络的输出通过θ进行线性加权,寻找最小化的权重θ,瞬时反馈值由前进速度误差和横向步长误差定义:设定目标学习过程是实现恢复性行为,保持直线前进的方向,同时保持横向方向步长,选择和顶点和动作状态选择截断分布,反馈来自转换函数,如果下一个预测的顶点状态产生终端条件,则转换函数给出一个负反馈-5.0,进程终止并开始一个新的迭代,安全条件集(即与终端条件相反)是以下条件的交集:上式反映了机器人摆动腿和横向步长的能力,没有包含矢状步长度的条件,因为在可允许的作用范围限定内,当学习策略的变化变得足够小(设定为<0.07个点),学习过程结束。6.基于权利要求书2所述的学习策略评价,其特征在于,随着循环次数的增加,基于强化学习的规划程序的性能也随之增加,通过观察不同CoM状态下机器人的姿态,最终选择标称顶点态为根据各种外力和方向模拟CoM的推干扰,使用最终学习策略的平均值,经过多次循环后获得学习策略及其对行走模式的增强。7.基于权利要求书1所述的全身动态控制(二),其特征在于,全身运动控制使用层次结构的加速度同时采用二次规划确定的接触力,主要包括基于加速的层次结构和优化非驱动机器人的反作用力两部分。8.基于权利要求书7所述的基于加速的层次结构,其特征在于,任务控制器在运算空间...
【专利技术属性】
技术研发人员:夏春秋,
申请(专利权)人:深圳市唯特视科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。