基于深度增强学习的预观控制仿人机器人步态规划方法技术

技术编号:18971698 阅读:43 留言:0更新日期:2018-09-19 03:21
本发明专利技术公开了一种基于深度增强学习的预观控制仿人机器人步态规划方法,包括步骤:1)通过装配在仿人机器人上的传感器获取状态信息;2)改进现有的深度强化学习网络,定义全新的状态、动作向量和奖励函数;3)使用定义的动作向量对预观控制器的输出进行修正,计算出仿人机器人双腿各舵机的角度,指导仿人机器人行走;4)在仿人机器人行走过程中,用状态、动作向量、奖励函数的值更新改进的深度强化学习网络。本发明专利技术方法可有效解决仿人机器人在复杂环境下的行走问题,且在仿真平台和实体机器人上进行了测试,验证了此方法的有效性。

Gait planning for preview control humanoid robot based on deep reinforcement learning

The invention discloses a gait planning method for a preview control humanoid robot based on depth enhancement learning, which comprises the following steps: 1) obtaining state information through sensors assembled on the humanoid robot; 2) improving the existing depth enhancement learning network, defining a new state, action vector and reward function; 3) using the definition; The motion vector corrects the output of the preview controller, calculates the angles of the two legs of the humanoid robot to guide the humanoid robot walking; 4) In the walking process of the humanoid robot, the improved depth reinforcement learning network is updated with the values of the state, the motion vector and the reward function. The method of the invention can effectively solve the walking problem of the humanoid robot in the complex environment, and is tested on the simulation platform and the solid robot to verify the effectiveness of the method.

【技术实现步骤摘要】
基于深度增强学习的预观控制仿人机器人步态规划方法
本专利技术涉及仿人机器人的
,尤其是指一种基于深度增强学习的预观控制仿人机器人步态规划方法。
技术介绍
仿人机器人的一项基本功能是稳定行走。然而,由于仿人机器人的组成结构的复杂性,耦合关系强、模块独立性差等特点,使得仿人机器人的稳定行走的功能比较难实现。因此,仿人机器人的步态控制和规划问题也成为了目前相关领域的研究热点。传统的步态控制方法可以大致分为两类:基于现代控制理论的方法和基于步行机制的方法。然而这些方法大多比较陈旧,不适用于目前愈发复杂的模型机制。而最近各类机器学习方法的不断提出和创新,也激励了动态步态控制的发展。相较于传统的控制理论,基于机器学习的方法不需要大量有关复杂模型的先验知识,而且易于实现,能够达到与传统的控制理论相媲美的水平。深度强化学习方法在复杂的控制问题上已经被证明是行之有效的。通过学习的方式,解决了系统的设计者对系统动力学认识不足的问题,这些方法可能会给出超越设计者知识领域的完善的解决方案。同时,这样的方法有着持续学习和改进的能力,不断地学习和适应复杂的环境。
技术实现思路
本专利技术主要研究仿人机器人在复杂地面环境行走时的步态规划功能,针对已有的控制理论不能有效解决复杂环境下行走的问题,提出了一种基于深度增强学习的预观控制仿人机器人步态规划方法,可有效解决仿人机器人在复杂环境下的行走问题,且在仿真平台和实体机器人上进行了测试,验证了此方法的有效性。为实现上述目的,本专利技术所提供的技术方案为:基于深度增强学习的预观控制仿人机器人步态规划方法,包括以下步骤:1)通过装配在仿人机器人上的传感器获取状态信息;2)改进现有的深度强化学习网络,定义全新的状态、动作向量和奖励函数;3)使用定义的动作向量对预观控制器的输出进行修正,计算出仿人机器人双腿各舵机的角度,指导仿人机器人行走;4)在仿人机器人行走过程中,用状态、动作向量、奖励函数的值更新改进的深度强化学习网络。在步骤1)中,通过装配在仿人机器人上的传感器获取状态信息,仿人机器人行走时的稳定程度主要受支撑脚上俯仰方向的舵机影响,因此在所定义的状态信息中,应该提供支撑脚信息以及支撑脚上俯仰舵机的角度信息,此外,还需要加速度和角速度的值,来判断仿人机器人行走过程的稳定情况,然后再对离线步态做出实时调整,以便能够适应不平整的地形环境;[α,ω,θlhip,θrhip,θlankle,θrankle]其中,α表示仿人机器人的在x轴和y轴方向上的加速度平方和的平方根;ω表示仿人机器人的在x轴和y轴方向上的角速度平方和的平方根;θlhip,θrhip,θlankle,θrankle表示仿人机器人左右腿髋关节和踝关节俯仰方向上舵机的角度。在步骤2)中,改进的深度强化学习网络采用深度确定性策略梯度法DDPG,具体如下:2.1)深度强化学习相关变量的定义借助深度强化学习的方法,对预观控制器的控制输出进行补偿,要使用深度强化学习,首先需要定义相关的变量,包括状态向量、动作向量、奖励函数;预观控制器控制的输出为二维向量,分别对应质心x轴方向和y轴方向坐标的输出值,因此深度强化学习网络的动作定义为:其中,Δμx和Δμy分别对应预观控制器每个维度输出的改变量;考虑到对仿人机器人行走的期望,希望仿人机器人能够在越走越远的情况下保持稳定,定义奖励函数为:其中,如果仿人机器人能够顺利走到终点,回报值为50;如果仿人机器人在行走的过程中摔倒,则回报值为-50;若是其它情况,则要参考机器人当前的状态;加速度的平方和rα(t)的定义为:其中,αx(x)和αy(t)分别代表t时刻仿人机器人在x轴方向上和y轴方向上的加速度的值;角速度的平方和rω(t)的定义为:其中,ωx(x)和ωy(t)分别代表t时刻仿人机器人在x轴方向上和y轴方向上的角速度的值;x_dis代表仿人机器行走的距离;2.2)深度强化学习网络的构建在实现DDPG的时候,需要分别搭建Actor网络和Critic网络用来训练,Critic网络的作用是参数化行为价值函数;Actor网络的作用是按照Critic网络得到的价值引导策略函数的更新,Critic网络的具体结构为:输入层:s(t)表示Q学习中Q函数在t时刻输入的状态,共9维;隐藏层:隐藏层为2层,其中第一层有402个节点,包括2个代表动作的节点;第二层为300个节点;每个神经元的激活函数为线性整流激活函数,使用以下公式计算其输出:yi(t)=max(t,0),i=1,2,…n代表了第i个神经元的输出yi(t)取0和t中的较大值;输出层:Q(t)代表策略函数的输出值,共1维;Actor网络的具体结构为:输入层:s(t)表示Q学习中Q函数在t时刻输入的状态,共9维;隐藏层:隐藏层为2层,其中第一层有400个节点,第二层为300个节点;每个神经元的激活函数为线性整流激活函数,使用以下公式计算其输出:yi(t)=max(t,0),i=1,2,…n代表了第i个神经元的输出yi(t)取0和t中的较大值;输出层:a(t)代表输出的动作值,共2维;使用BP算法及梯度下降法,对Critic和Actor网络进行更新,对于每个神经元的输出权重wi,有如下更新公式:其中,wi为第i个权重,为学习率,E为两个网络的学习性能指标;在步骤3)中,利用改进的深度强化学习网络对预观控制器输出的修正量进行修正,在修正后的预观控制器的基础上,计算出仿人机器人双腿各个舵机的角度,指导机器人行走;其中,传统的预观控制器的理论重点就是利用未来的信息进行控制,未来信息指未来Np步以内的目标ZMP参考值,设当前时间点为k,那么未来Np步以内的双脚位姿通过三维步行模式计算得到,进而获得Np步以内的目标ZMP参考值:ZMP*k+1,…,ZMP*k+Np;然后把这些未来目标ZMP参考值储存于FIFO缓冲器中,其输出值作为当前的参考值,预观控制器用FIFO缓冲器中的ZMP参考值和仿人机器人的状态计算控制输出,控制输出的公式为:其中,uk为k时刻控制器输出;c,Ks,Kx,为控制器系数;为k时刻的仿人机器人质心坐标,[ZMP*k+1,…,ZMP*k+Np]T为k+1时刻到k+Np的参考ZMP;通过深度增强学习的网络训练出预观控制输出值的修正量;u′k=uk+Δuk得到控制输入后,计算出k+1时刻的质心坐标;利用k+1时刻的质心坐标(xk+1,yk+1),这就能够得到k+1时刻的质心位姿和左右脚位姿:其中,Gcobpresent,Glpresent和Grpresent为k+1时刻质心,左脚和右脚的位姿;最后再根据逆运动学原理,对仿人机器人双腿的舵机角度进行计算,得到k+1时刻的双腿各个关节舵机角度,以此来知道仿人机器人行走。本专利技术与现有技术相比,具有如下优点与有益效果:1、本方法在已有预观控制理论的基础上,采用了深度强化学习的思路,加快了收敛速度。2、本方法简单易行,能够在线控制仿人机器人的步行运动,适时调整机器人的步态,帮助仿人机器人在不平整的地面上实现稳定行走,具有一定的现实意义和应用价值。附图说明图1为Critic网络结构图。图2为Actor网络结构图。图3为预观控制流程图。图4为基于深度强化学习的预观控制流程图。图5为行走实验效果图。具体实施方式下面结合本文档来自技高网...

【技术保护点】
1.基于深度增强学习的预观控制仿人机器人步态规划方法,其特征在于,包括以下步骤:1)通过装配在仿人机器人上的传感器获取状态信息;2)改进现有的深度强化学习网络,定义全新的状态、动作向量和奖励函数;3)使用定义的动作向量对预观控制器的输出进行修正,计算出仿人机器人双腿各舵机的角度,指导仿人机器人行走;4)在仿人机器人行走过程中,用状态、动作向量、奖励函数的值更新改进的深度强化学习网络。

【技术特征摘要】
1.基于深度增强学习的预观控制仿人机器人步态规划方法,其特征在于,包括以下步骤:1)通过装配在仿人机器人上的传感器获取状态信息;2)改进现有的深度强化学习网络,定义全新的状态、动作向量和奖励函数;3)使用定义的动作向量对预观控制器的输出进行修正,计算出仿人机器人双腿各舵机的角度,指导仿人机器人行走;4)在仿人机器人行走过程中,用状态、动作向量、奖励函数的值更新改进的深度强化学习网络。2.根据权利要求1所述的基于深度增强学习的预观控制仿人机器人步态规划方法,其特征在于:在步骤1)中,通过装配在仿人机器人上的传感器获取状态信息,仿人机器人行走时的稳定程度主要受支撑脚上俯仰方向的舵机影响,因此在所定义的状态信息中,应该提供支撑脚信息以及支撑脚上俯仰舵机的角度信息,此外,还需要加速度和角速度的值,来判断仿人机器人行走过程的稳定情况,然后再对离线步态做出实时调整,以便能够适应不平整的地形环境;[α,ω,θlhip,θrhip,θlankle,θrankle]其中,α表示仿人机器人的在x轴和y轴方向上的加速度平方和的平方根;ω表示仿人机器人的在x轴和y轴方向上的角速度平方和的平方根;θlhip,θrhip,θlankle,θrankle表示仿人机器人左右腿髋关节和踝关节俯仰方向上舵机的角度。3.根据权利要求1所述的基于深度增强学习的预观控制仿人机器人步态规划方法,其特征在于:在步骤2)中,改进的深度强化学习网络采用深度确定性策略梯度法DDPG,具体如下:2.1)深度强化学习相关变量的定义借助深度强化学习的方法,对预观控制器的控制输出进行补偿,要使用深度强化学习,首先需要定义相关的变量,包括状态向量、动作向量、奖励函数;预观控制器控制的输出为二维向量,分别对应质心x轴方向和y轴方向坐标的输出值,因此深度强化学习网络的动作定义为:其中,Δμx和Δμy分别对应预观控制器每个维度输出的改变量;考虑到对仿人机器人行走的期望,希望仿人机器人能够在越走越远的情况下保持稳定,定义奖励函数为:其中,如果仿人机器人能够顺利走到终点,回报值为50;如果仿人机器人在行走的过程中摔倒,则回报值为-50;若是其它情况,则要参考机器人当前的状态;加速度的平方和的平方根rα(t)的定义为:其中,αx(x)和αy(t)分别代表t时刻仿人机器人在x轴方向上和y轴方向上的加速度的值;角速度平方和的平方根rω(t)的定义为:其中,ωx(x)和ωy(t)分别代表t时刻仿人机器人在x轴方向上和y轴方向上的角速度的值;x_dis代表仿人机器行走的距离;2.2)深度强化学习网络的构建在实现DDPG的时候,需要分别搭建Actor网络和Critic网络用来训练,Critic网络的作用是参数化行为价值函数...

【专利技术属性】
技术研发人员:毕盛刘云达董敏张英杰闵华清
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1