当前位置: 首页 > 专利查询>清华大学专利>正文

双足机器人步态控制方法、控制装置制造方法及图纸

技术编号:30315726 阅读:44 留言:0更新日期:2021-10-09 23:04
本发明专利技术公开一种双足机器人步态控制方法、控制装置,方法包括:采用模仿学习和强化学习两个阶段,模仿学习包括建立双足机器人简化模型,重复从仿真环境中读取完整模型的当前状态,根据完整模型当前状态及动作目标,对简化模型求解轨迹规划问题和任务空间控制,得到模仿学习数据集;利用数据集对第一神经网络监督训练;保存该模仿学习过程所有轨迹中均方误差最小的一次对应的神经网络参数作为最佳参数;强化学习包括:将第二神经网络的参数初始化为该最佳参数;训练第二神经网络,强化学习收敛后,利用强化学习后的第二神经网络控制双足机器人行走。本发明专利技术使强化学习在初始时就从较优解附近开始搜索,大幅提升其学习效率。大幅提升其学习效率。大幅提升其学习效率。

【技术实现步骤摘要】
双足机器人步态控制方法、控制装置


[0001]本专利技术涉及机器人
,具体地说,涉及一种双足机器人步态控制方法、控制装置。

技术介绍

[0002]由于其自身固有的不稳定性和欠驱动性,像人类一样动态行走对双足机器人来说是一项艰巨的任务。传统步态控制方法首先需要建立数学模型来描述双足机器人的动力学特性,然后基于该动力学模型预先规划为完成预定任务所需要的轨迹,最后基于完整动力学模型设计局部反馈控制器使机器人能跟踪这一轨迹,框架如图1所示。
[0003]传统双足机器人步态控制方法的不足在于其一,完整机器人动力学模型的数学建模过程和控制器设计过程较为繁琐,需要依赖大量人工经验设计和调参;其二,控制器通常是线性化的,线性控制器吸引域较小,抗扰能力较差,不能充分发挥机器人的能力。
[0004]基于强化学习的双足机器人步态控制方法的不足在于其一,奖励函数的设计和超参数的调整都需要依赖大量人工经验;其二,强化学习过程效率较低,体现在所用计算机处理器性能要求高、学习至收敛所需样本数量大、学习至收敛所需时间长。
[0005]强化学习过程效率低有三个主要原因:第一是使用了神经网络,神经网络是一种通用的函数表示形式,需要采集大量数据样本才足以拟合神经网络参数,这一数字往往是几千万到几亿的量级。第二是双足机器人的状态和动作都是连续的,所以虽然维数不高,但实际上策略空间是很大的,强化学习在没有任何先验知识的情况下,只能通过随机搜索的方式来采集数据样本,需要很长的时间才能收集到足够多好的动作来改进神经网络参数,过程中可能有很多冗余或者实际不可行的数据,而这些数据是可以不去搜索的。三是奖励函数设计不佳,奖励函数设计得越具体,神经网络参数的更新就越有针对性,从而提高学习效率,现有方法中的奖励函数大多是若干个子目标的简单加权求和,这没有充分考虑到双足机器人在实际环境中运动的特点,也就阻碍了学习速度。

技术实现思路

[0006]为解决以上问题,本专利技术提供一种双足机器人步态控制方法,在仿真环境中建立双足机器人完整模型,所述完整模型包括躯干、双腿、双足,躯干与双腿间通过髋关节连接,双腿与双足间通过踝关节连接,所述仿真环境为平面地形,所述方法包括模仿学习和强化学习两个阶段,其中,
[0007]所述模仿学习包括:
[0008]步骤S1,建立双足机器人简化模型,所述简化模型包括躯干和双腿,所述双腿都通过髋关节与所述躯干连接,每条腿上各有沿腿长度方向的驱动力F和绕髋关节转动的力矩τ;
[0009]步骤S2,重复从仿真环境中读取所述完整模型的当前状态,并根据所述完整模型的当前状态及动作目标,对所述简化模型求解轨迹规划问题和任务空间控制,得到完整模
型与各当前状态对应的各驱动关节目标位置,将所述完整模型的各当前状态及对应的各驱动关节目标位置一一对应,组成模仿学习数据集;
[0010]步骤S3,利用所述模仿学习数据集对第一神经网络进行监督训练,所述第一神经网络的输入为完整模型的状态,输出为各驱动关节目标位置;
[0011]步骤S4,将经过训练的第一神经网络用于控制所述完整模型行走,直到所述完整模型出现不稳定,计算不稳定时的轨迹下所述完整模型的状态与动作目标之间的均方误差,
[0012]若所述均方误差不收敛,则提取所述不稳定时的轨迹下的所有状态和动作目标,根据所述不稳定时的轨迹下的状态及动作目标,对所述简化模型求解轨迹规划问题和任务空间控制,得到所述完整模型在所述不稳定时的轨迹下的各驱动关节目标位置,将所述完整模型在所述不稳定时轨迹下的状态及对应的各驱动关节目标位置一一对应合并到模仿学习数据集中,重复步骤S3和S4,
[0013]若所述均方误差值收敛,则保存该模仿学习过程所有轨迹中均方误差最小的一次对应的神经网络参数作为最佳参数;
[0014]所述强化学习包括:
[0015]构建第二神经网络,所述第二神经网络与第一神经网络结构相同,并将第二神经网络的参数初始化为第一神经网络中得到的所述最佳参数;
[0016]将所述平面地形更换为真实模拟地形,采用强化学习算法训练第二神经网络,其中输入和输出均和第一神经网络相同,奖励函数设置为所述完整模型的状态与动作目标之间的均方误差;
[0017]强化学习收敛后,利用强化学习后的第二神经网络控制双足机器人行走。
[0018]可选地,所述简化模型采用SLIP模型,其中躯干的质量m和惯量I采用与实际机器人躯干相同的质量和惯量,忽略双腿的质量和惯量,双腿刚度k和阻尼b的取值与实际机器人双腿等效刚度和阻尼相同。
[0019]可选地,所述重复从仿真环境中读取所述完整模型的当前状态,并根据所述完整模型的当前状态及动作目标,对所述简化模型求解轨迹规划问题和任务空间控制,得到完整模型与各当前状态对应的各驱动关节目标位置,包括:
[0020]从仿真环境中获取完整模型的状态,并根据完整模型与简化模型的结构映射关系将完整模型的状态映射至简化模型,代入最优控制方程中,所述最优控制方程的约束条件包括简化模型动力学方程、状态轨迹初值、状态轨迹边界、电机驱动指令轨迹边界,公式如下:
[0021][0022][0023]x
min
≤x
t
≤x
max
[0024]u
min
≤u
t
≤u
max
[0025]其中t0为当前时刻;
[0026]T为优化的时间范围长度;
[0027]v
t
为状态估计得到的简化模型的质心速度,
[0028]为给定的速度指令;
[0029]为简化模型的状态方程;
[0030]x
t
为简化模型的状态轨迹,x
t
包含质心速度v
t
,以及质心位置、双腿与地面接触力、躯干所受外力,髋关节位置,髋关节与双腿的角度和角速度、腿的长度和速度这些参数;
[0031]u
t
为简化模型中电机驱动指令轨迹,包括SLIP模型中的两个τ和两个F;
[0032][x
min
,x
max
]为t0至t0+T时间内机器人状态的最大范围;
[0033][u
min
,u
max
]为驱动指令允许的最大范围;
[0034]求解出简化模型的状态轨迹x
t
,再根据完整模型与简化模型的结构映射关系将x
t
映射为完整模型各驱动关节目标位置轨迹。
[0035]可选地,所述第一神经网络是长短期记忆网络,其包含两个隐含层,两个隐含层的神经元数目采用128或256。
[0036]可选地,将经过训练的第一神经网络用于控制所述完整模型行走之前,先通过在完整模型的各关节位置上添加服从标准正态分布的噪声将完整模型随机初始化。
[0037]可选地,在完整模型的各关节位置上添加服从标准正态分布本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种双足机器人步态控制方法,其特征在于,在仿真环境中建立双足机器人完整模型,所述完整模型包括躯干、双腿、双足,躯干与双腿间通过髋关节连接,双腿与双足间通过踝关节连接,所述仿真环境为平面地形,所述方法包括模仿学习和强化学习两个阶段,其中,所述模仿学习包括:步骤S1,建立双足机器人简化模型,所述简化模型包括躯干和双腿,每条腿都通过髋关节与所述躯干连接,每条腿上各有沿腿长度方向的驱动力F和绕髋关节转动的力矩τ;步骤S2,重复从仿真环境中读取所述完整模型的当前状态,并根据所述完整模型的当前状态及动作目标,对所述简化模型求解轨迹规划问题和任务空间控制,得到完整模型与各当前状态对应的各驱动关节目标位置,将所述完整模型的各当前状态及对应的各驱动关节目标位置一一对应,组成模仿学习数据集;步骤S3,利用所述模仿学习数据集对第一神经网络进行监督训练,所述第一神经网络的输入为完整模型的状态,输出为各驱动关节目标位置;步骤S4,将经过训练的第一神经网络用于控制所述完整模型行走,直到所述完整模型出现不稳定,计算不稳定时的轨迹下所述完整模型的状态与动作目标之间的均方误差,若所述均方误差不收敛,则提取所述不稳定时的轨迹下的所有状态和动作目标,根据所述不稳定时的轨迹下的状态及动作目标,对所述简化模型求解轨迹规划问题和任务空间控制,得到所述完整模型在所述不稳定时的轨迹下的各驱动关节目标位置,将所述完整模型在所述不稳定时轨迹下的状态及对应的各驱动关节目标位置一一对应合并到模仿学习数据集中,重复步骤S3和S4,若所述均方误差值收敛,则保存该模仿学习过程所有轨迹中均方误差最小的一次对应的神经网络参数作为最佳参数;所述强化学习包括:构建第二神经网络,所述第二神经网络与第一神经网络结构相同,并将第二神经网络的参数初始化为第一神经网络中得到的所述最佳参数;将所述平面地形更换为真实模拟地形,采用强化学习算法训练第二神经网络,其中输入和输出均和第一神经网络相同,奖励函数设置为所述完整模型的状态与动作目标之间的均方误差;强化学习收敛后,利用强化学习后的第二神经网络控制双足机器人行走。2.根据权利要求1所述的双足机器人步态控制方法,其特征在于,所述简化模型采用SLIP模型,其中躯干的质量m和惯量I采用与实际机器人躯干相同的质量和惯量,忽略双腿的质量和惯量,双腿刚度k和阻尼b的取值与实际机器人双腿等效刚度和阻尼相同。3.根据权利要求1所述的双足机器人步态控制方法,其特征在于,所述重复从仿真环境中读取所述完整模型的当前状态,并根据所述完整模型的当前状态及动作目标,对所述简化模型求解轨迹规划问题和任务空间控制,得到完整模型与各当前状态对应的各驱动关节目标位置,包括:从仿真环境中获取完整模型的状态,并根据完整模型与简化模型的结构映射关系将完整模型的状态映射至简化模型,代入最优控制方程中,所述最优控制方程的约束条件包括
简化模型动力学方程、状态轨迹初值、状态轨迹边界、电机驱动指令轨迹边界,公式如下:简化模型动力学方程、状态轨迹初值、状态轨迹边界、电机驱动指令轨迹边界,公式如下:x
min
≤x
t
≤x
max
u
min
≤u
t
≤u
max
其中t0为当前时刻;T为优化的时间范围长度;v
t
为状态估计得到的简化模型的质心速度,为给定的速度指令;为简化模型的状态方程;x
t
为简化模型的状态轨迹,x
t
包含质心速度v
t
,以及质心位置、双腿与地面接触力、躯干所受外力,髋关节位置,髋关节与双腿的角度和角速度、腿的长度和速度这些参数;u
t
为简化模型中电机驱动指令轨迹,包括SLIP模型中的两个τ和两个F;[x
min
,x
max
]为t0至t0+T时间内机器人状态的最大范围;[u
min
,u
ma...

【专利技术属性】
技术研发人员:赵明国陈崴
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1