一种基于深度强化学习的单腿机器人连续跳跃控制方法技术

技术编号:37478740 阅读:16 留言:0更新日期:2023-05-07 09:19
本发明专利技术公开了一种基于深度强化学习的单腿机器人连续跳跃控制方法,根据机器人正运动学计算实时腿长,并将实时腿长与有限状态机中预设的目标腿长进行对比,判断是否进行跳跃阶段切换;虚拟弹簧

【技术实现步骤摘要】
一种基于深度强化学习的单腿机器人连续跳跃控制方法


[0001]本专利技术属于机器人控制
,具体涉及一种基于深度强化学习的单腿机器人连续跳跃控制方法。

技术介绍

[0002]对于腿足式机器人,在环境中能够克服大间隙和高平台的跳跃能力是至关重要的。跳跃的特点是瞬时力大、力变化速度快、持续时间短。据生物力学家研究表明,生物个体能够达到的最大跳跃高度取决于其下肢的三个力学特征:能产生的最大的力、最大的伸展速度以及伸展范围。因此,在机器人跳跃的过程中合理控制和规划这三个力学特征,对于充分挖掘其跳跃能力是至关重要的。此外,动物在奔跑时可以通过调节腿部骨骼肌系统的刚度,将身体的重力和动能转化为应变能,以适应落地带来的冲击并重新加速自己的身体,使其运动变得更加灵活和稳健。对于连续跳跃运动,机器人的落地缓冲过程将直接决定其再次跳跃的高度和稳定性,而动物这种“可调节刚度”的思想为更好的处理机器人落地缓冲过程提供了新的思路。
[0003]目前针对单腿机器人连续跳跃的控制方法,或是建模计算较为复杂难以在控制器上实时实现,或是控制模型为人工设计需要经过繁琐且低效的人工调参,存在一定的局限性。虽然一些研究已经尝试将刚度、腿长等与跳跃运动直接相关的因素作为可变因素应用于连续跳跃研究,但相关工作均存在于条件理想的仿真之中,缺乏相应的实验验证。

技术实现思路

[0004]针对现有技术中存在不足,本专利技术提供了一种基于深度强化学习的单腿机器人连续跳跃控制方法,在VMC(虚拟模型控制)方法的理论基础上,充分考虑连续跳跃运动中有实时变化需求的运动因素,通过使用DRL(深度强化学习)训练单腿机器人运动控制器,提出了一种动态跳跃自适应学习框架,仿真训练出的策略可直接部署至实物单腿机器人平台,实现稳定且跳跃高度理想的连续跳跃运动。
[0005]本专利技术是通过以下技术手段实现上述技术目的。
[0006]一种基于深度强化学习的单腿机器人连续跳跃控制方法:
[0007]将机器人动力学建模为虚拟弹簧

阻尼模型,根据机器人正运动学计算实时腿长,并将实时腿长与有限状态机中预设的目标腿长进行对比,判断是否进行跳跃阶段切换;
[0008]所述虚拟弹簧

阻尼模根据当前跳跃阶段计算足部末端虚拟力,进而得到所需的关节力矩,控制机器人进行运动;
[0009]所述虚拟弹簧

阻尼模型中的刚度、阻尼由动作空间信息中的刚度系数和阻尼系数进行更新;
[0010]所述目标腿长包括跳跃腿长、飞行腿长和落地缓冲腿长,且有限状态机中预设的目标腿长根据如下方式进行更新:除第一次跳跃以外,满足实时腿长小于落地缓冲腿长时,更新跳跃腿长和飞行腿长;当机器人跳跃至最高点且绝对速度为0时,更新落地缓冲腿长;
[0011]所述动作空间信息为策略网络的输出,策略网络的输入为观察空间信息,且策略网络根据奖励数值以固定周期进行优化,所述奖励数值由机器人当前状态信息根据奖励函数计算。
[0012]进一步的技术方案,所述动作空间信息为:虚拟弹簧

阻尼模型Z方向的刚度系数、阻尼系数,虚拟弹簧

阻尼模型X方向的刚度系数、阻尼系数,跳跃腿长、飞行腿长和落地腿长。
[0013]进一步的技术方案,所述观察空间信息为:H
sum
是足部末端累计离地高度,z

是足部末端在世界坐标系下距离地面的高度,x是X方向足部末端实际的位置,v
base
为机器人基体的绝对速度,θ1是机器人大腿与水平方向的夹角,θ2是机器人大腿与小腿之间的夹角,为大腿关节的实时角速度,为小腿关节的实时角速度。
[0014]更进一步的技术方案,所述足部末端累计离地高度满足:
[0015][0016]z'(t)=z
base
(t)

h
base

l(t)
[0017]z
base
(t)=h
p

l
base
(t)
[0018]其中:z

(t)是足部末端当前时刻距离地面的高度,z

(t

1)是足部末端前一时刻距离地面的高度,z
base
(t)为滑轨连接平台上平面当前时刻在世界坐标系下距离地面的高度,h
base
为滑轨连接平台上平面与大腿关节中心的距离,l(t)为当前时刻的实时腿长,h
p
为滑轨架最大有效行程,l
base
(t)为滑轨架最大有效行程处与滑轨连接平台上平面之间在当前时刻的直线距离。
[0019]进一步的技术方案,所述奖励函数包括奖励项和惩罚项,所述奖励项包括机器人足端累计离地高度奖励、连续成功跳跃次数奖励以及完成既定跳跃次数任务奖励,所述惩罚项包括惩罚机器人空中跳跃姿态足部末端水平方向不稳定、惩罚关节高耗能、惩罚关节超出限位以及训练超时。
[0020]更进一步的技术方案,所述奖励函数具体为:
[0021]空中跳跃姿态:k1*|x|;
[0022]累计离地高度:k2*H
sum

[0023]跳跃成功次数:k3*Jump_times*Jump_Flag;
[0024]能量损失:
[0025]是否完成目标:Success_Flag*k5+Error_Flag*k6;
[0026]其中:k1、k2、k3、k4、k5、k6均为系数,x是X方向足部末端实际的位置,Jump_times表示跳跃次数,Jump_Flag表示跳跃标志位,τ1为机器人大腿关节所需关节力矩,τ2为机器人小腿关节所需关节力矩,为大腿关节的实时角速度,为小腿关节的实时角速度,Success_Flag表示成功标志位,Error_Flag表示错误标志位。
[0027]进一步的技术方案,所述策略网络的全连接隐藏层第一层和第二层分别由64、32个节点组成。
[0028]进一步的技术方案,所述观察空间信息在输入策略网络前添加环境噪声,所述环境噪声在仿真环境中添加。
[0029]进一步的技术方案,在仿真环境中,对机器人物理参数设置域随机化。
[0030]本专利技术的有益效果为:
[0031](1)本专利技术的基于深度强化学习的单腿机器人连续跳跃控制方法,将虚拟模型控制和深度强化学习结合,避免单独使用虚拟模型控制时,人工设计的控制器存在的繁琐且低效的参数调优过程;
[0032](2)本专利技术针对机器人连续跳跃任务,对观察空间的部分信息进行特征工程处理实现训练过程的快速收敛;
[0033](3)本专利技术策略网络输入的观察空间信息包括足部末端累计离地高度、足部末端在世界坐标系下距离地面的高度、X方向足部末端实际的位置、机器人基体的绝对速度、机器人大腿与水平方向的夹角、机器人大腿与小腿之间的夹角、大腿关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的单腿机器人连续跳跃控制方法,其特征在于:将机器人动力学建模为虚拟弹簧

阻尼模型,根据机器人正运动学计算实时腿长,并将实时腿长与有限状态机中预设的目标腿长进行对比,判断是否进行跳跃阶段切换;所述虚拟弹簧

阻尼模型根据当前跳跃阶段计算足部末端虚拟力,进而得到所需的关节力矩,控制机器人进行运动;所述虚拟弹簧

阻尼模型中的刚度、阻尼由动作空间信息中的刚度系数和阻尼系数进行更新;所述目标腿长包括跳跃腿长、飞行腿长和落地缓冲腿长,且有限状态机中预设的目标腿长根据如下方式进行更新:除第一次跳跃以外,满足实时腿长小于落地缓冲腿长时,更新跳跃腿长和飞行腿长;当机器人跳跃至最高点且绝对速度为0时,更新落地缓冲腿长;所述动作空间信息为策略网络的输出,策略网络的输入为观察空间信息,且策略网络根据奖励数值以固定周期进行优化,所述奖励数值由机器人当前状态信息根据奖励函数计算。2.根据权利要求1所述的单腿机器人连续跳跃控制方法,其特征在于,所述动作空间信息为:虚拟弹簧

阻尼模型Z方向的刚度系数、阻尼系数,虚拟弹簧

阻尼模型X方向的刚度系数、阻尼系数,跳跃腿长、飞行腿长和落地腿长。3.根据权利要求1所述的单腿机器人连续跳跃控制方法,其特征在于,所述观察空间信息为:H
sum
是足部末端累计离地高度,z

是足部末端在世界坐标系下距离地面的高度,x是足部末端在机器人所定义坐标系中X方向的位置,v
base
为机器人基体的绝对速度,θ1是机器人大腿与水平方向的夹角,θ2是机器人大腿与小腿之间的夹角,为大腿关节的实时角速度,为小腿关节的实时角速度。4.根据权利要求3所述的单腿机器人连续跳跃控制方法,其特征在于,所述足部末端累计离地高度满足:z'(t)=z
base
(t)

h
base

l(t)z
base
(t)=h
p

l
base<...

【专利技术属性】
技术研发人员:明爱国孙能祥孟非顾赛刘伯韬黄强
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1