一种基于先验经验的足式机器人运动轨迹自主涌现方法技术

技术编号:36516768 阅读:13 留言:0更新日期:2023-02-01 15:49
本发明专利技术提供一种基于先验经验的足式机器人运动轨迹自主涌现方法,建立了足式机器人智能体深度强化学习模型,并设计了强化学习后机器人运动控制的运动轨迹半自主涌现模型、运动轨迹全自主涌现模型,共同形成基于先验经验的足式机器人运动轨迹自主涌现方法,模型部署后可成功实现物理样机的自主运动行走,还可有效实现机器人在无任何人工干预和遥操作指令控制下运动轨迹的自主生成,可降低在轨验证成本及在轨验证风险,为空间机器人在月火复杂环境下智能自主运动行走提供参考,并为传统控制和学习控制指出合作方向。学习控制指出合作方向。学习控制指出合作方向。

【技术实现步骤摘要】
一种基于先验经验的足式机器人运动轨迹自主涌现方法


[0001]本专利技术属于机器人运动控制
,尤其涉及一种基于先验经验的足式机器人运动轨迹自主涌现方法。

技术介绍

[0002]我国深空探测任务的主要目标之一是在月球和火星表面建立永久性基地,然而地外天体基地建设是一项前所未有的重大工程,实施前需要充分的准备工作,其中最为关键的一环就是研制能够适应月面和火面环境的空间机器人,为建立基地以至载人登陆开道铺路。
[0003]考虑到机器人技术已逐渐成熟并在近年来得到广泛应用,但对于服务于航天任务的空间机器人而言,因其独特的任务环境和使用需求所限,传统机器人的操作方式和控制方法在空间任务中遇到了诸多挑战。一方面,相比于工作在地面和近地空间上的机器人,深空和地外天体探测机器人只能受到有限的人为干预,且环境未知或有限可知,加之具有严格的通信约束,导致在地面已成功应用的诸多成熟控制方法不再适用;另一方面,随着空间任务复杂程度不断提升,空间机器人已由执行单一任务的简单系统发展为集多重任务于一身的复杂非线性系统,传统基于模型的控制策略的制定一般需要精确的动力学描述和边界条件,而非线性系统的动力学建模过程往往较为复杂,导致相同控制方法因不同的使用环境而存在差异,重复建模工作量大。因此,如何借助人工智能方法解决机器人的运动控制问题对于空间任务具有十分重要的意义。

技术实现思路

[0004]为解决上述问题,本专利技术提供一种基于先验经验的足式机器人运动轨迹自主涌现方法,能够实现足式机器人在无任何人工干预和遥操作指令控制下运动轨迹的自主生成。
[0005]一种基于先验经验的足式机器人运动轨迹自主涌现方法,采用基于强化学习训练得到的全自主涌现模型或半自主涌现模型获取足式机器人的运动轨迹;
[0006]其中,全自主涌现模型获取运动轨迹的方法为:将当前时刻足式机器人各条腿上的电机转动角度输入所述全自主涌现模型,得到下一时刻足式机器人各条腿上的电机转动角度,使得足式机器人自主完成行走任务;
[0007]半自主涌现模型获取运动轨迹的方法为:将足式机器人各条腿上的电机转动角度的参考值、当前时刻足式机器人各条腿上的电机转动角度输入所述半自主涌现模型,得到下一时刻足式机器人各条腿上的电机转动角度,使得足式机器人半自主完成行走任务。
[0008]进一步地,所述全自主涌现模型的训练方法为:
[0009]将足式机器人在当前时刻的滚转角、俯仰角、滚转角速度、俯仰角速度、位置以及足式机器人各条腿上的电机转速和电机转矩构建为状态空间;
[0010]将当前时刻足式机器人各条腿上的电机转矩构建为作为动作空间;
[0011]构建基于巡视速度最优的奖励函数r1:
[0012][0013]其中,x,y,z为足式机器人当前时刻的位置,x0,y0,z0为足式机器人上一时刻的位置,τ
i
为足式机器人各条腿上的电机转矩,ω
i
为足式机器人各条腿上的电机转速,i=1,2,

,n,n为足式机器人的腿数;
[0014]在当前地形环境下,获取不同状态空间、动作空间以及不同状态空间、动作空间对应的下一时刻足式机器人各条腿上的电机转动角度作为训练样本集,并基于训练样本集采用强化学习的方式对全自主涌现模型进行训练,直到基于巡视速度最优的奖励函数r1收敛,得到最终的全自主涌现模型。
[0015]进一步地,所述全自主涌现模型的训练方法为:
[0016]将足式机器人在当前时刻的滚转角、俯仰角、滚转角速度、俯仰角速度、位置以及足式机器人各条腿上的电机转速和电机转矩构建为状态空间;
[0017]将当前时刻足式机器人各条腿上的电机转矩构建为作为动作空间;
[0018]构建基于关节能耗最优的奖励函数r2:
[0019][0020]其中,x,y,z为足式机器人当前时刻的位置,x0,y0,z0为足式机器人上一时刻的位置,τ
i
为足式机器人各条腿上的电机转矩,ω
i
为足式机器人各条腿上的电机转速,i=1,2,

,n,n为足式机器人的腿数;
[0021]在当前地形环境下,获取不同状态空间、动作空间以及不同状态空间、动作空间对应的下一时刻足式机器人各条腿上的电机转动角度作为训练样本集,并基于训练样本集采用强化学习的方式对全自主涌现模型进行训练,直到基于关节能耗最优的奖励函数r2收敛,得到最终的全自主涌现模型。
[0022]进一步地,半自主涌现模型的训练方法为:
[0023]将足式机器人在当前时刻的滚转角、俯仰角、滚转角速度、俯仰角速度、位置以及足式机器人各条腿上的电机转速和电机转矩构建为状态空间;
[0024]将当前时刻足式机器人各条腿上的电机转矩构建为作为动作空间;
[0025]构建基于巡视速度最优的奖励函数r1和基于关节能耗最优的奖励函数r2:
[0026][0027][0028]其中,x,y,z为足式机器人当前时刻的位置,x0,y0,z0为足式机器人上一时刻的位置,τ
i
为足式机器人各条腿上的电机转矩,ω
i
为足式机器人各条腿上的电机转速,i=1,2,

,n,n为足式机器人的腿数;
[0029]在当前地形环境下,获取不同状态空间、动作空间对应的下一时刻足式机器人各条腿上的电机转动角度与设定参考值之间的差值,并将不同状态空间、动作空间以及不同状态空间、动作空间对应的差值作为训练样本集,并基于训练样本集采用强化学习的方式对半自主涌现模型进行训练,直到基于巡视速度最优的奖励函数r1或基于关节能耗最优的
奖励函数r2收敛,得到最终的半自主涌现模型。
[0030]进一步地,半自主涌现模型的训练方法为:
[0031]将足式机器人在当前时刻的滚转角、俯仰角、滚转角速度、俯仰角速度、位置以及足式机器人各条腿上的电机转速和电机转矩构建为状态空间;
[0032]将当前时刻足式机器人各条腿上的电机转矩构建为作为动作空间;
[0033]构建基于巡视速度最优的奖励函数r1和基于关节能耗最优的奖励函数r2:
[0034][0035][0036]其中,x,y,z为足式机器人当前时刻的位置,x0,y0,z0为足式机器人上一时刻的位置,τ
i
为足式机器人各条腿上的电机转矩,ω
i
为足式机器人各条腿上的电机转速,i=1,2,

,n,n为足式机器人的腿数;
[0037]在当前地形环境下,获取不同状态空间、动作空间对应的当前时刻足式机器人各条腿上的电机转动角度与设定参考值之间的差值,并将不同状态空间、动作空间以及不同状态空间、动作空间对应的差值作为训练样本集,并基于训练样本集采用强化学习的方式对半自主涌现模型进行训练,直到基于巡视速度最优的奖励函数r1或基于关节能耗最优的奖励函数r2收敛,得到最终的半自主涌现模型。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于先验经验的足式机器人运动轨迹自主涌现方法,其特征在于,采用基于强化学习训练得到的全自主涌现模型或半自主涌现模型获取足式机器人的运动轨迹;其中,全自主涌现模型获取运动轨迹的方法为:将当前时刻足式机器人各条腿上的电机转动角度输入所述全自主涌现模型,得到下一时刻足式机器人各条腿上的电机转动角度,使得足式机器人自主完成行走任务;半自主涌现模型获取运动轨迹的方法为:将足式机器人各条腿上的电机转动角度的参考值、当前时刻足式机器人各条腿上的电机转动角度输入所述半自主涌现模型,得到下一时刻足式机器人各条腿上的电机转动角度,使得足式机器人半自主完成行走任务。2.如权利要求1所述的一种基于先验经验的足式机器人运动轨迹自主涌现方法,其特征在于,所述全自主涌现模型的训练方法为:将足式机器人在当前时刻的滚转角、俯仰角、滚转角速度、俯仰角速度、位置以及足式机器人各条腿上的电机转速和电机转矩构建为状态空间;将当前时刻足式机器人各条腿上的电机转矩构建为作为动作空间;构建基于巡视速度最优的奖励函数r1:其中,x,y,z为足式机器人当前时刻的位置,x0,y0,z0为足式机器人上一时刻的位置,τ
i
为足式机器人各条腿上的电机转矩,ω
i
为足式机器人各条腿上的电机转速,i=1,2,

,n,n为足式机器人的腿数;在当前地形环境下,获取不同状态空间、动作空间以及不同状态空间、动作空间对应的下一时刻足式机器人各条腿上的电机转动角度作为训练样本集,并基于训练样本集采用强化学习的方式对全自主涌现模型进行训练,直到基于巡视速度最优的奖励函数r1收敛,得到最终的全自主涌现模型。3.如权利要求1所述的一种基于先验经验的足式机器人运动轨迹自主涌现方法,所述全自主涌现模型的训练方法为:将足式机器人在当前时刻的滚转角、俯仰角、滚转角速度、俯仰角速度、位置以及足式机器人各条腿上的电机转速和电机转矩构建为状态空间;将当前时刻足式机器人各条腿上的电机转矩构建为作为动作空间;构建基于关节能耗最优的奖励函数r2:其中,x,y,z为足式机器人当前时刻的位置,x0,y0,z0为足式机器人上一时刻的位置,τ
i
为足式机器人各条腿上的电机转矩,ω
i
为足式机器人各条腿上的电机转速,i=1,2,

,n,n为足式机器人的腿数;在当前地形环境下,获取不同状态空间、动作空间以及不同状态空间、动作空间对应的下一时刻足式机器人各条腿上的电机转动角度作为训练样本集,并基于训练样本集采用强化学习的方式对全自主涌现模型进行训练,直到基于关节能耗最优的奖励函数r2收敛,得到最终的全自主涌现模型。4.如权利要求1所述的一种基于先验经验的足式机器人运动轨迹自主涌现方法,其特
征在于,半自主涌现模型的训练方法为:将足式机器人在当前时刻的滚转角、俯仰角、滚转角速度、俯仰角速度、位置以及足式机器人各条腿上的电机转速和电机转矩构建为状态空间;将当前时刻足式机器人各条腿上的电机转矩构建为作为动作空间;构建基于巡视速度最优的奖励函数r1和基于关节能耗最优的奖励函数r2::其中,x,y,z为足式机器人当前时刻的位置,x0,y0,z0为...

【专利技术属性】
技术研发人员:马超李剑飞吴爽李群智罗毓芳谭启蒙徐超凡李中衡
申请(专利权)人:北京空间飞行器总体设计部
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1