一种基于强化学习的六足机器人容错步态规划方法技术

技术编号:38229224 阅读:16 留言:0更新日期:2023-07-25 17:58
本发明专利技术公开了一种基于强化学习的六足机器人容错步态规划方法,包括以下步骤:搭建六足机器人的仿真模型;建立基于改进的Hopf振荡器的CPG步态生成器;融合仿真模型、策略网络与基于改进的Hopf振荡器的CPG步态生成器,构建强化学习运动控制框架,对于建立的六足机器人仿真模型,融合强化学习运动控制框架;模拟六足机器人部分腿出现故障,在仿真环境中冻结六足机器人出现故障的腿,对强化学习运动控制框架进行训练;将训练后的控制网络集成在六足机器人的步态控制框架中,用于生成六足机器人的容错步态并验证,如果能在冻结故障腿的情况下完成自主运动则表示策略网络有效,从而将策略网络提取出来用于控制真实的六足机器人运动。网络提取出来用于控制真实的六足机器人运动。网络提取出来用于控制真实的六足机器人运动。

【技术实现步骤摘要】
一种基于强化学习的六足机器人容错步态规划方法


[0001]本专利技术涉及机器人控制领域,尤其涉及一种基于强化学习的六足机器人容错步态规划方法。

技术介绍

[0002]随着科技的发展,仿生机器人技术得到了迅速发展并已在医疗、工业、军事、航空等领域起到了巨大的作用。在众多的机器人中,六足机器人在非结构地形中具有更多的优势,包括对不规则地形的适应性和灵活性,因此六足机器人在一些特殊环境下具有更广泛的应用前景。然而,当机器人在危险或灾难环境中运动时,容易发生腿部失效故障并且无法及时进行人工修复,如果可以根据当前情况找到能够让腿部故障机器人继续运动的步态,则认为它对于给定的故障是容错的,这将会提高六足机器人在未知环境中的适用性,因此针对六足机器人的容错控制就显得尤为重要,这样可以保证机器人继续作业而不是任务彻底失败。
[0003]为了解决六足机器人的容错步态规划问题,当前已有的研究主要探索了在切换到固定的容错步态以适应腿部故障,如一种腿部可移动六足机器人腿部缺失的容错步态控制方法(CN109696824B),或者研究在CPG控制器分层建模的基础上设计一种自适应容错步态生成器,根据腿部负载的变化延长或缩短支撑相来产生多种步态,如(尤波,李鲲鹏,李佳钰,刘大权.单腿失效的六足机器人失稳调整与容错步态设计[J].机械工程学报,2021,57(01):100

109.),这些方法都需要很强的人工干预对参数进行调整以达到六足机器人的最佳步态,耗时费力也不一定能达到最佳的效果。强化学习作为一种新兴的算法,通过奖励函数的机制,通过不断的试错和迭代来找到高奖励回报的参数更新策略,正好可以用来解决六足机器人发生腿部故障之后的容错步态生成问题,通过适当的奖励函数设计,找到合适的步态输出。

技术实现思路

[0004]为了解决现有技术存在的问题,本专利技术提供一种基于强化学习的六足机器人容错步态规划方法,在六足机器人腿部故障的情况下,通过强化学习寻找合适的容错步态输出,减少人工调参干预,解决六足机器人腿部故障情况下的容错步态规划问题。
[0005]本专利技术至少通过如下技术方案之一实现。
[0006]一种基于强化学习的六足机器人容错步态规划方法,包括以下步骤:
[0007]S1、搭建六足机器人的仿真模型;
[0008]S2、根据六足机器人的运动特点建立基于改进的Hopf振荡器的CPG步态生成器,步态生成器的输入为步态参数,输出为六足机器人的关节位置控制指令,以控制机器人按照步态生成器生成的步态进行运动;
[0009]S3、融合仿真模型与步骤S2中基于改进的Hopf振荡器的CPG步态生成器,构建强化学习运动控制框架;
[0010]S4、模拟六足机器人部分腿随机出现故障,在仿真环境中六足机器人故障腿设定为不能运动,且无支撑力;对强化学习运动控制框架进行训练,获得控制网络的参数,使该框架能够控制六足机器人的仿真模型在部分腿出现故障之后在仿真场景下运动。
[0011]S5、将训练后获得的控制网络集成在六足机器人的步态控制框架中,用于生成六足机器人的容错步态,并在仿真环境中进行验证,机器人能在出现腿部故障的情况下完成运动则表示策略网络有效,从而将策略网络提取出来用于控制真实的六足机器人运动。
[0012]进一步地,步骤S2中,改进的Hopf振荡器的数学模型为:
[0013][0014]式中,ω为振荡器的频率;ω
stance
是支撑相频率;ω
swing
是摆动相频率;b为常数;β是占地系数;y为振荡器的状态变量。
[0015]进一步地,步骤S2中,六足机器人六条腿的振荡器相互耦合,组成环型耦合网络CPG步态生成器的数学模型为:
[0016][0017]式中:λ是两个振荡器间的耦合强度参数;x
i
和y
i
是振荡器i的状态变量;x
j
和y
j
是振荡器j的状态变量;和是一阶导数;α是收敛速度系数;μ为振荡器幅值的平方;ω
i
为单个振荡器的频率;θ
ji
是振荡器i和j之间的相位差;ω
stance
是支撑相频率;ω
swing
是摆动相频率;b为常数。
[0018]进一步地,步骤S2中,髋关节、膝关节与踝关节与振荡器的输出曲线之间的映射函数为:
[0019][0020]式中:θ1、θ2、θ3分别为髋关节、膝关节与踝关节的转角,k0是髋关节的映射系数;k1、k2是膝关节的映射系数;k3是踝关节的映射系数,用来调节关节控制信号的幅值,x、y为振荡器的状态变量。
[0021]进一步地,所述强化学习运动控制框架包括:
[0022]定义仿真环境中六足机器人的状态变量S,所述状态变量S包括机体平台的俯仰角θ
pitch
、翻滚角θ
roll
、机体平台线速度v和角速度ω、各关节转角θ
i

[0023]定义基于改进的Hopf振荡器的CPG步态生成器的动作变量A,所述动作变量包括占地系数β、各个振荡器i和j之间的相位差的θ
ji

[0024]构建六足机器人的控制网络,所述控制网络包括策略网络、总状态价值函数网络和两个动作状态价值函数网络;各网络结构均为神经网络结构,包含输入层、隐藏层和输出
层。
[0025]进一步地,所述策略网络的奖励函数包括前进距离、机体翻转程度、能量效率、关节角度突变,表达式为:
[0026][0027]式中,r为奖励函数,θ
pitch
为俯仰角,θ
roll
为翻滚角,Δt为时间差,d表示机器人的前进方向,x
t

x
t
‑1为t

1到t时刻的前进距离,τ
n
为关节力矩,为关节速度,θ
it

θ
i(t

1)
为关节t

1到t时刻的突变,λ1、λ2、λ3、λ4均为自定义系数。
[0028]进一步地,所述策略网络包括四层神经网络结构:输入层、两个隐藏层和输出层,将状态空间映射至动作空间。
[0029]进一步地,所述总状态价值函数网络包括在线状态价值函数网络和目标状态价值函数网络,二者结构相同。
[0030]进一步地,所述动作状态价值函数网络是将状态空间映射至动作状态价值空间的网络,两个动作状态价值函数网络的结构相同。
[0031]进一步地,所述动作状态价值函数网络的参数更新采用MSELoss作为损失函数。
[0032]本专利技术与现有技术相比,具有如下优点和有益效果:
[0033]本专利技术采用了基于无模型的强化学习算法对六足机器人部分腿部故障之后的容错步态进行规划,全自动生成CPG步态生成器的输入参数来生成容错步态,替代了传统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的六足机器人容错步态规划方法,其特征在于,包括以下步骤:S1、搭建六足机器人的仿真模型;S2、根据六足机器人的运动特点建立基于改进的Hopf振荡器的CPG步态生成器,步态生成器的输入为步态参数,输出为六足机器人的关节位置控制指令,以控制机器人按照步态生成器生成的步态进行运动;S3、融合仿真模型与步骤S2中基于改进的Hopf振荡器的CPG步态生成器,构建强化学习运动控制框架;S4、模拟六足机器人部分腿随机出现故障,在仿真环境中六足机器人故障腿设定为不能运动且无支撑力;对强化学习运动控制框架进行训练,获得控制网络的参数,使该框架能够控制六足机器人的仿真模型在部分腿出现故障之后在仿真场景下运动;S5、将训练后获得的控制网络集成在六足机器人的步态控制框架中,用于生成六足机器人的容错步态,并在仿真环境中进行验证,机器人能在出现腿部故障的情况下完成运动则表示策略网络有效,从而将策略网络提取出来用于控制真实的六足机器人运动。2.根据权利要求1所述的一种基于强化学习的六足机器人容错步态规划方法,其特征在于,步骤S2中,改进的Hopf振荡器的数学模型为:式中,ω为振荡器的频率;ω
stance
是支撑相频率;ω
swing
是摆动相频率;b为常数;β是占地系数;y为振荡器的状态变量。3.根据权利要求1所述的一种基于强化学习的六足机器人容错步态规划方法,其特征在于,步骤S2中,六足机器人六条腿的振荡器相互耦合,组成环型耦合网络CPG步态生成器的数学模型为:式中:λ是两个振荡器间的耦合强度参数;x
i
和y
i
是振荡器i的状态变量;x
j
和y
j
是振荡器j的状态变量;和是一阶导数;α是收敛速度系数;μ为振荡器幅值的平方;ω
i
为单个振荡器的频率;θ
ji
是振荡器i和j之间的相位差;ω
stance
是支撑相频率;ω
swing
是摆动相频率;b为常数。4.根据权利要求1所述的一种基于强化学习的六足机器人容错步态规划方法,其特征在于,步骤S2中,髋关节、膝关节与踝关节与振荡器的输出曲线之间的映射函数为:
式中:θ1、θ1、θ3分别为髋关节、膝关节与踝关节的转角,k0是髋关节的映射系数;k1、k2是膝关节的映射系数;k3是踝关节的映射系数,用来调节关...

【专利技术属性】
技术研发人员:魏武邹扬忠李达贤李雨妮柳雄顶
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1