六足机器人自适应步态规划方法、系统、装置及介质制造方法及图纸

技术编号:33089571 阅读:54 留言:0更新日期:2022-04-15 11:00
本发明专利技术公开了一种六足机器人自适应步态规划方法、系统、装置及介质,其中方法包括:搭建六足机器人的仿真模型;根据六足机器人的运动特点建立步态生成器;融合所述仿真模型与所述步态生成器,构建获得强化学习运动控制框架;对所述强化学习运动控制框架进行训练,获得控制网络的参数,使该框架能够控制六足机器人的仿真模型在非结构化地形的仿真场景下运动;将训练后获得的控制网络集成在六足机器人的步态控制框架中,用于控制六足机器人的运动。本发明专利技术使用基于强化学习的控制框架学习最优的策略网络,用来控制步态生成器的输入,避免了需要手工设置也不易更改参数的问题,并能更好的适应地形条件的改变。本发明专利技术可广泛应用于机器人控制领域。于机器人控制领域。于机器人控制领域。

【技术实现步骤摘要】
六足机器人自适应步态规划方法、系统、装置及介质


[0001]本专利技术涉及机器人控制领域,尤其涉及一种六足机器人自适应步态规划方法、系统、装置及介质。

技术介绍

[0002]随着社会经济的持续发展和科学技术的不断进步,智能机器人被应用在越来越多的复杂场景下,如仓储物流、加工制造、能源和矿产采集、医疗康复、国防军事等。如今人类的活动范围不断扩大,各种生活和生产环境也越来越复杂,因此人类开始利用智能机器人完成在各类复杂环境下的探索与检测以提高安全性和工作效率。但是由于技术还在不断发展,现有的机器人技术还需要进一步的提高才能满足现有的工作需求。
[0003]在智能机器人中,六足机器人是通过模仿多足动物的结构和运动形式发展而来的特种机器人。在结构上有多冗余自由度,在运动形式上有多种仿生步态。相比于轮式机器人,六足机器人结构更复杂,运动灵活性更高,地形适应能力更强,适合更多的复杂场景。但是足式机器人的控制难度更高,在复杂地形下需要依靠多种传感器信息才能得到合适的控制策略;同时,相应的步态参数为手工设计,对已知环境具有很好的效果,但是在面对未知的复杂地形,其效率大大降低,缺少一种适应性更强的策略去解决在复杂地形下的自适应运动难题。

技术实现思路

[0004]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种六足机器人自适应步态规划方法、系统、装置及介质。
[0005]本专利技术所采用的技术方案是:
[0006]一种六足机器人自适应步态规划方法,包括以下步骤:r/>[0007]搭建六足机器人的仿真模型;
[0008]根据六足机器人的运动特点建立步态生成器,所述步态生成器的输入为步态参数,输出为六足机器人的关节位置控制指令,以控制机器人按照预设的步态进行运动;
[0009]融合所述仿真模型与所述步态生成器,构建获得强化学习运动控制框架;
[0010]对所述强化学习运动控制框架进行训练,获得控制网络的参数,使该框架能够控制六足机器人的仿真模型在非结构化地形的仿真场景下运动;
[0011]将训练后获得的控制网络集成在六足机器人的步态控制框架中,用于控制六足机器人的运动。
[0012]进一步,所述融合所述仿真模型与所述步态生成器,构建获得强化学习运动控制框架,包括:
[0013]定义六足机器人的状态变量S,所述状态变量S包括机体平台的俯仰角θ
pitch
和翻滚角θ
roll
、机体平台线速度ν
body
和角速度ω
body
、关节角度θ
i

[0014]定义六足机器人的动作变量A,所述动作变量A包括X轴方向的跨步步幅L
x
、Y轴方
向的跨步步幅L
y
、抬腿高度h、机体平台速度v、机器人偏航角度φ;
[0015]构建六足机器人的控制网络的结构,所述控制网络包括策略网络、在线状态价值函数网络、目标状态价值函数网络和两个动作

状态价值函数网络;
[0016]设定自适应步态策略的奖励函数。
[0017]进一步,所述自适应步态策略的奖励函数由前进距离、机体翻转程度、能量效率三部分构成;
[0018]所述奖励函数的表达式为:
[0019][0020]其中,d表示机器人的前进方向,x为前进距离,τ
n
为关节力矩,为关节速度,λ
i
(i=1,2,3)为自定义系数。
[0021]进一步,所述对所述强化学习运动控制框架进行训练,获得控制网络的参数,包括:
[0022]初始化所述控制网络的参数,其中,所述在线状态价值函数网络和所述目标状态价值函数网络的初始化参数相同,两个动作

状态价值函数网络的初始化参数相同;
[0023]对仿真场景进行随机初始化,初始化内容包括机器人的姿态、连杆参数以及地形环境,并获取机器人的初始状态S
t

[0024]将机器人的初始化状态S
t
输入策略网络,得到输出的动作值A
t
;将动作值A
t
输出至步态生成器得到机器人的运动参数,控制仿真机器人完成一个周期的步态运动,获得下一个状态S
t+1
,根据奖励函数获得所述状态S
t+1
对应的奖励值R
t
,将数据<S
t
,A
t
,S
t+1
,R
t
>存入经验池中;
[0025]在经验池中随机取出n个数据,作为一个批量数据,计算在线状态价值函数网络的梯度,对在线状态价值函数网络的参数进行更新;
[0026]在经验池中随机获取一个批量数据,对动作

状态价值函数网络的参数进行更新;
[0027]根据奖励值对策略网络的参数进行更新;
[0028]对目标状态价值函数网络的参数进行软更新;
[0029]判断策略网络是否收敛,若收敛,结束训练。
[0030]进一步,所述对在线状态价值函数网络的参数进行更新,包括:
[0031]采用Adam算法对在线状态价值函数网络的参数进行更新。
[0032]进一步,所述对动作

状态价值函数网络的参数进行更新,包括:
[0033]初始状态S
t
的真实价值估计为V
s
,采用动作值A
t
得到的Q(S
t
,A
t
)值作为状态的预测价值估计,使用MSELoss作为损失函数,对动作

状态价值函数网络进行训练,更新动作

状态价值函数网络的参数。
[0034]进一步,所述步态生成器包括足端轨迹生成模块、逆运动学模块和轨迹跟踪控制器模块;
[0035]所述足端轨迹生成模块的输入为一个步态周期的跨步步幅、抬腿高度、步态周期以及机器人偏航角度参数,输出为该周期内六足机器人的每条腿的末端轨迹;其中,末端轨迹的曲线可以根据六足机器人不同的足端进行选择;
[0036]所述轨迹跟踪控制器采用自适应非线性积分滑模控制器。
[0037]本专利技术所采用的另一技术方案是:
[0038]一种六足机器人自适应步态规划系统,包括:
[0039]模型构建模块,用于搭建六足机器人的仿真模型;
[0040]生成器构建模块,用于根据六足机器人的运动特点建立步态生成器,所述步态生成器的输入为步态参数,输出为六足机器人的关节位置控制指令,以控制机器人按照预设的步态进行运动;
[0041]框架构建模块,用于融合所述仿真模型与所述步态生成器,构建获得强化学习运动控制框架;
[0042]网络训练模块,用于对所述强化学习运动控制框架进行训练,获得控制网本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种六足机器人自适应步态规划方法,其特征在于,包括以下步骤:搭建六足机器人的仿真模型;根据六足机器人的运动特点建立步态生成器,所述步态生成器的输入为步态参数,输出为六足机器人的关节位置控制指令,以控制机器人按照预设的步态进行运动;融合所述仿真模型与所述步态生成器,构建获得强化学习运动控制框架;对所述强化学习运动控制框架进行训练,获得控制网络的参数,使该框架能够控制六足机器人的仿真模型在非结构化地形的仿真场景下运动;将训练后获得的控制网络集成在六足机器人的步态控制框架中,用于控制六足机器人的运动。2.根据权利要求1所述的一种六足机器人自适应步态规划方法,其特征在于,所述融合所述仿真模型与所述步态生成器,构建获得强化学习运动控制框架,包括:定义六足机器人的状态变量S,所述状态变量S包括机体平台的俯仰角θ
pitch
和翻滚角θ
roll
、机体平台线速度ν
body
和角速度ω
body
、关节角度θ
i
;定义六足机器人的动作变量A,所述动作变量A包括X轴方向的跨步步幅L
x
、Y轴方向的跨步步幅L
y
、抬腿高度h、机体平台速度v、机器人偏航角度φ;构建六足机器人的控制网络的结构,所述控制网络包括策略网络、在线状态价值函数网络、目标状态价值函数网络和两个动作

状态价值函数网络;设定自适应步态策略的奖励函数。3.根据权利要求2所述的一种六足机器人自适应步态规划方法,其特征在于,所述自适应步态策略的奖励函数由前进距离、机体翻转程度、能量效率三部分构成;所述奖励函数的表达式为:其中,d表示机器人的前进方向,x为前进距离,τ
n
为关节力矩,为关节速度,λ
i
(i=1,2,3)为自定义系数。4.根据权利要求2所述的一种六足机器人自适应步态规划方法,其特征在于,所述对所述强化学习运动控制框架进行训练,获得控制网络的参数,包括:初始化所述控制网络的参数,其中,所述在线状态价值函数网络和所述目标状态价值函数网络的初始化参数相同,两个动作

状态价值函数网络的初始化参数相同;对仿真场景进行随机初始化,初始化内容包括机器人的姿态、连杆参数以及地形环境,并获取机器人的初始状态S
t
;将机器人的初始化状态S
t
输入策略网络,得到输出的动作值A
t
;将动作值A
t
输出至步态生成器得到机器人的运动参数,控制仿真机器人完成一个周期的步态运动,获得下一个状态S
t+1
,根据奖励函数获得所述状态S
t+
1对应的奖励值R
t
,将数据<S
t
,A
t

【专利技术属性】
技术研发人员:蔡中斌魏武高勇高天啸
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1