一种基于深度确定性策略梯度的多足机器人运动控制方法技术

技术编号:29044733 阅读:22 留言:0更新日期:2021-06-26 05:57
本发明专利技术涉及多足机器人运动控制技术领域,具体为一种基于深度确定性策略梯度的多足机器人运动控制方法。通过构建深度确定性策略梯度智能体结构,并从最终训练好的智能体网络结构中的动作网络提取出来作为真实机器人的控制策略,用于真实机器人构建,解决了机器人在非结构化地形上缺少泛化能力、环境适应差的技术问题。更进一步的,在本发明专利技术的方法中引入关节电源数学模型对电源功率进行分配,并将该分配方案定义到仿真机器人模型的运动规则中,通过电源功率分配调整电机输出力矩,实现对智能体网络结构输出关节力矩的设置,缩小仿真环境与真实机器人的差异,以使仿真环境中的机器人运动控制策略更好得应用于真实机器人。运动控制策略更好得应用于真实机器人。运动控制策略更好得应用于真实机器人。

【技术实现步骤摘要】
一种基于深度确定性策略梯度的多足机器人运动控制方法


[0001]本专利技术涉及足式机器人运动控制
,尤其涉及一种基于深度确定性策略梯度的多足机器人运动控制方法。

技术介绍

[0002]随着科学技术的不断进步,机器人智能化产业的发展取得了许多突破性的进展。在人类涉及的许多未知的、高危险的领域中,机器人可以替代人们去完成许多具有高风险性质的工作,大大降低了人们工作的难度和危险系数,所以研究机器人对人们的生活和工作都有重大意义。
[0003]足式机器人因为其与地面间的接触为点接触,具有高自由度的关节设计和多支撑点的足端结构设计,可以实现其重心高度的实时调整,这些特性都使其在不规则地形中具有更好的环境适应能力和稳定性。与此同时,足式机器人的研究也面临很多挑战。首先是其前进速度相对于轮式机器人缓慢,其次由于足式机器人具有多自由度的关节结构并需要各关节间进行协调运动,因此机器人运动控制策略要求也更为复杂。
[0004]在足式机器人领域,由于多足机器人相较于双足机器人稳定性更好,且控制策略更为简易,因此具有不可替代的作用。传统多足机器人的运动控制策略是通过分析环境,提取非结构化地形样本,然后通过正逆运动学进行姿态估计与轨迹规划实现的。由于环境复杂多变,传统方法将非结构化地面进行抽象划分,分为阶梯,沟渠等;分别针对这些划分设计不同运动形态。这种方式导致运动控制策略复杂性急速上升,使机器人在非结构化地形上缺少泛化能力、环境适应差。

技术实现思路

[0005]本专利技术的目的在于:提供一种基于深度确定性策略梯度的多足机器人运动控制方法,以解决传统多足机器人在非结构化地形上缺少泛化能力、环境适应差的技术问题。
[0006]为实现上述目的,本专利技术采取如下技术方案:
[0007]一种基于深度确定性策略梯度的多足机器人运动控制方法,包括以下步骤:
[0008]步骤S1、构建多足机器人仿真模型,且使该模型能在仿真环境中站立行走。
[0009]步骤S2、对步骤S1所构建的多足机器人仿真模型、在仿真环境中的运动规则进行定义,具体为:
[0010]S01、预设深度确定性策略梯度奖励函数为:r
t
=机器人前进速度+机器人采样时间
‑ꢀ
机器人起始高度

机器人机身俯仰角

参数代价值。
[0011]S02、定义多足机器人动作值,动作值所涉及参数包括:机器人所有关节力矩t、机器人单腿所有关节转动角度即角度值θ

、关节转动角速度值v;定义多足机器人运动状态值,运动状态值包括:机器人所有关节力矩t、机器人单腿所有关节转动角度即角度值θ

、关节转动角速度值v、机器人单腿足端与地面之间的摩擦力f、机身位移、机身俯仰角。
[0012]步骤S3、构建智能体网络结构;智能体网络结构包括动作网络、评价网络和经验
池;其中动作网络又分为实际动作网络和目标动作网络;评价网络又分为实际评价网络和目标评价网络。
[0013]步骤S4、对步骤S3构建的智能体网络结构进行训练,使其能够控制仿真机器人模型运动;所述智能体网络结构按照如下过程进行训练:
[0014]S401、初始化实际动作网络和实际评价网络的参数,将初始化后的实际动作网络和实际评价网络进行复制,得到目标动作网络和目标评价网络;根据使用需求设定经验池容量为m。
[0015]S402、初始化仿真机器人模型状态,得到仿真机器人模型初始运动状态值s
t

[0016]S403、将步骤S402得到的初始运动状态值s
t
输入实际动作网络,通过实际动作网络计算得到动作值a
t
。然后将动作值a
t
提供给仿真机器人模型使其运动,以获得当前动状态值s
t+1
;通过步骤S2预设的奖励函数计算出此次交互的奖励值r
t
[0017]S404、根据预设的机器人机身俯仰角标准值对当前机器人运动状态进行判断,若当前运动状态中机身俯仰角小于机身俯仰角标准值,则说明此时机器人为跌倒状态,返回步骤S401;若当前运动状态中机器人机身俯仰角≥机身俯仰角标准值,则说明此时机器人处于正常状态,执行步骤S405;
[0018]S405、将步骤S402~S403中得到的s
t
、s
t+1
、a
t
、r
t
作为一组训练样本存入经验池。
[0019]S406、不断重复迭代步骤S403~S405的过程,直至经验池中的样本数量≥步骤S401设定的经验池容量m时,开始对样本进行采样。
[0020]S407、对经验池中的所有样本进行求和,根据样本被采样到的优先级计算出经验池中样本采样概率值,并依据采样概率值的大小,从经验池中选出用于训练的训练样本;所述采样率计算方式为:其中p
j
表示样本被采样到的优先级,∑
k
p
k
表示经验池中所有样本的求和。
[0021]S408、将步骤S407获取的训练样本提供给目标评价网络计算得到目标评价网络累计奖励值y
j
,并将目标评价网络累计奖励值y
j
提供给实际评价网络,计算出实际评价网络损失函数 J(θ
π
);利用梯度下降法,更新实际评价网络参数,并通过更新后的实际评价网络参数得出实际评价网络Q值。
[0022]S409、根据步骤S408中获得的目标评价网络累计奖励值y
j
与实际评价网络Q值、计算出的目标评价网络累计奖励值y
j
与实际评价网络Q值之间的差值|δ(t)|,并利用该差值|δ(t)|更新经验池中的样本被采样优先级p
j

[0023]S410、通过步骤S408得出的实际评价网络Q值,计算出实际动作网络损失函数;通过实际动作网络损失函数、结合实际评价网络参数更新过程中的梯度信息,更新实际动作网络参数。
[0024]S411、判断机器人是否走完预设最大步数,若未走完,则执行S403;若走完预设最大步数,则利用S408更新后的实际评价网络的参数、S410更新后实际动作网络参数,通过软更新的方式,更新目标动作网络参数和目标评价网络参数。
[0025]S412、重复步骤S401~S411,直至网络收敛,完成智能体网络结构训练。
[0026]步骤S5、将步骤S4训练好的智能体网络结构在仿真环境中进行验证;若验证智能体网络结构可以控制机器人仿真模型,使其能够稳定的按照预设路径运动,则将智能体网
络结构中的动作网络进行提取,用于控制真实机器人。
[0027]进一步的,所述步骤S4所定义的规则中还包括建立关节电源数学模型;通过该关节电源数学模型对智能体网络结构输出的关节力矩进行设置,缩小仿真环境中机器人与真实环境中机器人之间的差距,使仿真本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度确定性策略梯度的多足机器人运动控制方法,其特征在于,包括以下步骤:步骤S1、构建多足机器人仿真模型,且使该模型能在仿真环境中站立行走;步骤S2、对步骤S1所构建的多足机器人仿真模型、在仿真环境中的运动规则进行定义,具体为:S01、预设深度确定性策略梯度奖励函数为:r
t
=机器人前进速度+机器人采样时间

机器人起始高度

机器人机身俯仰角

参数代价值;S02、定义多足机器人动作值,动作值所涉及参数包括:机器人所有关节力矩t、机器人单腿所有关节转动角度即角度值θ

、关节转动角速度值v;定义多足机器人运动状态值,运动状态值包括:机器人所有关节力矩t、机器人单腿所有关节转动角度即角度值θ

、关节转动角速度值v、机器人单腿足端与地面之间的摩擦力f、机身位移、机身俯仰角;步骤S3、构建智能体网络结构;智能体网络结构包括动作网络、评价网络和经验池;其中动作网络又分为实际动作网络和目标动作网络;评价网络又分为实际评价网络和目标评价网络;步骤S4、对步骤S3构建的智能体网络结构进行训练,使其能够控制仿真机器人模型运动;所述智能体网络结构按照如下过程进行训练:S401、初始化实际动作网络和实际评价网络的参数,将初始化后的实际动作网络和实际评价网络进行复制,得到目标动作网络和目标评价网络;根据使用需求设定经验池容量为m;S402、初始化仿真机器人模型状态,得到仿真机器人模型初始运动状态值s
t
;S403、将步骤S402得到的初始运动状态值s
t
输入实际动作网络,通过实际动作网络计算得到动作值a
t
;然后将动作值a
t
提供给仿真机器人模型使其运动,以获得当前动状态值s
t+1
;通过步骤S2预设的奖励函数计算出此次交互的奖励值r
t
;S404、根据预设的机器人机身俯仰角标准值对当前机器人运动状态进行判断,若当前运动状态中机身俯仰角小于机身俯仰角标准值,则说明此时机器人为跌倒状态,返回步骤S401;若当前运动状态中机器人机身俯仰角≥机身俯仰角标准值,则说明此时机器人处于正常状态,执行步骤S405;S405、将步骤S402~S403中得到的s
t
、s
t+1
、a
t
、r
t
作为一组训练样本存入经验池;S406、不断重复迭代步骤S403~S405的过程,直至经验池中的样本数量≥步骤S401设定的经验池容量m时,开始对样本进行采样;S407、对经验池中的所有样本进行求和,根据样本被采样到的优先级计算出经验池中样本采样概率值,并依据采样概率值的大小,从经验池中选出用于训练的训练样本;所述采样率计算方式为:其中p
j
表示样本被采样到的优先级,∑
k
p
k
表示经验池中所有样本的求和;S408、将步骤S407获取的训练样本提供给目标评价网络计算得到目标评价网络累计奖励值y
j
,并将目标评价网络累计奖励值y
j
提供给实际评价网络,计算出实际评价网络损失函数J(θ
π
);利用梯度下降法,更...

【专利技术属性】
技术研发人员:于鸿洋刘亚云王昭婧
申请(专利权)人:成都优迪软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1