当前位置: 首页 > 专利查询>山东大学专利>正文

基于深度强化学习和CPG的机器人运动控制方法及系统技术方案

技术编号:35493935 阅读:18 留言:0更新日期:2022-11-05 16:51
本公开提供了一种基于深度强化学习和CPG的机器人运动控制方法,其属于机器人运动控制技术领域,包括:实时获取机器人的状态信息;其中,所述状态信息基于预先构建的状态空间,通过机器人本体设置的传感器获得;基于所述状态信息,利用预先训练好的DDPG模型,获得所述机器人当前状态信息下对应的动作;将所述动作作为反馈调整量对预先构建的CPG模型所输出的参考轨迹上的足部姿势进行调整,将所述参考轨迹输出作用到机器人各关节电机中,实现机器人的运动控制。运动控制。运动控制。

【技术实现步骤摘要】
基于深度强化学习和CPG的机器人运动控制方法及系统


[0001]本公开属于机器人运动控制
,尤其涉及一种基于深度强化学习和CPG的机器人运动控制方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
[0003]随着机器人和人工智能技术的快速发展,移动机器人的运动控制研究成为机器人领域的研究热点。常见的移动机器人有腿足式机器人、履带式机器人以及轮式机器人三种。腿足式机器人主要有双足、四足和多足机器人三种。从结构及特性上看,相较于双足和多足机器人,四足机器人具有更强的稳定性和机动性,专利技术人发现,传统的四足机器人控制方法计算量大,且每种地形下都需要研究人员单独设计参数与调试,缺乏复杂环境适应能力,无法满足复杂环境下对四组机器人的控制需求。

技术实现思路

[0004]本公开为了解决上述问题,提供了一种基于深度强化学习和CPG的机器人运动控制方法及系统,所述方案通过Hopf振荡器搭建CPG模型,利用该模型进行Trot步态规划,利用规划步态作为初始引导步态,从探索噪声选择、状态空间及动作空间、奖励函数、终止条件及深度网络结构几个方面设计基于DDPG深度强化学习控制器,作为反馈调整模块提升机器人的运动性能,增强了四足机器人的地形适应性,同时,提高了四足机器人的学习效率和机器人运动的稳定性。
[0005]根据本公开实施例的第一个方面,提供了一种基于深度强化学习和CPG的机器人运动控制方法,包括:
[0006]实时获取机器人的状态信息;其中,所述状态信息基于预先构建的状态空间,通过机器人本体设置的传感器获得;
[0007]基于所述状态信息,利用预先训练好的DDPG模型,获得所述机器人当前状态信息下对应的动作;
[0008]将所述动作作为反馈调整量对预先构建的CPG模型所输出的参考轨迹上的足部姿势进行调整,将所述参考轨迹输出作用到机器人各关节电机中,实现机器人的运动控制。
[0009]进一步的,所述预先训练好的DDPG模型及预先构建的CPG模型组成所述机器人运动控制器,具体包括开环部分和反馈调整部分,其中,所述开环部分采用经典的步态控制方法,通过CPG模型提供参考轨迹;所述反馈调整部分由所述DDPG模型构成,基于DDPG模型的输出对参考轨迹上的足部姿势进行调整。
[0010]进一步的,所述运动控制器的输出具体表示如下:
[0011]a=a
c
+μa
p
[0012]其中,a
c
表示开环部分的输出,是髋膝关节参考轨迹曲线,a
p
是反馈调整部分的输
出,作为反馈调整量对参考轨迹进行调整,μ为控制参数,用于调整强化学习输出量的大小。
[0013]进一步的,所述CPG模型通过Hopf振荡器搭建,基于所述CPG模型进行Trot步态规划。
[0014]进一步的,所述状态空间为智能体获得的环境信息,包括各个关节的电机转动角度、机身的位置及姿态信息以及机身角速度组成的状态信息。
[0015]进一步的,所述动作基于预先构建的动作空间获得,所述动作空间通过机器人足部各关节电机的角度值进行表示。
[0016]进一步的,所述DDPG模型包括Online Actor网络、Target Actor网络、Online Critic网络和Target Critic网络,均由独立的深度神经网络构成。
[0017]根据本公开实施例的第二个方面,提供了一种基于深度强化学习和CPG的机器人运动控制系统,包括:
[0018]数据获取单元,其用于实时获取机器人的状态信息;其中,所述状态信息基于预先构建的状态空间,通过机器人本体设置的传感器获得;
[0019]反馈调整量获取单元,其用于基于所述状态信息,利用预先训练好的DDPG模型,获得所述机器人当前状态信息下对应的动作;
[0020]运动控制单元,其用于将所述动作作为反馈调整量对预先构建的CPG模型所输出的参考轨迹上的足部姿势进行调整,将所述参考轨迹输出作用到机器人各关节电机中,实现机器人的运动控制。
[0021]根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于深度强化学习和CPG的机器人运动控制方法。
[0022]根据本公开实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于深度强化学习和CPG的机器人运动控制方法。
[0023]与现有技术相比,本公开的有益效果是:
[0024]本公开提供了一种基于深度强化学习和CPG的机器人运动控制方法及系统,所述方案通过Hopf振荡器搭建CPG模型,利用该模型进行Trot步态规划,利用规划步态作为初始引导步态,从探索噪声选择、状态空间及动作空间、奖励函数、终止条件及深度网络结构几个方面设计基于DDPG深度强化学习控制器,作为反馈调整模块提升机器人的运动性能,增强了四足机器人的地形适应性,同时,提高了四足机器人的学习效率和机器人运动的稳定性。
[0025]本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
[0026]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
[0027]图1为本公开实施例中所述的基于深度强化学习和CPG的机器人运动控制方法的轨迹引导整体框架示意图;
[0028]图2为本公开实施例中所述的CPG模型示意图;
[0029]图3为本公开实施例中所述的参考轨迹输出曲线示意图;
[0030]图4为本公开实施例中所述的DDPG模型算法流程图;
[0031]图5为本公开实施例中所述的爬坡训练场景示意图;
[0032]图6(a)至图6(h)为本公开实施例中所述的机器人不同时刻的爬坡过程示意图;
[0033]图7为本公开实施例中所述的回合奖励曲线示意图;
[0034]图8为本公开实施例中所述的机器人机身质心三向位移示意图;
[0035]图9为本公开实施例中所述的机器人处于稳态时,机器人机身横滚角、俯仰角、偏航角的变化曲线示意图;
[0036]图10为本公开实施例中所述的四足机器人右前腿髋关节和膝关节的实际输出曲线示意图;
[0037]图11为本公开实施例中所述的控制系数μ=0时,机器人机身横滚角、俯仰角、偏航角的变化曲线示意图。
具体实施方式
[0038]下面结合附图与实施例对本公开做进一步说明。
[0039]应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习和CPG的机器人运动控制方法,其特征在于,包括:实时获取机器人的状态信息;其中,所述状态信息基于预先构建的状态空间,通过机器人本体设置的传感器获得;基于所述状态信息,利用预先训练好的DDPG模型,获得所述机器人当前状态信息下对应的动作;将所述动作作为反馈调整量对预先构建的CPG模型所输出的参考轨迹上的足部姿势进行调整,将所述参考轨迹输出作用到机器人各关节电机中,实现机器人的运动控制。2.如权利要求1所述的一种基于深度强化学习和CPG的机器人运动控制方法,其特征在于,所述预先训练好的DDPG模型及预先构建的CPG模型组成所述机器人运动控制器,具体包括开环部分和反馈调整部分,其中,所述开环部分采用经典的步态控制方法,通过CPG模型提供参考轨迹;所述反馈调整部分由所述DDPG模型构成,基于DDPG模型的输出对参考轨迹上的足部姿势进行调整。3.如权利要求2所述的一种基于深度强化学习和CPG的机器人运动控制方法,其特征在于,所述运动控制器的输出具体表示如下:a=a
c
+μa
p
其中,a
c
表示开环部分的输出,是髋膝关节参考轨迹曲线,a
p
是反馈调整部分的输出,作为反馈调整量对参考轨迹进行调整,μ为控制参数,用于调整强化学习输出量的大小。4.如权利要求1所述的一种基于深度强化学习和CPG的机器人运动控制方法,其特征在于,所述CPG模型通过Hopf振荡器搭建,基于所述CPG模型进行Trot步态规划。5.如权利要求1所述的一种基于深度强化学习和CPG的机器人运动控制方法,其特征在于,所述状态空间为智能体获得...

【专利技术属性】
技术研发人员:宋勇孙文凯庞豹许庆阳袁宪锋李贻斌
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1