本发明专利技术提供了一种基于神经振荡器的机器人节律运动控制方法及系统,包括:获取机器人的当前状态,以及由神经振荡器产生的相位和频率;依据获取的当前状态、相位和频率,以及预设的强化学习网络,得到控制指令,对机器人进行控制;其中,预设的强化学习网络中包括动作空间、模式形成网络和神经振荡器;本发明专利技术设计的由神经振荡器和模式形成网络组成的控制结构,能确保期望的节律运动行为的形成;同时,设计的关节位置增量的动作空间能有效加速节律运动强化学习训练进程,解决了现有无模型强化学习学习时,奖励函数设计耗时、困难的问题。困难的问题。困难的问题。
【技术实现步骤摘要】
基于神经振荡器的机器人节律运动控制方法及系统
[0001]本专利技术属于机器人控制
,尤其涉及一种基于神经振荡器的机器人 节律运动控制方法及系统。
技术介绍
[0002]为实现四足机器人的运动控制,一些传统控制方法,如模型预测控制(ModelPredictive Control,MPC)和全身控制(Whole BodyCryotherapy,WBC)通过引入感 官反馈和复杂的控制理论来获得更好的运动性能。虽然这些方法在步态控制上 取得了一定的成效,但它们的实现通常需要丰富的专业知识和漫长的设计过程。
[0003]专利技术人发现,近年来兴起的无模型强化学习(Reinforcement Learning,RL) 成功实现了腿足式机器人运动策略的自主学习。然而,奖励函数通常无法直接 表述期望的节律运动行为;再者,即使是合理的奖励也必须经过精心的设计和 调节才能满足需要,因为对奖励函数的极小调节,也可能导致强化学习行为的 巨大差异;因此,能实现机器人实现无偏差的学习的奖励函数的设计通常很耗 时且困难。
技术实现思路
[0004]本专利技术为了解决上述问题,提出了一种基于神经振荡器的机器人节律运动 控制方法及系统,本专利技术设计的由神经振荡器和模式形成网络组成的控制结构, 能确保期望的节律运动行为的形成;同时,设计的关节位置增量的动作空间能 有效加速节律运动强化学习训练进程。
[0005]第一方面,本专利技术提供了一种基于神经振荡器的机器人节律运动控制方法, 包括:
[0006]获取机器人的当前状态,以及由神经振荡器产生的相位和频率;
[0007]依据获取的当前状态、相位和频率,以及预设的强化学习网络,得到控制 指令,对机器人进行控制;
[0008]其中,预设的强化学习网络中包括动作空间、模式形成网络和神经振荡器; 所述动作空间,用于依据获取的当前状态,得到关节位置增量;所述模式形成 网络,用于根据关节位置增量,得到目标关节位置的控制指令;所述神经振荡 器,用于根据获取的相位和频率,调整机器人足底轨迹在摆动阶段和站立阶段 之间相变的时间;依据目标关节位置的控制指令和机器人足底轨迹在摆动阶段 和站立阶段之间相变的时间对机器人进行控制。
[0009]进一步的,相位由正弦和余弦函数表示。
[0010]进一步的,根据关节位置增量,得到目标关节位置的控制指令时:所述关 节位置增量与前一时刻的目标关节位置相加,获得当前时刻的目标关节位置; 依据当前时刻的目标关节位置,计算关节扭矩。
[0011]进一步的,最大关节位置增量由最大电机速度和时间步长决定。
[0012]进一步的,神经振荡器输出频率来调制每条腿的相位φ,相位φ∈[0,π)时当 前
腿处于支撑相阶段,相位φ∈[π,2π)时当前腿处于摇摆相阶段。
[0013]进一步的,当前时刻的相位为:
[0014]φ
t
=(φ
t
‑1+2π*f*T)%2π
[0015]其中,φ
t
表示当前时刻的相位;φ
t
‑1表示前一时刻的频率;f表示频率;T表 示时间步长。
[0016]进一步的,将机器人的运动问题视为马尔可夫决策过程,在奖励项中添加 频率项和相位项。
[0017]第二方面,本专利技术还提供了一种基于神经振荡器的机器人节律运动控制系 统,包括:
[0018]数据采集模块,被配置为:获取机器人的当前状态,以及由神经振荡器产 生的相位和频率;
[0019]控制模块,被配置为:依据获取的当前状态、相位和频率,以及预设的强 化学习网络,得到控制指令,对机器人进行控制;
[0020]其中,预设的强化学习网络中包括动作空间、模式形成网络和神经振荡器; 所述动作空间,用于依据获取的当前状态,得到关节位置增量;所述模式形成 网络,用于根据关节位置增量,得到目标关节位置的控制指令;所述神经振荡 器,用于根据获取的相位和频率,调整机器人足底轨迹在摆动阶段和站立阶段 之间相变的时间;依据目标关节位置的控制指令和机器人足底轨迹在摆动阶段 和站立阶段之间相变的时间对机器人进行控制。
[0021]第三方面,本专利技术还提供了一种电子设备,包括存储器、处理器及存储在 存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现 了第一方面中所述的基于神经振荡器的机器人节律运动控制方法的步骤。
[0022]第四方面,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机 程序,该程序被处理器执行时实现了第一方面中所述的基于神经振荡器的机器 人节律运动控制方法的步骤。
[0023]与现有技术相比,本专利技术的有益效果为:
[0024]本专利技术设计的由神经振荡器和模式形成网络组成的控制结构,能确保期望 的节律运动行为的形成;同时,设计的关节位置增量的动作空间能有效加速节 律运动强化学习训练进程,解决了现有无模型强化学习学习时,奖励函数设计 耗时、困难的问题。
附图说明
[0025]构成本实施例的一部分的说明书附图用来提供对本实施例的进一步理解, 本实施例的示意性实施例及其说明用于解释本实施例,并不构成对本实施例的 不当限定。
[0026]图1为本专利技术实施例1的RL学习框架;
[0027]图2为本专利技术实施例1的脊柱动物节律运动机制图解。
具体实施方式:
[0028]下面结合附图与实施例对本专利技术作进一步说明。
[0029]应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。 除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的 普通技术人员
通常理解的相同含义。
[0030]节律运动广泛存在于人类和动物的运动行为中,例如行走,奔跑和转向等。 灵活地改变运动模式对动物在恶劣环境中的顺利通行至关重要。因此,研究生 物驱动不同节律运动的机制是生物学和机器人学的重要课题。生理学研究发现, 中央模式发生器,即生物在脊髓中的神经回路,在节律运动的产生中起关键作 用,它能产生合适的节律信息来调制运动神经元的输出。来自中脑运动区的命 令信息和从本体感受器和外感受器的感觉传入信息可以改变节律模式以适应不 同的运动场景。受此启发,一些研究人员通过设计简单的相位振荡器来提供节 律信息以获得有节律的运动行为指令。
[0031]目前,四足机器人运动控制方法主要有基于模型和基于学习的控制方法两 类。基于模型的方法起源较早,理论依据丰富,在特定场景下获得了良好的控 制效果。福冈等人设计了基本的相位振荡器来生成足底轨迹。布洛施等人对机 器人的驱动系统进行了精确建模,使算法在硬件平台获得了良好的运动性能。 为获得更加鲁棒的控制性能,卡罗等人提出了一种新的用简化的动力学模型重 新实现了(Model Predicted Control,MPC)方法。在卡罗方法的基础上,贝烈德等 人使用状态机来生成机器人足底参考轨迹,并通过MPC来规划地面反作用力, 进一步本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于神经振荡器的机器人节律运动控制方法,其特征在于,包括:获取机器人的当前状态,以及由神经振荡器产生的相位和频率;依据获取的当前状态、相位和频率,以及预设的强化学习网络,得到控制指令,对机器人进行控制;其中,预设的强化学习网络中包括动作空间、模式形成网络和神经振荡器;所述动作空间,用于依据获取的当前状态,得到关节位置增量;所述模式形成网络,用于根据关节位置增量,得到目标关节位置的控制指令;所述神经振荡器,用于根据获取的相位和频率,调整机器人足底轨迹在摆动阶段和站立阶段之间相变的时间;依据目标关节位置的控制指令和机器人足底轨迹在摆动阶段和站立阶段之间相变的时间对机器人进行控制。2.如权利要求1所述的基于神经振荡器的机器人节律运动控制方法,其特征在于,相位由正弦和余弦函数表示。3.如权利要求1所述的基于神经振荡器的机器人节律运动控制方法,其特征在于,根据关节位置增量,得到目标关节位置的控制指令时:所述关节位置增量与前一时刻的目标关节位置相加,获得当前时刻的目标关节位置;依据当前时刻的目标关节位置,计算关节扭矩。4.如权利要求3所述的基于神经振荡器的机器人节律运动控制方法,其特征在于,最大关节位置增量由最大电机速度和时间步长决定。5.如权利要求1所述的基于神经振荡器的机器人节律运动控制方法,其特征在于,神经振荡器输出频率来调制每条腿的相位φ,相位φ∈[0,π)时当前腿处于支撑相阶段,相位φ∈[π,2π)时当前腿处于摇摆相阶段。6.如权利要求5所述的基于神经振荡器的机器人节律运动控制方法,其特征在于,当前时刻的相位为:φ
t
=(φ
t
【专利技术属性】
技术研发人员:张伟,陈燕云,盛嘉鹏,方兴,谭文浩,宋然,李晓磊,程吉禹,
申请(专利权)人:山东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。