足式机器人控制方法、系统、计算机设备和存储介质技术方案

技术编号:39179910 阅读:12 留言:0更新日期:2023-10-27 08:27
本发明专利技术提供了一种机器人控制方法,包括:获取所述机器人的历史轨迹,所述历史轨迹包含历史动作序列和历史观测序列;将所述历史动作序列和历史观测序列输入预设的多地形序列模型,得到预测动作;其中,所述多地形序列模型基于教师策略对Transformer模型进行离线预训练和在线修正训练得到;基于所述预测动作控制所述机器人。上述方法将Transformer模型引入机器人的运动控制,并提出了一个两阶段训练的框架以同时利用特权学习和Transformer模型的优势。势。势。

【技术实现步骤摘要】
足式机器人控制方法、系统、计算机设备和存储介质


[0001]本申请涉及智能控制
,特别是涉及一种足式机器人控制方法、系统、计算机设备和存储介质。

技术介绍

[0002]足式机器人(legged robots)包括双足机器人,四足机器人等等,相比其他类型的机器人(例如轮式,履带式)有着更好的灵活性和通过性,可以通过更多更复杂的地形。因此足式机器人的运动控制一直是机器人领域研究热点之一,在代替人类巡逻,搜救,故障检测,服务,侦查等现实场景中都有着较为广泛的应用场景。但因为足式机器人需要同时控制的自由度较多,且足底和地面接触、碰撞等模式难以被准确建模,足式机器人在多种、可变的复杂地形的运动控制仍然面临着重大的挑战。足式机器人的运动控制(legged locomotion)可以大体上可以分为两类方法。一类是基于传统控制方法,例如轨迹优化(trajectory optimization)和模型预测控制(model predictive control)。这类方法往往要求算法设计者有着充分的领域知识,例如所控制机器人的运动学方程、地面的形状、摩擦系数等等。这在复杂地形中往往是难以实现的。相比之下,深度强化学习方法通过在模拟器中直接训练一个神经网络策略,然后再将其迁移到真实世界中,称为“模拟到真实的迁移(sim

to

real transfer)”。深度强化学习可以在很大程度上减轻对领域知识的依赖,且训练出的策略往往表现出更强的鲁棒性方面,因此被认为是足式机器人运动控制的一种具有前景的方法。
[0003]特权学习(privileged learning)是目前足式机器人控制领域一种流行的训练框架,特权学习一般包括教师策略(teacher policy)学习和学生策略(student policy)学习两个部分。特权学习得到的学生策略可以直接在真实场景中应用,并在一些较为简单的地形,例如上下坡,草地等地形上取得了不错的表现。但仍然存在着模型容量有限、难以准确预测隐变量、对隐变量的变化较为敏感等问题。
[0004]因此足式机器人多地形运动控制亟需要一种拥有着更大的模型容量、不依赖于对隐变量的准确预测,且对于输入的变化不那么敏感的可靠的新算法,以适应更复杂多变的应用场景。

技术实现思路

[0005]本专利技术实施例提供了一种足式机器人控制方法、系统、计算机设备和存储介质,以至少解决相关技术中模型容量有限、难以准确预测隐变量、对隐变量的变化较为敏感的问题。
[0006]根据本专利技术的一个实施例,提供了一种机器人控制方法,包括:获取所述机器人的历史轨迹,所述历史轨迹包括历史观测序列和历史动作序列其中,T表示序列长度,表示历史观测,表示历史动作,t∈(1,
...T);将所述历史观测序列和所述历史动作序列输入预设的多地形序列模型,得到预测动作其中,所述多地形序列模型基于教师策略对Transformer模型进行离线预训练和在线修正训练得到;基于所述预测动作控制所述机器人。
[0007]根据本专利技术的另一个实施例,提供了足式机器人控制系统,包括:获取模块,获取所述机器人的历史轨迹,所述历史轨迹包括历史观测序列和历史动作序列其中,T表示序列长度,表示历史观测,表示历史动作,t∈(1,...T);处理模块,用于将所述历史观测序列和所述历史动作序列输入预设的多地形序列模型,得到预测动作其中,所述多地形序列模型基于教师策略对Transformer模型进行离线预训练和在线修正训练得到;控制模块,用于基于所述预测动作控制所述机器人。
[0008]根据本专利技术的又一个实施例,还提供了一种计算机设备,包括存储器和处理器,所述处理器与存储器耦合,所述存储器中存储有至少一条程序指令或代码,所述至少一条程序指令或代码由所述处理器加载并执行,以使所述计算机设备实现以上所述的机器人控制方法。
[0009]根据本专利技术的又一个实施例,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现以上所述的机器人控制方法的步骤。
[0010]本专利技术提出了一种新的足式机器人多地形运动控制方法,创建了多地形序列模型(Terrain Transformer,简称TERT);TERT模型将Transformer模型引入足式机器人运动控制,并提出了一个两阶段训练的框架以同时利用特权学习和Transformer模型的优势;具体如下:
[0011]将序列模型Transformer引入足式机器人的运动控制,使得本专利技术中的序列模型控制算法能够控制足式机器人在多种复杂地形上行走。
[0012]本专利技术提出将具有高容量的Transformer模型用于足式机器人的运动控制,解决了传统特权学习方法中模型容量不足的问题。
[0013]本专利技术不再通过预测隐变量的方式输出动作,而是使用Transformer直接基于历史观测信息预测教师策略的动作,解决了传统特权学习方法难以准确预测隐变量的问题。
[0014]本专利技术使用的Transformer控制模型使用包括历史观测序列和历史动作序列的历史轨迹作为输入,能够解决传统特权学习方法对输入变化较为敏感的问题。
[0015]此外,本专利技术提出的序列模型拥有良好的泛化能力和鲁棒性,能够泛化到各种不同的复杂地形。
附图说明
[0016]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0017]图1为本申请实施例提供的现有技术的特权学习框架流程图;
[0018]图2为本申请实施例提供的应用场景示意图;
[0019]图3为本申请实施例提供的本申请的机器人控制方法的流程示意图;
[0020]图4为本申请实施例提供的本申请的多地形序列模型训练流程图;
[0021]图5为本申请实施例提供的本专利技术控制四足机器人在九种复杂地面上行走的示例图;
[0022]图6为一个实施例中计算机设备的示意性结构框图。
具体实施方式
[0023]本申请实施例提供了一种足式机器人控制方法、系统、计算机设备和存储介质,可实现更大的模型容量、规避对隐变量准确性的依赖、可以更好地利用历史信息对输入的变化有更高的稳定性的效果。
[0024]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025]为了方便理解本申请实施例提供的技术方案,本申请先对部分技术进行如下说明:
[0026]足式机器人一般通过电机控制每个可控关节(自由度)的角度来控制机器人的行走。而根据控制方式的不同,又可以分为以下几种:
[0027]力矩控制(torque control):a
t...

【技术保护点】

【技术特征摘要】
1.一种足式机器人控制方法,其特征在于,所述方法包括:获取所述机器人的历史轨迹,所述历史轨迹包括历史观测序列和历史动作序列其中,T表示序列长度,表示历史观测,表示历史动作,t∈(1,...T);将所述历史观测序列和所述历史动作序列输入预设的多地形序列模型,得到预测动作其中,所述多地形序列模型基于教师策略对Transformer模型进行离线预训练和在线修正训练得到;基于所述预测动作控制所述机器人。2.根据权利要求1所述的方法,其特征在于,所述离线预训练包括:基于特权信息并使用强化学习算法训练出一个教师策略;其中,所述特权信息包括多地形的环境信息;使用所述教师策略与模拟器中的多环境交互模拟产生教师运动轨迹;搜集多环境产生的教师运动轨迹并加入缓存,形成教师策略数据集;其中,每种环境至对应少一条教师运动轨迹,每条教师运动轨迹使用包含教师策略观测和教师策略动作的序列表示为:其中,H表示轨迹长度,表示教师策略观测,表示教师策略动作,h∈(1,

H);基于所述教师策略数据集训练Transformer模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述教师策略数据集训练Transformer模型,包括:从所述教师策略数据集的教师运动轨迹中选取至少一条序列长度为T的教师运动轨迹片段:对于所述教师运动轨迹片段中的每个教师策略动作将其的前置运动轨迹输入所述Transformer模型对所述教师策略动作进行预测,得到第一预测动作根据教师策略动作和第一预测动作以及第一预设损失函数更新训练所述Transformer模型。4.根据权利要求3所述的方法,其特征在于,所述根据教师策略动作和第一预测动作以及第一预设损失函数更新训练所述Transformer模型包括:通过最小化以下损失函数更新训练所述Transformer模型:通过最小化以下损失函数更新训练所述Transformer模型:5.根据权利要求1

4任一项所述方法,其特征在于,所述在线修正训练包括:控制所述机器人基于所述Transformer模型输出的预测动作在模拟器的多环境中进行运动,并使用教师策略同时给出目标动作;搜集所述机器人...

【专利技术属性】
技术研发人员:张伟楠赖行何夏麟余琛田政
申请(专利权)人:上海数字大脑科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1