【技术实现步骤摘要】
足式机器人控制方法、系统、计算机设备和存储介质
[0001]本申请涉及智能控制
,特别是涉及一种足式机器人控制方法、系统、计算机设备和存储介质。
技术介绍
[0002]足式机器人(legged robots)包括双足机器人,四足机器人等等,相比其他类型的机器人(例如轮式,履带式)有着更好的灵活性和通过性,可以通过更多更复杂的地形。因此足式机器人的运动控制一直是机器人领域研究热点之一,在代替人类巡逻,搜救,故障检测,服务,侦查等现实场景中都有着较为广泛的应用场景。但因为足式机器人需要同时控制的自由度较多,且足底和地面接触、碰撞等模式难以被准确建模,足式机器人在多种、可变的复杂地形的运动控制仍然面临着重大的挑战。足式机器人的运动控制(legged locomotion)可以大体上可以分为两类方法。一类是基于传统控制方法,例如轨迹优化(trajectory optimization)和模型预测控制(model predictive control)。这类方法往往要求算法设计者有着充分的领域知识,例如所控制机器人的运动学方程、 ...
【技术保护点】
【技术特征摘要】
1.一种足式机器人控制方法,其特征在于,所述方法包括:获取所述机器人的历史轨迹,所述历史轨迹包括历史观测序列和历史动作序列其中,T表示序列长度,表示历史观测,表示历史动作,t∈(1,...T);将所述历史观测序列和所述历史动作序列输入预设的多地形序列模型,得到预测动作其中,所述多地形序列模型基于教师策略对Transformer模型进行离线预训练和在线修正训练得到;基于所述预测动作控制所述机器人。2.根据权利要求1所述的方法,其特征在于,所述离线预训练包括:基于特权信息并使用强化学习算法训练出一个教师策略;其中,所述特权信息包括多地形的环境信息;使用所述教师策略与模拟器中的多环境交互模拟产生教师运动轨迹;搜集多环境产生的教师运动轨迹并加入缓存,形成教师策略数据集;其中,每种环境至对应少一条教师运动轨迹,每条教师运动轨迹使用包含教师策略观测和教师策略动作的序列表示为:其中,H表示轨迹长度,表示教师策略观测,表示教师策略动作,h∈(1,
…
H);基于所述教师策略数据集训练Transformer模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述教师策略数据集训练Transformer模型,包括:从所述教师策略数据集的教师运动轨迹中选取至少一条序列长度为T的教师运动轨迹片段:对于所述教师运动轨迹片段中的每个教师策略动作将其的前置运动轨迹输入所述Transformer模型对所述教师策略动作进行预测,得到第一预测动作根据教师策略动作和第一预测动作以及第一预设损失函数更新训练所述Transformer模型。4.根据权利要求3所述的方法,其特征在于,所述根据教师策略动作和第一预测动作以及第一预设损失函数更新训练所述Transformer模型包括:通过最小化以下损失函数更新训练所述Transformer模型:通过最小化以下损失函数更新训练所述Transformer模型:5.根据权利要求1
‑
4任一项所述方法,其特征在于,所述在线修正训练包括:控制所述机器人基于所述Transformer模型输出的预测动作在模拟器的多环境中进行运动,并使用教师策略同时给出目标动作;搜集所述机器人...
【专利技术属性】
技术研发人员:张伟楠,赖行,何夏麟,余琛,田政,
申请(专利权)人:上海数字大脑科技研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。