基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质制造方法及图纸

技术编号：27933792 阅读：31 留言：0更新日期：2021-04-02 14:13

本申请公开了一种基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质。本申请中，可以在模拟器中搭建环境、四足机器人模型以及传感器模型；通过多源信息融合技术以及传感器，获取测量信号，并估计机器人状态；利用环境模块、机器人模型以及测量信号，生成四足机器人的足端轨迹规划和初始步态控制策略；基于深度强化学习算法对四足机器人的初始步态控制策略进行策略提升，直至触发策略提升结束条件。通过应用本申请的技术方案，可以避免相关技术中存在的基于模型控制算法所导致的需要大量的手工调参，人工成本较高的问题。且训练得到的参数往往鲁棒性较差，只能适用于某种固定的场景，难以应付实际四足机器人的多种应用任务的需求。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质
本申请中涉及计算机技术，尤其是一种基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质。
技术介绍
在四足机器人的步态控制领域，通常采用正逆运动学和机器人动力学等方法结合模型预测控制等先进控制理论实现四足机器人的步态控制，通常将整个控制系统分为足端轨迹规划模块和运动控制模块，规划部分实现足端轨迹的计算，控制部分根据轨迹实现各个关节执行器的控制。但是基于此类传统的控制理论得到的方法需要大量的手工调参，并且单一来源的传感器信息噪声和延时比较大，容易导致控制系统出现问题，模型鲁棒性难以满足复杂环境的需求。此外当四足机器人碰到非平整、非结构化地形时，传统步控制策略容易失效，其根本原因是因此类方法的模型假设较强，难以满足实际四足机器人复杂、高动态、多场景的使用需求。目前，相关技术中关于四足机器人的步态控制领域的研究还较为简单，大部分集中于基于物理引擎的模拟器和强化学习的算法层面，缺乏一个完整的从模拟器开始并迁移到实体机器人的可行方法。...

【技术保护点】
1.一种基于深度强化学习的四足机器人的步态训练方法，其特征在于，包括：/n在模拟器中搭建环境、四足机器人模型以及传感器模型；/n通过多源信息融合技术以及所述传感器，获取测量信号，并计算机器人状态；/n利用所述环境模块、机器人模型以及所述测量信号，生成四足机器人的足端轨迹规划和初始步态控制策略；/n基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升，直至触发策略提升结束条件。/n

【技术特征摘要】
1.一种基于深度强化学习的四足机器人的步态训练方法，其特征在于，包括：
在模拟器中搭建环境、四足机器人模型以及传感器模型；
通过多源信息融合技术以及所述传感器，获取测量信号，并计算机器人状态；
利用所述环境模块、机器人模型以及所述测量信号，生成四足机器人的足端轨迹规划和初始步态控制策略；
基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升，直至触发策略提升结束条件。

2.如权利要求1所述的方法，其特征在于，所述在模拟器中搭建四足机器人模型，包括：
搭建所述四足机器人的躯干结构以及肢体结构，所述每个肢体包括三个由电机控制的关节。

3.如权利要求2所述的方法，其特征在于，所述在模拟器中搭建传感器，包括：
搭建第一数量的关节角度传感器；以及，用于设置在四足机器人躯干重心位置的第二数量的惯性传感器；
为所述四足机器人的每个足端搭建一个对应的压力传感器、惯性传感器，以及RGBD图像传感器。

4.如权利要求3所述的方法，其特征在于，所述通过多源信息融合技术以及所述传感器，获取测量信号，计算机器人状态，包括：
通过设置在所述四足机器人的足端搭建的惯性传感器，计算所述四足机器人的每个肢体上的转角数据，所述转角数据用于补偿角度编码的测量误差；
将多个惯性传感器上传的测量数据按照组合方差最小的原则进行融合，得到所述测量信号。

5.如权利要求4所述的方法，其特征在于，所述生成四足机器人的足端轨迹规划和初始步态控制策略，包括：
利用所述四足机器人的自身参数和关节角度测量值，计算出所述四足机器人的各个时刻足端的位置，得到所述足端轨迹规划；
利用逆运动学方法以及所述足端轨迹规划，计算出所述四足机器人的各个关节实际的控制命令，并通过所述各个关节的控制命令，得到所述四足机器人的所述步态控制策略。

6.如权利要求1所述的方法，其特征在于，所述基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升，包括：
在所述...

【专利技术属性】
技术研发人员：张文祺，李鹏，赵锴，傅汇乔，叶发萍，江微杰，朱晓，王韬，
申请(专利权)人：杭州未名信科科技有限公司，浙江省北大信息技术高等研究院，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人