本申请公开了一种基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质。本申请中,可以在模拟器中搭建环境、四足机器人模型以及传感器模型;通过多源信息融合技术以及传感器,获取测量信号,并估计机器人状态;利用环境模块、机器人模型以及测量信号,生成四足机器人的足端轨迹规划和初始步态控制策略;基于深度强化学习算法对四足机器人的初始步态控制策略进行策略提升,直至触发策略提升结束条件。通过应用本申请的技术方案,可以避免相关技术中存在的基于模型控制算法所导致的需要大量的手工调参,人工成本较高的问题。且训练得到的参数往往鲁棒性较差,只能适用于某种固定的场景,难以应付实际四足机器人的多种应用任务的需求。
【技术实现步骤摘要】
基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质
本申请中涉及计算机技术,尤其是一种基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质。
技术介绍
在四足机器人的步态控制领域,通常采用正逆运动学和机器人动力学等方法结合模型预测控制等先进控制理论实现四足机器人的步态控制,通常将整个控制系统分为足端轨迹规划模块和运动控制模块,规划部分实现足端轨迹的计算,控制部分根据轨迹实现各个关节执行器的控制。但是基于此类传统的控制理论得到的方法需要大量的手工调参,并且单一来源的传感器信息噪声和延时比较大,容易导致控制系统出现问题,模型鲁棒性难以满足复杂环境的需求。此外当四足机器人碰到非平整、非结构化地形时,传统步控制策略容易失效,其根本原因是因此类方法的模型假设较强,难以满足实际四足机器人复杂、高动态、多场景的使用需求。目前,相关技术中关于四足机器人的步态控制领域的研究还较为简单,大部分集中于基于物理引擎的模拟器和强化学习的算法层面,缺乏一个完整的从模拟器开始并迁移到实体机器人的可行方法。
技术实现思路
本申请实施例提供一种基于深度强化学习的四足机器人的步态训练方法、装置、电子设备及介质,其中,根据本申请实施例的一个方面,提供的一种基于深度强化学习的四足机器人的步态训练方法,其特征在于,包括:在模拟器中搭建环境模块、四足机器人模型以及传感器模块;通过多源信息融合技术以及所述传感器,获取测量信号,计算机器人状态;利用设置的环境、机器人模型以及所述精准转角测量信号,生成四足机器人的足端轨迹规划和初始步态控制策略;基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升,直至触发策略提升结束条件。可选地,在基于本申请上述方法的另一个实施例中,所述在模拟器中搭建四足机器人模型,包括:搭建所述四足机器人的躯干结构以及肢体结构,所述每个肢体包括三个由电机控制的关节。可选地,在基于本申请上述方法的另一个实施例中,所述在模拟器中搭建传感器模型,包括:搭建第一数量的电机角度传感器;以及,用于设置在四足机器人躯干重心位置的第二数量的惯性传感器;为所述四足机器人的每个足端搭建一个对应的压力传感器、惯性传感器,以及RGBD图像传感器。可选地,在基于本申请上述方法的另一个实施例中,所述通过多源信息融合技术以及所述传感器模型,获取测量信号,包括:通过设置在所述四足机器人的每个足端搭建的惯性传感器,计算所述四足机器人的每个肢体上的转角数据,所述转角数据用于补偿角度编码的测量误差;将多个惯性传感器上传的测量数据按照组合方差最小的原则进行融合,得到所述测量信号。可选地,在基于本申请上述方法的另一个实施例中,所述生成四足机器人的足端轨迹规划和初始步态控制策略,包括:利用所述四足机器人的自身参数和关节角度测量值,计算出所述四足机器人的各个时刻足端的位置,得到所述足端轨迹规划;利用逆运动学方法以及所述足端轨迹规划,计算出所述四足机器人的各个关节实际的控制命令,并通过所述各个关节的控制命令,得到所述四足机器人的所述步态控制策略。可选地,在基于本申请上述方法的另一个实施例中,所述生基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升,包括:在所述模拟器中设置至少两种不同形态的地形地貌,所述地形地貌中包括不同的地面材料以及风力扰动;在所述模拟器中对所述四足机器人模型参数进行随机初始化,其中模型参数包括初始姿态、质量、惯性矩阵、摩擦力、关节阻尼系数、电机摩擦系数的至少一种;采用并行PPO强化学习算法,在所述至少两种不同形态的地形地貌以及所述随机初始化条件下训练得到所述深度强化学习算法;利用所述深度强化学习算补偿和调整所述足端轨迹规划以及所述初始步态控制策略。可选地,在基于本申请上述方法的另一个实施例中,所述利用所述深度强化学习算补偿和调整所述足端轨迹规划以及所述初始步态控制策略,包括:设置所述四足机器人的状态空间,所述状态空间包括关节角度测量值,关节角速度测量值,方向载体速度,载体姿态四元数,方向载体姿态角速率,足端接触力以及轨迹规划模块输出期望角度。利用所述四足机器人的状态空间,实时调整电机的输出力矩量,从而实现来补偿所述足端轨迹规划以及所述初始步态控制策略。其中,根据本申请实施例的又一个方面,提供的一种基于深度强化学习的四足机器人的步态训练装置,其特征在于,包括:搭建模块,被配置为在模拟器中搭建环境模块、四足机器人模型以及传感器;状态估计模块,被配置通过多源信息融合技术以及所述传感器,获取测量信号,并计算机器人状态;生成模块,被配置利用所述环境模块、机器人模型以及所述测量信号,生成四足机器人的足端轨迹规划和初始步态控制策略;提升模块,被配置基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升,直至触发策略提升结束条件。根据本申请实施例的又一个方面,提供的一种电子设备,包括:存储器,用于存储可执行指令;以及显示器,用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述基于深度强化学习的四足机器人的步态训练方法的操作。根据本申请实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述基于深度强化学习的四足机器人的步态训练方法的操作。本申请中,可以在模拟器中搭建环境、四足机器人模型以及传感器模型;通过多源信息融合技术以及传感器,获取测量信号,并估计机器人状态;利用环境模块、机器人模型以及测量信号,生成四足机器人的足端轨迹规划和初始步态控制策略;基于深度强化学习算法对四足机器人的初始步态控制策略进行策略提升,直至触发策略提升结束条件。通过应用本申请的技术方案,可以避免相关技术中存在的基于模型控制算法所导致的需要大量的手工调参,人工成本较高的问题。且训练得到的参数往往鲁棒性较差,只能适用于某种固定的场景,难以应付实际四足机器人的多种应用任务的需求。下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。附图说明构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:图1为本申请提出的基于深度强化学习的四足机器人的步态训练方法示意图;图2为为本申请提出的四足机器人步态学习方法的整体流程图;图3为本申请提出的多源信息融合技术结构图;图4为本申请提出的多源信息融合技术的并行强化学习系统算法框图;图5为本申请基于深度强化学习的四足机器人的步态训练方法电子装置的结构示意图;图6为本申请显示电子设备结构示意图。具体实施方式现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些本文档来自技高网...
【技术保护点】
1.一种基于深度强化学习的四足机器人的步态训练方法,其特征在于,包括:/n在模拟器中搭建环境、四足机器人模型以及传感器模型;/n通过多源信息融合技术以及所述传感器,获取测量信号,并计算机器人状态;/n利用所述环境模块、机器人模型以及所述测量信号,生成四足机器人的足端轨迹规划和初始步态控制策略;/n基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升,直至触发策略提升结束条件。/n
【技术特征摘要】
1.一种基于深度强化学习的四足机器人的步态训练方法,其特征在于,包括:
在模拟器中搭建环境、四足机器人模型以及传感器模型;
通过多源信息融合技术以及所述传感器,获取测量信号,并计算机器人状态;
利用所述环境模块、机器人模型以及所述测量信号,生成四足机器人的足端轨迹规划和初始步态控制策略;
基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升,直至触发策略提升结束条件。
2.如权利要求1所述的方法,其特征在于,所述在模拟器中搭建四足机器人模型,包括:
搭建所述四足机器人的躯干结构以及肢体结构,所述每个肢体包括三个由电机控制的关节。
3.如权利要求2所述的方法,其特征在于,所述在模拟器中搭建传感器,包括:
搭建第一数量的关节角度传感器;以及,用于设置在四足机器人躯干重心位置的第二数量的惯性传感器;
为所述四足机器人的每个足端搭建一个对应的压力传感器、惯性传感器,以及RGBD图像传感器。
4.如权利要求3所述的方法,其特征在于,所述通过多源信息融合技术以及所述传感器,获取测量信号,计算机器人状态,包括:
通过设置在所述四足机器人的足端搭建的惯性传感器,计算所述四足机器人的每个肢体上的转角数据,所述转角数据用于补偿角度编码的测量误差;
将多个惯性传感器上传的测量数据按照组合方差最小的原则进行融合,得到所述测量信号。
5.如权利要求4所述的方法,其特征在于,所述生成四足机器人的足端轨迹规划和初始步态控制策略,包括:
利用所述四足机器人的自身参数和关节角度测量值,计算出所述四足机器人的各个时刻足端的位置,得到所述足端轨迹规划;
利用逆运动学方法以及所述足端轨迹规划,计算出所述四足机器人的各个关节实际的控制命令,并通过所述各个关节的控制命令,得到所述四足机器人的所述步态控制策略。
6.如权利要求1所述的方法,其特征在于,所述基于深度强化学习算法对所述四足机器人的初始步态控制策略进行策略提升,包括:
在所述...
【专利技术属性】
技术研发人员:张文祺,李鹏,赵锴,傅汇乔,叶发萍,江微杰,朱晓,王韬,
申请(专利权)人:杭州未名信科科技有限公司,浙江省北大信息技术高等研究院,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。