基于强化学习动作模仿的四足机器人运动控制方法及系统技术方案

技术编号：41325929 阅读：5 留言：0更新日期：2024-05-13 15:03

本公开提供了基于强化学习动作模仿的四足机器人运动控制方法及系统，涉及机器人运动控制技术领域，将参考动作数据作为状态值引入强化学习网络，在动作模仿训练阶段，通过关节跟踪奖励的激励，采用自适应随机初始状态采样的训练技巧，提高训练效率，使机器人从运动示范中获取宝贵的信息，迅速学会模仿参考技能的运动策略。然后，在技能拓展训练阶段，将模仿奖励与任务奖励相结合，形成独特的奖励形式，进一步训练运动策略，最终获得完成运动任务的最佳运动策略。本发明专利技术简单高效，效果明显，提升了四足机器人运动策略的学习效率，扩展了模仿学习在机器人运动控制领域的应用范围。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及机器人运动控制，具体涉及基于强化学习动作模仿的四足机器人运动控制方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，不必然构成在先技术。

2、近年来，四足机器人因其在机器人学、自动化和人机交互等多个领域的潜在应用而备受关注，与其他类型的腿足机器人相比，四足机器人运动灵活稳定、负载能力强，同时，从仿生学角度来看，自然界大型陆生动物绝大多数是四足动物，可以在多种复杂地形下灵活运动，例如，羚羊动作敏捷，可以在岩壁上跳跃，猎豹具有极高的时速，这些都为我们研究四足机器人的运动提供了参考并带来了信心。考虑到四足机器人复杂的运动学结构、高维状态空间以及在不同任务中对自适应行为的需求，实现多功能、高效的运动控制是一项复杂的挑战。

3、当前的四足机器人运动控制方法主要有三种，传统控制方法、强化学习方法和模仿学习方法。传统控制方法往往需要对机器人模型进行精确的运动学和动力学建模，通过轨迹优化算法设计合理的运动轨迹，再通过精心设计的控制策略和手工调整的参数进行控制。强化学习在解决复杂的机器人控制问题方面显示出巨大的潜力，机器人通过与环境的随机交互自主学习到运动控制策略。模仿学习方法通过对示教数据进行模仿，以此学到示教中包含的技能，减轻了对设计技能特定的奖励函数的需要，并可以缓解随机探索问题，防止机器人不良运动。

4、然而，虽然传统控制方法可以实现精确稳定的运动控制，但在处理多种技能和复杂环境时，难以提供所需的灵活性和适应性。强化学习算法通常需要复杂的奖励调整和超参数设置，并且很

技术实现思路

1、本公开为了解决上述问题，提出了基于强化学习动作模仿的四足机器人运动控制方法及系统，通过将模仿目标与任务目标相结合的方式，利用一种基于模仿学习的深度强化学习框架，将动作捕捉数据作为参考动作引入深度强化学习框架，通过动作模仿和技能拓展两个阶段的训练，使四足机器人在复杂环境中执行丰富的运动任务，提高四足机器人的适应性和实用性。

2、根据一些实施例，本公开采用如下技术方案：

3、基于强化学习动作模仿的四足机器人运动控制方法，包括：

4、获取真实四足动物的动作捕捉数据，并转化为参考运动数据，将所述参考运动数据作为状态值输入至深度强化学习智能体；

5、利用深度强化学习算法，先进行机器人动作模仿阶段的强化学习，通过关节跟踪奖励的激励，配合自适应随机初始状态采样，模仿参考动作的关节运动，使机器人获取模仿参考动作运动技能的运动策略；

6、基于动作模仿阶段的强化学习，再进行技能拓展阶段的强化学习，改变关节跟踪奖励的形式并下调奖励权重，加入任务目标完成奖励和身体姿态奖励，继续利用深度强化学习算法，获得完成运动任务的最佳运动控制策略；

7、最佳运动控制策略输出关节角度后，输出电机力矩控制机器人运动。

8、根据一些实施例，本公开采用如下技术方案：

9、基于强化学习动作模仿的四足机器人运动控制系统，包括：

10、数据获取模块，用于获取真实四足动物的动作捕捉数据，并转化为参考运动数据，将所述参考运动数据作为状态值输入至深度强化学习智能体；

11、动作模仿模块，用于利用深度强化学习算法，先进行机器人动作模仿阶段的强化学习，通过关节跟踪奖励的激励，配合自适应随机初始状态采样，模仿参考动作的关节运动，使机器人获取模仿参考动作运动技能的运动策略；

12、任务学习模块，用于基于动作模仿阶段的强化学习，再进行技能拓展阶段的强化学习，改变关节跟踪奖励的形式并下调奖励权重，加入任务目标完成奖励和身体姿态奖励，继续利用深度强化学习算法，获得完成运动任务的最佳运动控制策略；

13、控制模块，用于最佳运动控制策略输出关节角度后，输出电机力矩控制机器人运动。

14、根据一些实施例，本公开采用如下技术方案：

15、一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现所述的基于强化学习动作模仿的四足机器人运动控制方法。

16、与现有技术相比，本公开的有益效果为：

17、本公开的基于强化学习动作模仿的四足机器人运动控制方法，利用模仿学习进行四足机器人运动控制，降低了控制器设计的复杂度，减轻了专家参与的需求，减轻了对设计技能特定的奖励函数的需要，并可以缓解随机探索问题，防止机器人不良运动。

18、本公开模仿学习的深度强化学习框架分为两个阶段进行训练，通过将模仿目标与任务目标相结合，使得腿足机器人能够在模仿参考动作的基础上，逐步适应更复杂的环境，并完成更丰富多样的运动任务，提升了其运动控制的灵活性和多样性。

19、本公开针对训练框架设计了自适应随机初始状态采样算法，与随机均匀采样相比提高了数据利用率和训练效率，保证了算法优越性。

本文档来自技高网...

【技术保护点】

1.基于强化学习动作模仿的四足机器人运动控制方法，其特征在于，包括：

2.如权利要求1所述的基于强化学习动作模仿的四足机器人运动控制方法，其特征在于，根据真实四足动作的动作捕捉数据作为参考运动数据，参考运动类型包括行走、跑和跳跃，源运动数据为动物的关节角度和关节速度，将源运动数据定位到四足机器人形态上，为四足机器人运动提供参考关节角度和关节速度，参考关节角度和速度作为状态值输入深度强化学习框架。

3.如权利要求1所述的基于强化学习动作模仿的四足机器人运动控制方法，其特征在于，深度强化学习智能体的输入状态包含参考关节角度、参考关节速度、三维的机体线速度、三维机体角速率、三维的机体重力方向姿态角、关节位置、关节速度以及关节位置误差。

4.如权利要求1所述的基于强化学习动作模仿的四足机器人运动控制方法，其特征在于，在动作模仿阶段，利用仿真环境，机器人通过强化学习模仿参考动作的关节运动，学习到参考动作示范的技能，深度强化学习智能体的输入状态为参考关节角度和速度状态值，输出动作为四足机器人关节角度，利用近端策略优化算法在仿真环境中进行训练，最终获得使机器

5.如权利要求4所述的基于强化学习动作模仿的四足机器人运动控制方法，其特征在于，动作模仿阶段的奖励设计的目标是使机器人关节角度与关节速度与参考动作保持一致，设计关节角度跟踪奖励，鼓励机器人在每一时间步匹配参考运动的关节角度；设计关节速度跟踪奖励，鼓励机器人匹配参考运动的关节速度；动作模仿阶段的奖励为关节角度跟踪奖励和关节速度跟踪奖励之和。

6.如权利要求1所述的基于强化学习动作模仿的四足机器人运动控制方法，其特征在于，所述技能拓展阶段在复杂的仿真环境下进行，指定运动任务，该阶段奖励函数鼓励机器人在学习到的基本运动技能基础上，完成运动任务和保持协调的身体姿态，奖励函数由多个不同的奖励项组成，每个控制时间步的奖励定义为各个奖励项的加权和。

7.如权利要求6所述的基于强化学习动作模仿的四足机器人运动控制方法，其特征在于，奖励函数包括：运动任务完成奖励、身体姿态奖励以及关节跟踪奖励；身体姿态奖励又包括身体平衡奖励、足间距奖励、机体扭转奖励、网络输出平滑奖励以及关节速度奖励。

8.如权利要求1所述的基于强化学习动作模仿的四足机器人运动控制方法，其特征在于，深度强化学习智能体的最佳运动控制策略输出关节电机的关节位置命令后，通过PD控制器计算对应的关节扭矩来控制电机，实现机器人运动。

9.基于强化学习动作模仿的四足机器人运动控制系统，其特征在于，包括：

10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如权利要求1-8任一项所述的基于强化学习动作模仿的四足机器人运动控制方法。

...

【技术特征摘要】

1.基于强化学习动作模仿的四足机器人运动控制方法，其特征在于，包括：

5.如权利要求4所述的基于强化学习动作模仿的四足机器人运动控制方法，其特征在于，动作模仿阶段的奖励设计的目标是使机器人关节角度与关节速度与参考动作保持一致，设计关节角度跟踪奖励，鼓励机器人在每一时间步匹配参考运动的关节角度；...

【专利技术属性】
技术研发人员：赵晓晴，谭文浩，俞炜，高鲁，李腾，张伟，宋然，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人