基于先验知识的深度强化学习机器人运动控制方法及系统技术方案

技术编号：39987215 阅读：5 留言：0更新日期：2024-01-09 01:59

本发明专利技术提出基于先验知识的深度强化学习机器人运动控制方法及系统，涉及机器人控制技术领域。包括基于虚拟模型控制法获取四足机器人动作输出曲线；将四足机器人动作输出曲线作为开环的参考轨迹，将强化学习控制器生成的动作输出量作为闭环优化信号，搭建策略框架；根据策略框架，采用四足机器人动作输出曲线作为先验知识引导四足机器人学习，对强化学习控制器进行训练，得到训练好的强化学习控制器，对四足机器人进行运动控制。本发明专利技术将虚拟模型控制动作输出曲线作为四足机器人的先验知识，指导四足机器人的学习过程，将深度强化学习网络作为反馈调整部分增加机器人的学习能力，提高四足机器人对地形的适应能力和学习效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器人控制，尤其涉及基于先验知识的深度强化学习机器人运动控制方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、强化学习算法的收敛速度慢、学习效率低，机器人与环境交互时需要大量的试错性学习才能获得有效奖励，同时，对于四足机器人的运动控制任务来说，除了要保证运动过程中机身的稳定性，还要协调各腿之间的运动使其产生步态特征，因此，如何使四足机器人腿部规律性运动及提高强化学习的训练效率是本文的研究重点。强化学习前期很难获得有效奖励，在学习的过程中获得的回报持续上升但中后期学习的效果并不稳定。虽然从零开始学习可以消除专业知识的需求，但没有先验知识引导，四足机器人前期的学习效率较低，不易学习到高回报的动作。当智能体与环境交互的时间有限，智能体很难学习到最佳的控制策略。

技术实现思路

1、为克服上述现有技术的不足，本专利技术提供了基于先验知识的深度强化学习机器人运动控制方法及系统，将虚拟模型控制动作输出曲线作为四足机器人的先验知识，指导四足机器人的学习过程，将深度强化学习网络作为反馈调整部分增加机器人的学习能力，提高四足机器人对地形的适应能力和学习效率。

2、为实现上述目的，本专利技术的一个或多个实施例提供了如下技术方案：

3、本专利技术第一方面提供了基于先验知识的深度强化学习机器人运动控制方法。

4、基于先验知识的深度强化学习机器人运动控制方法，包括以下步骤：

6、将四足机器人动作输出曲线作为开环的参考轨迹，将强化学习控制器生成的动作输出量作为闭环带反馈的优化信号，搭建策略框架；

7、根据策略框架，采用四足机器人动作输出曲线作为先验知识引导四足机器人的学习，对强化学习控制器进行训练，得到训练好的强化学习控制器；

8、利用训练好的强化学习控制器对四足机器人进行运动控制。

9、本专利技术第二方面提供了基于先验知识的深度强化学习机器人运动控制系统。

10、基于先验知识的深度强化学习机器人运动控制系统，包括：

11、虚拟模型控制模块，被配置为：基于虚拟模型控制法对四足机器人进行控制，获取四足机器人动作输出曲线；

12、策略框架搭建模块，被配置为：将四足机器人动作输出曲线作为开环的参考轨迹，将强化学习控制器生成的动作输出量作为闭环带反馈的优化信号，搭建策略框架；

13、训练模块，被配置为：根据策略框架，采用四足机器人动作输出曲线作为先验知识引导四足机器人的学习，对强化学习控制器进行训练，得到训练好的强化学习控制器；

14、运动控制模块，被配置为：利用训练好的强化学习控制器对四足机器人进行运动控制。

15、本专利技术第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本专利技术第一方面所述的基于先验知识的深度强化学习机器人运动控制方法中的步骤。

16、本专利技术第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本专利技术第一方面所述的基于先验知识的深度强化学习机器人运动控制方法中的步骤。

17、以上一个或多个技术方案存在以下有益效果：

18、本专利技术提出了一种基于先验知识的深度强化学习机器人运动控制方法及系统，将虚拟模型控制(vmc)动作输出曲线作为四足机器人的先验知识，指导四足机器人的学习过程，将深度强化学习ddpg网络作为反馈调整部分增加机器人的学习能力，利用深度强化学习算法的学习能力调整动作输出，提高四足机器人对地形的适应能力和学习效率，既保证了四足机器人的稳定性又增强了四足机器人的运动能力，最终在仿真环境下验证了算法的可靠性。

19、本专利技术附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本专利技术的实践了解到。

本文档来自技高网...

【技术保护点】

1.基于先验知识的深度强化学习机器人运动控制方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于先验知识的深度强化学习机器人运动控制方法，其特征在于，利用虚拟模型控制方法对四足机器人进行摆动相控制、支撑相控制和转向控制。

3.如权利要求2所述的基于先验知识的深度强化学习机器人运动控制方法，其特征在于：

4.如权利要求1所述的基于先验知识的深度强化学习机器人运动控制方法，其特征在于，搭建的策略框架表达式为：

5.如权利要求1所述的基于先验知识的深度强化学习机器人运动控制方法，其特征在于，在面对斜坡地形时，深度强化学习控制器的奖励函数设计为：

6.如权利要求1所述的基于先验知识的深度强化学习机器人运动控制方法，其特征在于，在面对不连续地形时奖励函数设计为：

7.如权利要求1所述的基于先验知识的深度强化学习机器人运动控制方法，其特征在于，强化学习控制器的训练过程为：

8.基于先验知识的深度强化学习机器人运动控制系统，其特征在于：包括：

9.计算机可读存储介质，其上存储有程序，其特征在

10.电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于先验知识的深度强化学习机器人运动控制方法中的步骤。

...

【技术特征摘要】

1.基于先验知识的深度强化学习机器人运动控制方法，其特征在于，包括以下步骤：

3.如权利要求2所述的基于先验知识的深度强化学习机器人运动控制方法，其特征在于：

4.如权利要求1所述的基于先验知识的深度强化学习机器人运动控制方法，其特征在于，搭建的策略框架表达式为：

5.如权利要求1所述的基于先验知识的深度强化学习机器人运动控制方法，其特征在于，在面对斜坡地形时，深度强化学习控制器的奖励函数设计为：

6.如权利要求1所述的基于先验知识的深度强化...

【专利技术属性】
技术研发人员：宋勇，李昊原，刘萍萍，夏一帆，许庆阳，袁宪锋，庞豹，李贻斌，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人