基于改进强化学习奖励函数的四足机器人运动控制方法及系统技术方案

技术编号：42479785 阅读：19 留言：0更新日期：2024-08-21 13:01

本发明专利技术涉及四足机器人技术领域，尤其涉及基于改进强化学习奖励函数的四足机器人运动控制方法及系统，包括构建四足机器人仿真模型；构建马尔可夫决策过程，定义马尔可夫决策的状态空间、行动空间、过渡概率和奖励函数，利用线速度奖励函数、角速度奖励函数、基础运动奖励函数、足部离地奖励函数、身体碰撞奖励函数、目标平滑度奖励函数和扭矩奖励函数并赋予不同的权重系数，得到总奖励函数；利用教师‑学生模型中教师策略对总奖励函数进行训练，并将训练得到的奖励值输入学生策略中。本发明专利技术提供利用教师‑学生框架对奖励函数进行训练，解决四足机器人在挑战性环境中的稳定性问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及四足机器人，尤其涉及基于改进强化学习奖励函数的四足机器人运动控制方法及系统。

技术介绍

1、具挑战性的环境对于四足动物来说相对容易进入，但对于自主机器来说仍然比较困难；腿式运动可以极大的扩展机器人的应用范围；现有的轮式和履带式机器，在挑战环境中的稳定性会受到严重影响，所以腿式机器人有潜力穿越动物同类可以穿越的任何地形。

2、挑战性环境具有高度不规则的轮廓、可变形的地形、光滑的表面和地上障碍物；现有的公开控制器经常出现脚打滑、失去平衡，并最终导致严重故障。由于无法获得有关地形物理特性的真实信息，这一挑战变得更加困难；例如意外的地面接触、地形变形和脚部打滑，控制器必须快速产生符合多个目标的全身轨迹：平衡、避免自碰撞、抵消外部干扰和运动。

3、韦浪等人的基于深度强化学习的四足机器人多步态运动控制研究，教师-学生强化学习框架采用lee提出的训练架构和rma架构在台阶形地面，楼梯和小物体杂乱路面四足机器人运动控制实验中的奖励函数只考虑了步态规划奖励、晃动奖励和能量消耗奖励，主要是解决步态切换问题；而现实地理世...

【技术保护点】

1.基于改进强化学习奖励函数的四足机器人运动控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于改进强化学习奖励函数的四足机器人运动控制方法，其特征在于，总奖励函数的公式为：

3.根据权利要求2所述的基于改进强化学习奖励函数的四足机器人运动控制方法，其特征在于，足部离地奖励函数的公式为：

4.根据权利要求2所述的基于改进强化学习奖励函数的四足机器人运动控制方法，其特征在于，身体碰撞奖励函数的公式为：

5.根据权利要求2所述的基于改进强化学习奖励函数的四足机器人运动控制方法，其特征在于，目标平滑度奖励函数的公式为：

...

【技术特征摘要】

1.基于改进强化学习奖励函数的四足机器人运动控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于改进强化学习奖励函数的四足机器人运动控制方法，其特征在于，总奖励函数的公式为：

3.根据权利要求2所述的基于改进强化学习奖励函数的四足机器人运动控制方法，其特征在于，足部离地奖励函数的公式为：

4.根据权利要求2所述的基于改进强化学习奖励函数的四足机器人运动控制方法，其特征在于，身体碰撞奖励函数的公式为：

5.根据权利要求2所述的基于改进强化学习奖励函数的四足机器人运动控制方法，其特征在于，目标平滑度奖励函数的公式为：

6.根据权利要求2所述的...

【专利技术属性】
技术研发人员：陈阳，郁玮杰，李露，
申请(专利权)人：常州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人