一种基于改进SAC算法的四足机器人步态生成方法及系统技术方案

技术编号：44580659 阅读：27 留言：0更新日期：2025-03-14 12:42

本发明专利技术公开了一种基于改进SAC算法的四足机器人步态生成方法，包括：获取四足机器人的当前状态数据和动作数据；基于动作数据得到新状态数据；设置多维度奖励函数，并与当前状态数据、动作数据和新状态数据组成元组数据；基于元组数据输入至由演员网络和多头评论家网络构成的智能体，得到动态权重和动作值；基于动态权重和动作值得到混合策略梯度；基于混合策略梯度和损失函数分别对演员网络和多头评论家网络进行训练，得到训练好的演员网络和训练好的多头评论家网络；获取四足机器人的当前状态数据并输入至训练好的演员网络和训练好的多头评论家网络，得到优化步态数据。提升了四足机器人的步态生成效率和步态鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及四足机器人步态生成，更具体的说是涉及一种基于改进sac算法的四足机器人步态生成方法及系统。

技术介绍

1、在四足机器人的研究中，机器人的步态至关重要。步态是指机器人四条腿的协调运动模式,选择合理的腿部轨迹，防止机器人倾倒，它决定了机器人的移动速度、稳定性和能效。优化步态可以显著提升机器人的性能和适应能力。然而四足机器人是个多自由度，复杂的系统,建模过程需要大量时间和计算资源。其次，基于模型的算法对模型精度要求很高，但在实际应用中，机器人的物理参数和环境条件可能发生变化，导致实际系统与模型不符，降低了系统的鲁棒性。

2、对于四足机器人的运动，对于步态设计采用强化学习，不需要深入了解机器人步态相关的知识就能够生成有效的关节运动轨迹；而强化学习的核心是训练机器人采取行动来最大化预期累积奖励。以往对于深度强化学习奖励函数的设计通常由多个部分相加来学习单个价值函数，每个部分都定量地描述了步行任务质量的一个方面，例如身体平衡维持、电机扭矩、运动方向等。这种奖励函数的设计方法可能会破坏不同奖励之间的相关性，从而限制学习效率。

3、因本文档来自技高网...

【技术保护点】

1.一种基于改进SAC算法的四足机器人步态生成方法，其特征在于，包括：

2.根据权利要求1所述的一种基于改进SAC算法的四足机器人步态生成方法，其特征在于，所述多维度奖励函数包括多个子奖励函数，所述子奖励函数分别为：前进奖励函数、能量消耗奖励函数、期望高度奖励函数、机器人本体前向方向与运动前向方向夹角奖励函数、漂移奖励函数和晃动奖励函数。

3.根据权利要求2所述的一种基于改进SAC算法的四足机器人步态生成方法，其特征在于，所述动态权重获取方法为：

4.根据权利要求3所述的一种基于改进SAC算法的四足机器人步态生成方法，其特征在于，所述动态权重具体为：<...

【技术特征摘要】

1.一种基于改进sac算法的四足机器人步态生成方法，其特征在于，包括：

2.根据权利要求1所述的一种基于改进sac算法的四足机器人步态生成方法，其特征在于，所述多维度奖励函数包括多个子奖励函数，所述子奖励函数分别为：前进奖励函数、能量消耗奖励函数、期望高度奖励函数、机器人本体前向方向与运动前向方向夹角奖励函数、漂移奖励函数和晃动奖励函数。

3.根据权利要求2所述的一种基于改进sac算法的四足机器人步态生成方法，其特征在于，所述动态权重获取方法为：

4.根据权利要求3所述的一种基于改进sac算法的四足机器人步态生成方法，其特征在于，所述动态权重具体为：

5.根据权利要求4所述的一种基于改进sac算法的四足机器人步态生成方法，其特征在于，所述多头评论家网络包括多个结构相同的头部网络；

6.根据权利要求...

【专利技术属性】
技术研发人员：裴忠才，范亚南，唐志勇，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人