一种人形机器人自适应步态转换方法技术

技术编号：43282212 阅读：14 留言：0更新日期：2024-11-12 16:05

本发明专利技术提出了一种人形机器人自适应步态转换方法，首先使用逆运动学来计算目标机器人的关节位置，在缩放后，将目标机器人在每一帧中的基准位置和方向设置为源运动数据的基准位置与方向，然后，搭建仿人运动学习框架，以提供更准确和鲁棒的潜在状态估计，最终提高策略的性能，最后，根据仿人运动学习框架生成步态转换算法，本发明专利技术通过采用统一运动重定向技术和非对称动作‑评论架构，结合WGAN‑div判别器，实现了机器人从行走到跑步的平滑过渡，无需中断，提高了运动的自然性和连贯性，本发明专利技术不仅推动了仿人机器人技术的发展，还为机器人在更广泛领域的应用提供了新的可能性，特别是在需要机器人与人类密切互动的场景中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器人，具体为一种人形机器人自适应步态转换方法。

技术介绍

1、在当前的机器人
，尤其是人形机器人的行走和跑步运动控制方面，存在显著的技术挑战。传统的机器人运动控制方法依赖于精确的关节轨迹跟踪和步态特征复制，以实现更接近人类的运动模式。然而，这些方法在处理复杂动作和设计自然人类动作时面临诸多限制，主要表现在以下几个方面：

2、运动协调性：人类运动的流畅性和适应性需要多个关节之间的精确协调，这对于机器人控制系统来说是一个复杂的问题。

3、运动模仿学习：尽管模仿学习为机器人提供了一种从专家演示中学习任务的途径，但它高度依赖于高质量的专家演示，这些演示往往难以获得，且在新场景下的泛化能力较差。

4、生成对抗式模仿学习和对抗式运动先验方法：这些方法在四足机器人上取得了显著进展，但在人形机器人上的应用仍需进一步发展，以实现最优的运动性能。

5、与现有技术对比如下：

6、与专利cn202311631726.0“机器人控制方法、装置、机器人及计算机可读存储介质”的技术对比

7、专利cn202311631726.0中采用了最小平方生成对抗网络(least-squares gan,lsgan)损失来替代奖励函数学习，这有助于缓解传统gan中使用的交叉熵损失函数的梯度消失问题。而且判别器输出在-1到1之间，这为生成模型提供了一个更一致的尺度，使得训练过程更加稳定。而本专利技术采用了wasserstein损失，其能够直接使用判别器的输出作为奖励，学习到一个在状

8、专利cn202311631726.0中集成了对抗性学习组件与强化学习算法，以指导控制策略产生与混合参考运动的数据分布一致的行为。而本专利技术还使用非对称的actor-critic架构和一个估计器来优化整个策略的学习，增强了机器人不同步态的稳定性和泛化性，并且在真机上实现了和仿真环境类似的效果。

9、但是现有技术中存在如下问题：

10、1.运动协调性和流畅性：现有的机器人运动控制系统在模拟人类运动的流畅性和适应性方面存在不足，尤其是在不同运动模式(如行走和跑步)之间的过渡。

11、2.专家演示的依赖性：传统的模仿学习方法依赖于高质量的专家演示，这些演示的获取成本高昂且耗时，限制了机器人在新环境中的学习和适应能力。

12、3.泛化能力：现有的方法在新场景下的泛化能力有限，导致在实际应用中可能出现性能下降或错误累积。

13、4.运动模式转换的稳定性：在不同的运动模式(如从行走到跑步)之间的转换过程中，机器人的稳定性和适应性不足，影响其在动态环境中的表现。

14、5.能量效率：现有的机器人运动模式在能量消耗方面可能不够优化，特别是在需要长时间运行的应用中，这会限制机器人的实用性。

15、6.运动模仿的准确性：尽管模仿学习可以复制某些步态特征，但在模仿复杂人类运动时，仍存在一定的局限性，尤其是在动态变化的环境中。

16、7.模拟到现实的转换：从模拟环境到现实世界的转换过程中，机器人的运动控制策略可能无法直接应用，需要额外的调整和优化。

技术实现思路

1、为解决上述技术问题，本专利技术提出了一种人形机器人自适应步态转换方法，通过模仿学习显著提高了人型机器人在新场景下的泛化能力，减少了对特定环境适应性的需求，有效的解决了从模拟环境到现实世界的转换问题，使得在模拟环境中学习到的运动控制策略能够直接应用于现实世界的机器人。

2、为实现上述目的，本专利技术采取的技术方案是：

3、一种人形机器人自适应步态转换方法，其特征在于：包括如下步骤：

4、s1、动作重映射：

5、收集真实人体运动数据，并重新定位运动数据以适应人型机器人，具体如下：

6、首先，将真实人体运动定义为源运动，并通过运动捕捉装置收集源运动数据，

7、然后，分别在源运动和目标人型机器人中选择一组关键点，通过缩放源运动数据以适应目标人型机器人的大小，并给定源运动中每个关键点在每个时间步长t的3d位置，

8、再然后，通过使用逆运动学来计算目标人型机器人的关节位置，在缩放后，将目标人型机器人在每一帧中的基准位置和方向设置为源运动数据的基准位置与方向；

9、s2、搭建仿人运动学习框架：

10、s21、将仿人运动控制建模为部分可观察的马尔可夫决策过程，表示为

11、其中，完整状态、部分观测状态和动作分别表示为和

12、状态转移概率定义为p(st+1|st，at)，

13、策略π根据当前观测结果选择动作：at～π(·|ot)，

14、折扣因子γ，用于衡量未来的奖励，

15、奖励函数r定义为rt＝r(st，at)，目标是使累计折扣奖励最大化，表示为j(π)＝eτ～p(·|π)[∑tγtr(st，at)]；

16、s22、搭建非对称的动作-评论架构，具体如下：

17、搭建估计器网络、评价网络以及动作网络，

18、动作-评论架构包含估计器模块和控制器模块，估计器模块内含环境状态st数据和用于评价环境状态的评价网络、估计器以及用于评价上下文状态向量zt和估计线速度的动作网络，控制器模块包括用于控制人型机器人的pd控制器，

19、估计器与估计器网络连接，估计器网络表示为ε，取ot：t-h＝[ot，ot-1，…ot-h]t作为输入，输出连接动作网络，能够输出上下文状态向量zt和估计的线速度到动作网络中，

20、通过动作网络将其解析、规划后输送到pd控制器，pd控制器控制人型机器人生成动作，

21、s23、构建奖励系统，具体如下：

22、首先，在非对称的动作-评论架构中接入wgan-div判别器，pd控制器将生成动作输送给wgan-div判别器进行判别，

23、奖励系统包括风格奖励和任务奖励，风格奖励由wgan-div判别器进行判定，任务奖励由pd控制器进行判别，

24、wgan-div判别器由θ参数化的判别器网络dθ被集成到动作-评论架构中，以评估生成的数据分布和参考数据分布之间的wasserstein-1距离，

25、奖励系统除了来自环境的任务奖励rt外，wgan-div判别器还为策略训练提供风格奖励rs，让策略输出的动作与参考动作保持相同的风格，

26、然后，通过采用具有发散惩罚的wassersteingan进行奖励函数学习，wasserstein-1距离定义为：

27、

28、其中表示在具有边值pr和pg的所有联合分布λ(x，y)的集合上取最大下界，

29、wgan-div判别器dθ在lipschitz约束的情况下使以下目标最大化：

30、

31、此约束是使本文档来自技高网...

【技术保护点】

1.一种人形机器人自适应步态转换方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种人形机器人自适应步态转换方法，其特征在于：在步骤S1中，选择源运动和目标人型机器人的脚趾、脚踝、膝盖、肘部和手作为关键点。

3.根据权利要求1所述的一种人形机器人自适应步态转换方法，其特征在于：在步骤S22中，所述估计器包括仿真器、编码器以及解码器，速度分量在仿真器中实际线速度的监督下进行训练，而潜在状态zt则使用变分自编码器的范式下进行训练，

【技术特征摘要】

1.一种人形机器人自适应步态转换方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种人形机器人自适应步态转换方法，其特征在于：在步骤s1中，选择源运动和目标人型机器人的脚趾、脚踝、膝盖、肘部和手作为关键点。

【专利技术属性】
技术研发人员：姜哲源，张世璞，黄华兴，
申请(专利权)人：松延动力北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人