当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于动力学新颖性搜索的足式机器人移动控制方法技术

技术编号:35297096 阅读:22 留言:0更新日期:2022-10-22 12:44
本发明专利技术涉及一种基于动力学新颖性搜索的足式机器人移动控制方法,包括:获取历史控制策略与环境交互所得的轨迹数据,以作为样本数据来训练得到相应的动力学模型;基于动力学模型,结合改进策略搜索算法,求解得到最优个体,即最优控制策略;根据最优控制策略,对应控制改变足式机器人各关节状态,完成足式机器人移动控制。与现有技术相比,本发明专利技术能够解决控制策略搜索过程中的新颖性量化误差问题、实现更高的样本利用率、提高控制策略的搜索效率和质量,从而保证足式机器人的移动控制精准性。从而保证足式机器人的移动控制精准性。从而保证足式机器人的移动控制精准性。

【技术实现步骤摘要】
一种基于动力学新颖性搜索的足式机器人移动控制方法


[0001]本专利技术涉及机器人移动控制
,尤其是涉及一种基于动力学新颖性搜索的足式机器人移动控制方法。

技术介绍

[0002]作为现代高新技术的重要象征和发展结果,机器人已经广泛应用于国民生产的各个领域,并给人类传统生产模式带来了革命性的变化。足式机器人是一种模拟步行动作的机器人,其步行动作依赖于对各个关节的动作进行协调控制。目前,针对足式机器人的移动控制,主要通过构建动力学模型,之后采用策略搜索方法,以搜索得到相应的控制参数,进而控制足式机器人完成相应的移动动作。
[0003]传统的搜索算法主要包括进化算法(evolutionary algorithms,EA)和强化学习(Reinforcement Learning,RL)两种,然而这两种算法在带有稀疏或欺骗性奖励的任务中表现不佳,对强化学习算法而言,智能体通常只能基于与环境交互所获得的经验进行学习,这使得具有欺骗性或稀疏性奖励的任务由于有效样本稀少而使智能体的训练变得非常困难,如果没有适当的探索策略,可能导致收敛到局部最优,智能体在任务中的表现会严重下降。
[0004]而为了提高强化学习中智能体的探索能力,近年来有关学者进行了大量相关工作。其中一大类工作通过提出内在奖励机制来提高探索能力,内在奖励通常被量化为状态

动作数据对的新颖程度,被用作外在奖励的补充来鼓励智能体访问罕见的状态

动作数据对。为了定义状态

动作数据对的新颖性,还提出了基于计数的方法,采用不同的密度模型来对状态数据进行近似计数。基于好奇心的探索旨在学习一个世界模型,利用世界模型的预测误差来量化状态数据的新颖性。对抗训练、噪声扰动、元梯度、熵正则化、利用过去的经验和模型集群的不确定性度量等技术在几个具有稀疏奖励的挑战性任务中也显示出了良好的结果。然而,这些优化探索的算法只关注于最终学习到的单个局部最优解的性能。策略空间中不同的局部最优可以对应不同的策略,发现不同的策略集合对于需要快速自适应和具有多个欺骗性局部最优的任务至关重要。
[0005]质量多样性(Quality

Diversity,QD)算法可以在具有欺骗性局部最优的任务中学习到不同的高性能策略,该算法根据解的质量和在预定义行为空间中的新颖性通过进化算法搜索多个解。QD算法是由新颖性搜索(Novelty Search,NS)方法衍生而来的,该方法旨在寻找新的解而不考虑解的性能质量。由于QD方法能够获得具有不同行为特征的高性能解,因此已被应用于机器人形态学设计和机器人运动自适应等多个应用中。QD算法可以根据其对于行为空间的构造进行分类。基于局部竞争的新颖性搜索(Novelty Search

Local Competition)算法基于行为空间的距离函数来优化解的行为多样性,只在行为相似的解之间比较解的质量,从而保证算法获得多个具有不同行为特征的高性能解。多维度表型精英(Multi

dimensional Archive of Phenotypic elite,Map

elite)算法基于行为空间构建了离散网格的结构化行为图。每一个网格表示某种独特的行为特性,并保存有该行为特性
的性能最高的解。虽然QD算法在一些欺骗性问题上显示出了稳健的结果,但定义行为空间和行为空间离散化所需的先验专家知识限制了将这些方法应用于具有高维度信息的任务中。此外,由于控制器大多采用非线性逼近器的方式,比如具有高维度参数的神经网络,而存储精英策略的空间复杂性使得QD算法无法适用于这类设定。
[0006]为了将QD方法扩展到高维度任务中,近年来学者们提出了几种具有自动学习行为空间的方法。例如:主成分分析(PCA)和自编码机(Auto Encoder)等降维方法被用来将高维行为特征映射到低维表示以作为行为空间;行为描述器(Behavior Descriptor,BD)的演化也被建模为一个双层优化问题,其中外环基于元适应度采用CMA

ES算法对BD模型进行优化,种群在内环中通过学习到的BD模型进行QD算法的演化。虽然降维方法可以降低数据的规模,但由于输入向量的高维,用长时轨迹作为模型输入来训练的可操作性较差。元训练方法中的双层训练范式则会导致样本利用率较低,这对于CMA

ES算法本身就较低的样本利用率来说是进一步的弱化。
[0007]综上可知,现有的足式机器人移动控制方法无法高效、高质量地生成控制策略,也就不能保证足式机器人精准地完成移动动作。

技术实现思路

[0008]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于动力学新颖性搜索的足式机器人移动控制方法,以能够解决控制策略搜索过程中的新颖性量化误差问题、实现更高的样本利用率、提高控制策略的搜索效率和质量,从而保证足式机器人的移动控制精准性。
[0009]本专利技术的目的可以通过以下技术方案来实现:一种基于动力学新颖性搜索的足式机器人移动控制方法,包括以下步骤:
[0010]S1、获取历史控制策略与环境交互所得的轨迹数据,以作为样本数据来训练得到相应的动力学模型;
[0011]S2、基于动力学模型,结合改进策略搜索算法,求解得到最优个体,即最优控制策略;
[0012]S3、根据最优控制策略,对应控制改变足式机器人各关节状态,完成足式机器人移动控制。
[0013]进一步地,所述步骤S1中轨迹数据具体为对应于不同时刻点的状态数据和动作数据。
[0014]进一步地,所述步骤S1具体包括以下步骤:
[0015]S11、基于局部样本回放机制,分别存储对应于不同历史控制策略的轨迹数据;
[0016]S12、基于神经网络模型,构建动力学模型;
[0017]S13、采用预测值与真实值之间的二次均方差作为训练损失函数,并利用获取的所有轨迹数据对动力学模型进行训练,通过改进新颖性量化范式,得到一个固定参数的动力学模型。
[0018]进一步地,所述训练损失函数具体为:
[0019][0020][0021]其中,为全局样本回放机制,i为个体的索引,即对应不同控制策略的索引,T
φ
(s
t+1
|s
t
,a
t
)为非固定参数的动力学模型,φ为对应神经网络模型参数,a
t
、s
t
分别为t时刻的状态数据、动作数据,s
t+1
为下一个时刻t+1的状态数据。
[0022]进一步地,所述改进新颖性量化范式具体为:
[0023][0024]其中,Novelty
fix

i
)为个体新颖性量化值,为固定参数的动力学模型,π
i
为第i个个体。
[0025]进一步地,所述步骤S2中改进策略搜索算法的具体过程为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动力学新颖性搜索的足式机器人移动控制方法,其特征在于,包括以下步骤:S1、获取历史控制策略与环境交互所得的轨迹数据,以作为样本数据来训练得到相应的动力学模型;S2、基于动力学模型,结合改进策略搜索算法,求解得到最优个体,即最优控制策略;S3、根据最优控制策略,对应控制改变足式机器人各关节状态,完成足式机器人移动控制。2.根据权利要求1所述的一种基于动力学新颖性搜索的足式机器人移动控制方法,其特征在于,所述步骤S1中轨迹数据具体为对应于不同时刻点的状态数据和动作数据。3.根据权利要求2所述的一种基于动力学新颖性搜索的足式机器人移动控制方法,其特征在于,所述步骤S1具体包括以下步骤:S11、基于局部样本回放机制,分别存储对应于不同历史控制策略的轨迹数据;S12、基于神经网络模型,构建动力学模型;S13、采用预测值与真实值之间的二次均方差作为训练损失函数,并利用获取的所有轨迹数据对动力学模型进行训练,通过改进新颖性量化范式,得到一个固定参数的动力学模型。4.根据权利要求3所述的一种基于动力学新颖性搜索的足式机器人移动控制方法,其特征在于,所述训练损失函数具体为:特征在于,所述训练损失函数具体为:其中,为全局样本回放机制,i为个体的索引,即对应不同控制策略的索引,T
φ
(s
t+1
|s
t
,a
t
)为非固定参数的动力学模型,φ为对应神经网络模型参数,a
t
、s
t
分别为t时刻的状态数据、动作数据,s
t+1
为下一个时刻t+1的状态数据。5.根据权利要求4所述的一种基于动力学新颖性搜索的足式机器人移动控制方法,其特征在于,所述改进新颖性量化范式具体为:其中,Novelty
fix

i
)为个体新颖性量化值,为固定参数的动力学模型,π
i
为第i个个体。6.根据权利要求5所述的一种基...

【专利技术属性】
技术研发人员:李伟徐康马琰刘翼
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1