当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于动作序列隐空间的多样运动控制方法技术

技术编号:37471081 阅读:15 留言:0更新日期:2023-05-06 09:51
本发明专利技术提供一种基于动作序列隐空间的多样运动控制方法,该方法选用运动控制中的开环控制方法,将智能体的运动控制过程抽象为连续的动作序列,并将这个动作序列视为智能体的控制器,智能体通过依次执行动作序列中的每个动作以完成运动控制。然后利用变分自编码器的无监督学习方式学习控制器的隐空间,利用训练好的解码器将隐空间的值重构为动作序列,不同的隐空间中的值对应不同的控制器以控制智能体产生不同的运动模式。因此对于连续的隐空间,理论上可以得到无穷多个控制器,从而大大提升了多样性的程度。同时,本发明专利技术通过控制隐空间的值,实现了对控制器彼此之间多样性的精细控制。制。制。

【技术实现步骤摘要】
一种基于动作序列隐空间的多样运动控制方法


[0001]本专利技术机器人
,具体涉及一种基于动作序列隐空间的多样运动控制方法。

技术介绍

[0002]运动控制(Motion Control)一直是机器人领域的一个开放且具有挑战性的任务。无论是经典的运动控制方法,例如线性二次型调节器(linear quadratic regulator,LQR)[1],模型预测控制(Model Predictive Control,MPC)[2],还是如今数据驱动的基于学习的运动控制方法,例如近端策略优化(Proximal Policy Optimization,PPO)[3],深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[4]等等,目的都是得到单个最优或近似最优的控制器。然而,单一的控制器在面对变化的环境时会变得非常脆弱。设想我们的控制器只能控制智能体直行,那么当环境发生变化时,例如直行路线上出现障碍物时,控制器便会碰撞障碍物,从而导致智能体运动控制的崩溃。如果能够一次学习多个控制器,每个控制器可以控制智能体以不同方向前进,便可选择合适的控制器控制智能体绕过障碍物。因此学习多个彼此不同具有多样性的控制器是有必要的。当智能体的所处的环境发生变化时,我们可以从多个控制器中筛选合适的控制器控制智能体适应环境的变化。这一类同时学习多个彼此不同的控制器的方法被称为多样性运动控制。
[0003]基于多样性的运动控制一直是进化计算(Evolutionary Computation)和强化学习(Reinforcement Learning)领域的热门问题。而现有的基于多样性的运动控制方法普遍同时训练固定数量的控制器,通过最大化控制器之间的某种差异,使其能够控制智能体产生多样运动行为。比如在进化计算中,基于启发式的质量

多样性算法(Quality

Diversity,QD)是一类代表性的可用于多样性运动控制的方法。作为一种发散式的搜索方法,QD在训练的过程中既考虑搜索解的质量又考虑不同解之间的多样性。QD会明确地远离搜索空间中以前访问过的地方。理论上来说,QD的搜索也可以覆盖整个搜索空间。但是QD需要人为定义的行为描述符(Behavior Descriptor)去衡量搜索解的之间的差异,这无疑限制了QD方法在复杂任务上的应用。
[0004]另外,在强化学习中,研究者们也提出了一系列的工作去训练多个具有多样性的控制策略。这些方法大多采用闭环控制的方式,通过不同的多样性激励去训练固定数量的多样性控制策略[5

10]。例如,Diversity via Determinants(DvD)算法[7]利用矩阵的行列式去衡量控制器的多样性,矩阵中的每个值代表控制器与控制器之间的差异。通过将行列式的值作为激励奖励并最大化该激励奖励,DvD可以搜索到多样具有不同行为表现的控制策略。但是这类方法往往只能训练固定数量的多样化控制策略,当控制器数量逐渐增大时,方法所需要的训练资源也会随之增长。例如,对于DvD来说,随着策略数目的增加,行列式的计算将会变得棘手,这无疑限制了多样性的程度。
[0005]总而言之,现有的基于多样性的运动控制方法大多只能训练固定数量的多样化控制策略,这无疑限制了多样性的程度。同时,策略多样性是不可控的,只是鼓励策略与策略
之间的不同,而缺少了对策略与策略之间不同的精确控制,很有可能在这些控制器中没有合适的候选者能够外推到变化后的环境。最后,当控制器数量增大时,方法所需要的训练资源也会随之增长。因此,学习固定数量的多样化控制策略是存在局限性的。

技术实现思路

[0006]为解决上述问题,提供一种基于多样性的运动控制方法,本专利技术采用了如下技术方案:
[0007]本专利技术提供了一种基于动作序列隐空间的多样运动控制方法,用于控制智能体进行多样运动,其特征在于,包括以下步骤:步骤S1,训练轨迹生成器,用于产生基础的动作序列,将动作序列作为智能体的控制器;步骤S2,根据轨迹生成器产生的基础动作序列构建先验动作序列分布,来表征控制器空间的具体形式;步骤S3,构建轨迹自编码器,该轨迹自编码器具有编码器和解码器,基于先验动作序列分布不断抽样出动作序列,并输入至轨迹自编码器中进行训练,得到抽样获取的动作序列的隐空间;步骤S4,对隐空间进行采样,利用训练好的解码器将隐空间的值重构为动作序列,用于智能体在运动控制任务中执行动作并基于对应的隐空间的值展示出多样的行为控制模式。
[0008]本专利技术提供的基于动作序列隐空间的多样运动控制方法,还可以具有这样的技术特征,其中,轨迹生成器由正弦曲线和径向基核函数RBF组成,正弦曲线为两个正弦曲线神经元,视作控制信号的发生器,用于产生基础的运动模式,神经元的输出见下式:
[0009][0010][0011]式中,t为当前时间步数,f代表曲线震荡的频率,针对不同的控制任务有不同的设置,T为曲线震荡的周期对应的时间步个数;
[0012]径向基核函数用于对正弦曲线的输出进行塑形,该径向基核函数神经元的激活函数见下式:
[0013][0014][0015][0016]式中,H为RBF神经元的个数,T代表运动周期,u
i,j
代表第i个RBF神经元的第j个均值,σ为RBF神经元的标准差。
[0017]本专利技术提供的基于动作序列隐空间的多样运动控制方法,还可以具有这样的技术特征,其中,轨迹生成器的训练过程如下:步骤S1

1,初始化轨迹生成器的仿射层参数,并采用协方差矩阵自适应金华策略优化仿射层参数,将得到的最优参数赋予仿射层;步骤S1

2,将正弦曲线的输出作为智能体的扭矩控制信号,并引入径向基核函数对正弦曲线的输出进行塑形;步骤S1

3,经步骤S1

2塑形得到多个周期曲线后,通过一层仿射层对这些周期曲线进行线性加权组合,即可得到最终扭矩信号并输出,从而控制智能体完成运动控制任务。
[0018]本专利技术提供的基于动作序列隐空间的多样运动控制方法,还可以具有这样的技术
特征,其中,先验动作序列分布基于对基础动作序列进行分布化处理得到,具体构建过程如下:
[0019]将先验分布建模为一个高斯分布其均值为轨迹生成器输出的基础动作序列ξ
base
,标准差如下式所示:
[0020][0021][0022]式中,σ是一个常数,用于控制Φ中元素的值,Φ为对角矩阵,对角线上的值由函数φ(t)给出,φ(t)为一个分段函数,在运动周期的前半段[0,T/2],以η为斜率,函数值随着时间步的增大而增大,在运动控制的后半段[T/2,T],以

η为斜率,函数值随着时间步的增大而减小,以此得到先验动作序列分布的表达形式如下:
[0023][0024]至此,构建了动作序列的先验分布。
[0025]本专利技术提供的基于动作序列隐空间的多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动作序列隐空间的多样运动控制方法,用于控制智能体进行多样运动,其特征在于,包括以下步骤:步骤S1,训练轨迹生成器,用于产生基础的动作序列,将动作序列作为智能体的控制器;步骤S2,根据所述轨迹生成器产生的基础动作序列构建先验动作序列分布,来表征控制器空间的具体形式;步骤S3,构建轨迹自编码器,该轨迹自编码器具有编码器和解码器,基于所述先验动作序列分布不断抽样出动作序列,并输入至轨迹自编码器中进行训练,得到抽样获取的动作序列的隐空间;步骤S4,对所述隐空间进行采样,利用训练好的解码器将所述隐空间的值重构为动作序列,用于智能体在运动控制任务中执行动作并基于对应的隐空间的值展示出多样的行为控制模式。2.根据权利要求1所述的一种基于动作序列隐空间的多样运动控制方法,其特征在于:其中,所述轨迹生成器由正弦曲线和径向基核函数RBF组成,所述正弦曲线为两个正弦曲线神经元,视作控制信号的发生器,用于产生基础的运动模式,神经元的输出见下式:神经元的输出见下式:式中,t为当前时间步数,f代表曲线震荡的频率,针对不同的控制任务有不同的设置,T为曲线震荡的周期对应的时间步个数;所述径向基核函数用于对所述正弦曲线的输出进行塑形,该径向基核函数神经元的激活函数见下式:活函数见下式:活函数见下式:式中,H为RBF神经元的个数,T代表运动周期,u
i,j
代表第i个RBF神经元的第j个均值,σ为RBF神经元的标准差。3.根据权利要求2所述的一种基于动作序列隐空间的多样运动控制方法,其特征在于:其中,所述轨迹生成器的训练过程如下:步骤S1

1,初始化所述轨迹生成器的仿射层参数,并采用协方差矩阵自适应金华策略优化所述仿射层参数,将得到的最优参数赋予仿射层;步骤S1

2,将正弦曲线的输出作为智能体的扭矩控制信号,并引入径向基核函数对所述正弦曲线的输出进行塑形;步骤S1

3,经所述步骤S1

2塑形得到多个周期曲线后,通过一层仿射层对这些周期曲线进行线性加权组合,即可得到最终扭矩信号并输...

【专利技术属性】
技术研发人员:李伟马琰徐康
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1