基于临界状态循环网络的肌肉骨骼机器人控制方法及装置制造方法及图纸

技术编号:34476051 阅读:26 留言:0更新日期:2022-08-10 08:51
本发明专利技术提供一种基于临界状态循环网络的肌肉骨骼机器人控制方法及装置,方法包括:基于循环网络,得到输入信号对应的控制信号,并基于控制信号控制肌肉骨骼机器人移动至目标位置;循环网络训练步骤包括:基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至临界网络,得到样本控制信号;基于样本控制信号对应的样本实际位置、样本控制信号对应的样本目标位置以及循环网络的谱半径,确定样本奖励信号;基于样本奖励信号,更新临界网络的权重,得到循环网络。本发明专利技术能够精确控制肌肉骨骼机器人运动至目标位置。位置。位置。

【技术实现步骤摘要】
基于临界状态循环网络的肌肉骨骼机器人控制方法及装置


[0001]本专利技术涉及机器人控制
,尤其涉及一种基于临界状态循环网络的肌肉骨骼机器人控制方法及装置。

技术介绍

[0002]与传统的关节连杆机器人相比,仿生肌肉骨骼式机器人具有柔顺性、灵活性、鲁棒性和安全性等优点。然而,肌肉骨骼机器人的复杂结构也给控制带来了许多挑战和困难。具体来说,肌肉骨骼机器人的肌肉数目多于关节自由度,具有强冗余性,这使得肌肉控制信号具有庞大的解空间。此外,肌肉之间的强耦合性使得无法控制单个肌肉。复杂的肌肉模块和关节的强非线性使得难以建立肌肉骨骼机器人的精确模型。
[0003]目前,肌肉骨骼机器人的控制方法主要分为基于模型的方法和无模型的方法。在基于模型的方法中,需要建立肌肉骨骼机器人的任务空间、关节空间和肌肉空间之间关系的显式数学模型。其中,基于建立的模型设计了任务空间反馈控制器、迭代学习控制器、自适应控制器、神经模糊控制器、滑模控制器等来计算肌肉的控制信号,但其中大多数基于模型的方法都只在一些简单的肌肉骨骼系统或复杂肌肉骨骼式机器人的部分关节和肌肉中进行验证,不适用于复杂的肌肉骨骼式机器人完成复杂任务。此外,也有基于无模型的方法来控制肌肉骨骼机器人,即无需建立机器人系统的显式数学模型,其主要通过监督学习和强化学习来实现对肌肉骨骼机器人的控制,但由于肌肉控制信号解空间庞大,基于监督学习的方法需要大量样本,很难在现实世界中应用,而基于深度强化学习的无模型方法虽然不需要监督样本,并在仿真的肌肉骨骼机器人系统上取得了良好的性能,但这些基于深度强化学习的方法需要高维反馈状态,而由于传感器类型和精度的限制,在肌肉骨骼机器人的实际应用中只能观察或利用部分反馈状态,进而可能会显著影响肌肉骨骼机器人的控制精度。

技术实现思路

[0004]本专利技术提供一种基于临界状态循环网络的肌肉骨骼机器人控制方法及装置,用以解决现有技术中肌肉骨骼机器人控制精度较低的缺陷。
[0005]本专利技术提供一种基于临界状态循环网络的肌肉骨骼机器人控制方法,包括:
[0006]确定肌肉骨骼机器人的输入信号;
[0007]将所述输入信号输入至循环网络,得到所述循环网络输出的控制信号;
[0008]基于所述控制信号,控制所述肌肉骨骼机器人移动至目标位置;
[0009]其中,所述循环网络基于如下步骤训练得到:
[0010]基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;
[0011]将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络,得到所述临界网络输出的样本控制信号,所述样本位
置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定;
[0012]基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号;
[0013]基于所述样本奖励信号,更新所述临界网络的权重,直至所述临界网络达到收敛条件,得到所述循环网络。
[0014]根据本专利技术提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法,所述临界状态权重条件基于如下公式确定:
[0015][0016][0017]r
t
=(1

α)r
t
‑1+α(W
i
x
t
+W
h
h
t
‑1+b)
[0018]h
t
=tanh(r
t
)
[0019]其中,表示施加到r
t
上的瞬时噪声向量,为网络在t时刻的输入信号,和分别为循环网络隐藏层神经元在t时刻的膜电位和激活频率,为所述偏置向量,为连接循环网络输入层神经元和隐藏层神经元的输入权重,为循环网络隐藏层神经元之间相互连接的循环权重,为循环网络输出权重的矩阵。
[0020]根据本专利技术提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法,所述当前时刻的样本目标位置基于如下公式确定:
[0021][0022]其中,表示所述当前时刻的样本目标位置,O表示起始时刻的样本位置,t
F
表示肌肉骨骼机器人的运动持续时间,P表示所述终点时刻的样本目标位置。
[0023]根据本专利技术提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法,所述基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号,包括:
[0024]基于所述样本控制信号对应的样本实际位置以及所述样本控制信号对应的样本目标位置,确定所述样本控制信号对应的位置误差;
[0025]基于终点时刻的样本目标位置以及终点时刻的样本实际位置,确定终点时刻对应的位置误差;
[0026]基于所述样本控制信号对应的位置误差、所述终点时刻对应的位置误差以及当前循环网络的谱半径,确定所述样本奖励信号。
[0027]根据本专利技术提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法,所述样本奖励信号基于如下公式确定:
[0028][0029]其中,R表示持续了S个时刻的样本奖励信号,e
t
表示所述样本控制信号对应的位
置误差,e
end
表示所述终点时刻对应的位置误差,ρ(W
h
)表示循环权重W
h
的谱半径,γ1,γ2,γ3和γ4表示加权系数常数。
[0030]根据本专利技术提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法,所述基于所述样本奖励信号,更新所述临界网络的权重,包括:
[0031]基于所述样本奖励信号,确定所述样本奖励信号的期望;
[0032]基于所述样本奖励信号、所述样本奖励信号的期望以及随机噪声,更新所述临界网络的权重。
[0033]本专利技术还提供一种基于临界状态循环网络的肌肉骨骼机器人控制装置,包括:
[0034]确定单元,用于确定肌肉骨骼机器人的输入信号;
[0035]输出单元,用于将所述输入信号输入至循环网络,得到所述循环网络输出的控制信号;
[0036]控制单元,用于基于所述控制信号,控制所述肌肉骨骼机器人移动至目标位置;
[0037]其中,所述循环网络基于如下步骤训练得到:
[0038]基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;
[0039]将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络,得到所述临界网络输出的样本控制信号,所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定;
[0040]基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号;
[0041本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于临界状态循环网络的肌肉骨骼机器人控制方法,其特征在于,包括:确定肌肉骨骼机器人的输入信号;将所述输入信号输入至循环网络,得到所述循环网络输出的控制信号;基于所述控制信号,控制所述肌肉骨骼机器人移动至目标位置;其中,所述循环网络基于如下步骤训练得到:基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络,得到所述临界网络输出的样本控制信号,所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定;基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号;基于所述样本奖励信号,更新所述临界网络的权重,直至所述临界网络达到收敛条件,得到所述循环网络。2.根据权利要求1所述的基于临界状态循环网络的肌肉骨骼机器人控制方法,其特征在于,所述临界状态权重条件基于如下公式确定:在于,所述临界状态权重条件基于如下公式确定:r
t
=(1

α)r
t
‑1+α(W
i
x
t
+W
h
h
t
‑1+b)h
t
=tanh(r
t
)其中,表示施加到r
t
上的瞬时噪声向量,为网络在t时刻的输入信号,和分别为循环网络隐藏层神经元在t时刻的膜电位和激活频率,为所述偏置向量,为连接循环网络输入层神经元和隐藏层神经元的输入权重,为循环网络隐藏层神经元之间相互连接的循环权重,为循环网络输出权重的矩阵。3.根据权利要求1所述的基于临界状态循环网络的肌肉骨骼机器人控制方法,其特征在于,所述当前时刻的样本目标位置基于如下公式确定:其中,表示所述当前时刻的样本目标位置,O表示起始时刻的样本位置,t
F
表示肌肉骨骼机器人的运动持续时间,P表示所述终点时刻的样本目标位置。4.根据权利要求1至3任一项所述的基于临界状态循环网络的肌肉骨骼机器人控制方法,其特征在于,所述基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号,包括:基于所述样本控制信号对应的样本实际位置以及所述样本控制信号对应的样本目标位置,确定所述样本控制信号对应的位置误差;
基于终点时刻的样本目标位置以及终...

【专利技术属性】
技术研发人员:陈嘉浩王萧娜乔红
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1