【技术实现步骤摘要】
一种机器人非提升优化迭代学习控制方法
[0001]本专利技术涉及机器人优化控制领域,尤其是一种机器人非提升优化迭代学习控制方法。
技术介绍
[0002]机器人控制技术综合机械、电子、控制、计算机等学科于一体,有着广泛的应用场景。针对切削、打磨抛光等机器人末端执行器需要与外界环境接触的复杂工作存在的高动态、非线性和时变问题,阻抗控制是主要解决方案之一,阻抗控制能使得机器人主动地调节自身阻抗特性,从而柔顺地适应未知环境。
[0003]针对执行重复运动任务的机器人系统,结构简单、性能高效的迭代学习控制能提供良好的跟踪控制解决方案:使用系统运行过程中的信息,不断修正当前批次的控制输入,从而在有限的时间实现对期望轨迹的完全跟踪。传统迭代学习控制存在控制增益难以选取的问题,优化迭代学习控制是该问题的一种解决方案。但是,一方面,优化迭代学习控制高度依赖精确的系统模型参数,另一方面,使用提升技术的优化迭代学习控制存在计算复杂度高,需要过多的实验批次来估计系统模型信息的问题。
[0004]针对上述优化迭代学习控制存在的问题,有系统模型参数信息情形下和无系统模型参数信息情形下的非提升优化迭代学习控制方法应运而生。
技术实现思路
[0005]本专利技术人针对上述问题及技术需求,提出了一种机器人非提升优化迭代学习控制方法,该方法适用于有系统模型参数信息情形下和无系统模型参数信息情形下的轨迹跟踪控制。本专利技术的技术方案如下:
[0006]一种机器人非提升优化迭代学习控制方法,包括如下步骤:
[ ...
【技术保护点】
【技术特征摘要】
1.一种机器人非提升优化迭代学习控制方法,其特征在于,所述方法包括:第一步、建立机器人阻抗控制系统的动态模型,包括:所述机器人阻抗控制系统的末端覆盖软材料,并与外界环境进行接触作业,则构建机器人阻抗控制系统的实际物理模型作为动态模型,表示为:其中,M表示机器人的质量,Δx
r
表示机器人末端的运动位移,u
f
表示输入信号,c表示阻抗系数,f
s
(
·
)表示光滑的非线性函数,f
s
(Δx
r
)表示运动位移Δx
r
带来的作用力;第二步、构建所述机器人阻抗控制系统的离散状态空间方程,包括:将所述机器人末端的运动位移和机器人末端的运动速度定义为状态变量:定义输入变量为输入信号u=u
f
,输出变量为机器人末端的运动速度则式(1)所示的系统动态模型描述为:对于式(2)所示的连续非线性系统模型,首先使用Jacobian线性化方法在平衡点Δx
r
=0[m]处得到线性化后的系统模型,再对所述线性化后的系统模型进行离散化,选取满足香农采样定理的采样周期T
s
,得到所述机器人阻抗控制系统的离散状态空间方程:式中,t表示采样时刻,k表示迭代批次,T表示批次过程的运行周期,且对于每一个重复运行周期t∈[0,T],取N个采样点;和分别表示所述机器人阻抗控制系统在第k迭代批次t采样时刻对应维度的输入、输出和状态向量;A、B和C为离散系统的参数矩阵,并满足CB满秩;假设系统每个迭代批次的初始状态保持一致,即x
k
(0)=0;定义期望参考轨迹为y
d
(t),则跟踪误差e
k
(t)定义为:e
k
(t)=y
d
(t)
‑
y
k
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)第三步、将所述离散系统的非提升优化迭代学习控制过程转化为马尔科夫决策过程,包括:定义五元组其中:代表状态空间,定义状态为跟踪误差e
k
(t+1);代表动作空间,定义动作为输入变化Δu
k+1
(t),即:Δu
k+1
(t)=u
k+1
(t)
‑
u
k
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)f代表状态转移函数,定义为:e
k+1
(t+1)=e
k
(t+1)
‑
CAΔx
k+1
(t)
‑
CBΔu
k+1
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中,Δx
k+1
(t)为状态变化,即:
Δx
k+1
(t)=x
k+1
(t)
‑
x
k
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)代表收益函数,定义为:其中,收益函数由两部分组成,分别为跟踪误差和批次间输入信号变化,分别用对称正定权重矩阵Q和R来表示其优先级,即Q=Q
T
>0且R=R
T
>0;所述跟踪误差和批次间输入信号变化的诱导范数定义为:γ代表折扣因子,且存在范围γ∈(0,1],γ的大小决定了未来收益的现在价值;当前批次的状态值函数定义为:第四步、设计系统模型参数信息已知情形下的非提升优化迭代学习控制轨迹跟踪算法,包括:上述转化的马尔科夫决策过程是一个沿迭代轴的线性二次调节问题,状态值是二次型的,因此式(10)还表示为:其中,P是一个对称正定矩阵;同时,基于近似动态规划,根据式(8)和式(9),式(10)还表示为:将式(11)进一步代入式(12)中,得到:根据式(13)对Δu
k+1
(t)求二次型最优解,得到迭代学习更新律:u
k+1
(t)=u
k
(t)+L
e
e
k
(t+1)+L
x
Δx
k+1
(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)其中,L
e
为误差项学习增益,L
x
为批次间状态变化项学习增益,分别为:L
e
=(γB
T
C
T
PCB+R)
‑1γB
T
C
T
P
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)L
x
=
‑
(γB
T
C
T
PCB+R)
‑1γB
T
C
T
PCA
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)将式(11)代入式(13),得到:式(17)进一步表示为:
其中,D1=I
‑
CBL
e
,D2=
‑
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。