【技术实现步骤摘要】
非线性工业系统数据驱动强化学习鲁棒控制方法
[0001]本专利技术涉及非线性工业系统数据驱动控制领域,尤其涉及一种非线性工业系统数据驱动强化学习鲁棒控制方法,具体非线性工业系统包括但不限于机械臂、伺服电机、倒立摆系统等。
技术介绍
[0002]随着现代工业水平的发展,非线性工业系统对于生产精度的要求越来越高,因此,非线性工业系统的控制问题一直受到关注。在实际应用中,常见的非线性工业系统,例如:工业机械臂系统、伺服电机系统、倒立摆系统等会由于装配误差、计算误差、摩擦系数波动、电磁波动、负载波动等因素引入各种扰动信号。这些扰动的存在会影响实际控制输出,进而影响最终工业产品品质。例如:机械臂系统中的负载波动可能导致整体转动惯量的变化,进而影响驱动系统输出端转速,从而降低控制精度;伺服电机系统中的计算误差、电磁波动会直接影响控制电压大小,进而影响电机输出力矩,导致输出转速不稳定;倒立摆系统中的装配误差、摩擦系数波动等也会影响驱动电机的输出力矩,从而影响摆臂在平衡位置的稳定性。这些都是现代工业生产中不可避免的一类问题,也是鲁棒控制中需 ...
【技术保护点】
【技术特征摘要】
1.一种非线性工业系统强化学习数据驱动鲁棒控制方法,其特征在于,所述方法包括:针对含有控制信道扰动的非线性工业系统,设计含有鲁棒项的代价函数,给出最优控制策略;通过数学等价转换,将最优控制策略转换为数据驱动控制策略,收集系统运行的原始数据,设计数据样本计算模型,收集数据样本到经验池中,直至形成完整数据集合,构建数据驱动控制策略迭代模型;内环迭代中计算数据驱动控制策略,外环迭代中将得到的数据驱动控制策略用于被控系统中;设计新型数据样本存储经验池,在外环迭代控制策略用于被控系统之前,提取并处理数据样本形成不完整数据集合,存储不完整数据集合到经验池,将外环迭代控制策略用于被控系统,收集新的数据样本补充经验池直至形成完整数据集合,从而再次进入双闭环框架中的内环迭代。2.根据权利要求1所述的一种非线性工业系统强化学习数据驱动鲁棒控制方法,其特征在于,所述含有鲁棒项的代价函数为:函数为:其中,J(x(t))为代价函数,为被积效用函数,为被积时间变量,U(x(t),u(t))为效用函数;Q和M是相应维数的正定矩阵,γ是正实数,为代价函数鲁棒项,x(t)为系统状态,u(t)为控制信号,为与扰动信号相关的函数。3.根据权利要求1所述的一种非线性工业系统强化学习数据驱动鲁棒控制方法,其特征在于,所述数据样本计算模型为:其中,和为数据样本,φ
c
(
·
)为评价网络激活函数,φ
a
(
·
)为行为网络激活函数,为行为网络权值参数矩阵;为单位矩阵,u
d0
(x)=u0(x)+d
u
(x)为受扰初始稳定控制策略,u0(x)为初始稳定控制策略,d
u
(x)为系统扰动信号;为矩阵克罗内科积运算;所述数据驱动控制策略迭代模型为:W
(i,j+1)
=[(Π
(i,j)
)
T
Π
(i,j)
]
‑1(Π
(i,j)
)
T
Λ
(i,j)
其中,为神经网络权值矩阵,vec(
·
)表示矩阵的列向量变换,为评价网络权值参数矩阵,Π
(i,j)
和Λ
(i,j)
为数据样本集合。4.根据权利要求1所述的一种非线性...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。