一种数据驱动的伺服系统最优控制方法技术方案

技术编号:16836226 阅读:30 留言:0更新日期:2017-12-19 19:12
本发明专利技术采用一种数据驱动的伺服系统最优控制方法,具体包括状态误差反馈控制和基于策略迭代的自适应优化控制,其中状态误差反馈控制可以利用采样数据实时计算反馈增益K;自适应优化控制器直接使用状态误差反馈控制所得的控制量和状态误差量进行迭代计算逐渐逼近到最优控制量;该方法不需要知道具体的系统模型,只需要状态误差量可测。

A data driven servo system optimal control method

The invention adopts the servo system optimal control method driven by data, including state error feedback control and adaptive control strategy based on iteration, the state error feedback control can use the data real-time calculation of feedback gain K; adaptive optimal control directly using the state error iteration is gradually approaching to the optimal control feedback control and the state error control system; the method does not need to know the exact system model, only state error can be measured.

【技术实现步骤摘要】
一种数据驱动的伺服系统最优控制方法
本专利技术涉及直流电机伺服控制系统,属于机电控制
,具体涉及一种数据驱动的伺服系统最优控制方法。
技术介绍
在伺服系统控制中,由于动态摩擦、负载变化和外部干扰等不确定性因素的存在,系统模型会发生改变。此外,如果控制系统中存在未知参数,对这些参数的初始估计值可能与其真实值相差较大。因此,如果在控制过程中不能准确得到系统模型,就需要研究一种不依赖于系统模型的控制算法。数据驱动的控制算法直接利用采样数据替代系统模型来设计控制器,其中数据驱动的自适应动态规划算法是一种有效的最优控制方法。数据驱动的自适应动态规划理论融合了DP、RL以及函数近似等方法,本质就是利用在线或离线数据,采用函数近似结构来估计系统性能指标函数,然后依据最优性原理来获得最优的控制策略。
技术实现思路
有鉴于此,针对伺服系统不能精确建模问题,本专利技术采用一种数据驱动的伺服系统最优控制方法,该方法不需要知道具体的系统模型,只需要状态误差量可测。本专利技术的设计思路为:设直流电机伺服系统误差方程为:其中,u为控制量,e为状态误差;定义代价函数如下:其中,r(e,u)=Q(e)+uTRu,Q是正定的,R为正定对称矩阵;最终控制状态误差e在代价函数最优的条件下收敛到0,利用得到的控制量u对伺服系统进行控制。实现本专利技术的技术方案如下:一种数据驱动的伺服系统最优控制方法,包括数据驱动的状态误差反馈控制和数据驱动的自适应优化控制两部分:第一部分:数据驱动的状态误差反馈控制101、设置k=1,初始化第k-1、k时刻的系统反馈增益K(k-1)、K(k);102在时间区间[kT,(k+1)T]上,将顺序应用所述系统反馈增益K(k-1)和K(k)于伺服系统;103、采样伺服系统的状态误差,并按照式(10)、(12)到(15)计算状态误差关系矩阵A(k),ge(k)和gu(k);A(k)=A0(k)A1(k)(10)A1(k)=e((k+1/2)T)(e(kT))+(12)A0(k)=e((k+1)T)(e((k+1/2)T))+(13)然后可得:gu(k)=(A0(k)-A1(k))(K(k)-K(k-1))+(14)ge(k)=A0(k)-gu(k)·K(k)(15)其中,e(kT)、e((k+1/2)T)表示第k、(k+1/2)时刻系统状态误差,符号·+代表矩阵的伪逆;104、按照式(11)计算K(k+1)和K(k+2);其中,λ表示设定步长,为0-1之间的常数;符号||||表示矩阵的Frobenius范数。105、判断k是否小于设定阈值,即第k时刻是否已经到达了设定的截止时间T1,若是进入第二部分,否则令k=k+1,返回到步骤102;在第一部分中,状态误差反馈控制量在应用的同时不断调整,获得的输入u0和状态误差数据e可以用于下一部分的自适应优化控制器。第二部分:数据驱动的自适应优化控制设置j=0,定义φki、uj,的表达式如下φki=φi(e(tk))-φi(e(tk-1))其中j为迭代次数;φi(e),(i=1,...Nw),ψi(e,u),(i=1,...Nc),σi(e),(i=1,...Nl)为基函数;为权值,u0为状态误差反馈控制量,为uj(e)的估计值,为函数uj(e)实际值与估计值之间的逼近误差。201、基于第一部分中得到的系统状态误差,计算φki和然后获取202、基于步骤201中获取的通过式(22)计算权值其中M为正整数。通过式(23)计算权值其中l为权值的任意可能值;203、判断是否成立,若是,进入步骤204,否则令j=j+1,返回到步骤201,ε为给定阈值;204、为最优控制量的近似值,之后实时利用其对伺服系统进行控制。有益效果该方法包括状态误差反馈控制和基于策略迭代的自适应优化控制,其中状态误差反馈控制可以利用采样数据实时计算反馈增益K;自适应优化控制器直接使用状态误差反馈控制所得的控制量和状态误差量进行迭代计算逐渐逼近到最优控制量;该方法不需要知道具体的系统模型,只需要状态误差量可测。附图说明图1为数据驱动的伺服系统最优控制方法流程图。图2为初始反馈增益调整图。图3为MATLAB仿真代价函数对比图。图4为MATLAB仿真状态轨迹对比图。图5为计算完成后将两个控制量实时应用于系统所得的MATLAB仿真状态轨迹对比图。具体实施方式下面结合附图和具体实例对本专利技术进行详细说明。某直流电机伺服系统的数学模型可写作:其中,x(t)=[x1(t),x2(t)]T分别是电动机输出角位置、转子角速度,该状态量是可测的;u为控制量;F(x,u)是未知的,满足F(0,0)=0。本专利技术设计最优控制方法使得电机伺服系统达到期望状态xd=[x1d,0]T,即跟踪阶跃信号,且此时ud=0。状态误差定义为:e=x-xd且e0=x0-xd。误差系统方程为:本专利技术最终控制状态误差收敛到0。针对最优控制,需要定义代价函数如下:其中r(e,u)=Q(e)+uTRu,Q是正定的,R为正定对称矩阵。对于该代价函数作如下假设:假设1:代价函数(3)取值与控制量u有关,对于每个e0有唯一极小值。假设2:代价函数(3)对于任意分段连续的控制输入u满足数据驱动的伺服系统最优控制系统结构如图1所示,由状态误差反馈控制器和自适应优化控制器两部分组成,下面分别进行具体阐述。1.状态误差反馈控制器。对于未知伺服系统,系统信息都隐含在状态误差和输入信息中,通过系统信息采样可以建立以下数据关系式:e((k+1)T)=g(e(kT),u(kT))(4)其中g(e,u)是未知的,k=0,1,2...,T是采样周期,省略T可以将式(4)简化为:e(k+1)=g(e(k),u(k))(5)该方程包含状态误差和输入信号,揭示了系统(2)的内部特征,可以直接用来搜索合适的反馈控制量。鉴于系统(2)和系统(4)代表同一个系统,可以得到g(0,0)=0。为了使状态误差达到0,对式(5)在任意点e(k)和0点应用拉格朗日均值定理,可以得到:e(k+1)=ge(k)e(k)+gu(k)u(k)(6)其中0<θ<1。对此,作如下假设:假设3:对于任意k∈N,在每个时间区间[kT,(k+1)T]上,矩阵gu(k)和ge(k)保持不变。为保证该假设成立,应该选取足够小的采样周期T。将时间区间[kT,(k+1)T]分成两部分,在第一部分[kT,(k+1/2)T],应用反馈增益K(k-1),在第二部分应用反馈增益K(k),即设计状态误差反馈控制量为:根据假设3和式(6),可以得到状态误差关系式如下:e((k+1/2)T)=[ge(k)vgu(k)K(k-1)]e(kT)=A1(k)e(kT)(8)e((k+1)T)=[ge(k)+gu(k)K(k)]e((k+1/2)T)=A0(k)e((k+1/2)T)(9)因此可得:e(k+1)=A0(k)A1(k)e(k)=A(k)e(k)(10)明显可知,通过调节A(k)可以使得状态误差e收敛到0,通过调节反馈增益K(k)可以调节A(k),定义K(k)调节率如下:其中λ是步长,0<λ<1,应该选取较小值保证e收敛,但不能太小以保证搜索效率;符号||·||代表Frobenius范数;符号·+代表矩阵的伪逆。当||A(k)||≥1时,反馈增益K始本文档来自技高网...
一种数据驱动的伺服系统最优控制方法

【技术保护点】
一种数据驱动的伺服系统最优控制方法,其特征在于,包括数据驱动的状态误差反馈控制和数据驱动的自适应优化控制两部分:第一部分:数据驱动的状态误差反馈控制101、设置k=1,初始化第k‑1、k时刻的系统反馈增益K(k‑1)、K(k);102、在时间区间[kT,(k+1)T]上,顺序应用所述系统反馈增益K(k‑1)和K(k)于伺服系统;103、采样伺服系统的状态误差,并按照式(10)、(12)到(15)计算状态误差关系矩阵A(k),ge(k)和gu(k);A(k)=A0(k)A1(k)  (10)A1(k)=e((k+1/2)T)(e(kT))

【技术特征摘要】
1.一种数据驱动的伺服系统最优控制方法,其特征在于,包括数据驱动的状态误差反馈控制和数据驱动的自适应优化控制两部分:第一部分:数据驱动的状态误差反馈控制101、设置k=1,初始化第k-1、k时刻的系统反馈增益K(k-1)、K(k);102、在时间区间[kT,(k+1)T]上,顺序应用所述系统反馈增益K(k-1)和K(k)于伺服系统;103、采样伺服系统的状态误差,并按照式(10)、(12)到(15)计算状态误差关系矩阵A(k),ge(k)和gu(k);A(k)=A0(k)A1(k)(10)A1(k)=e((k+1/2)T)(e(kT))+(12)A0(k)=e((k+1)T)(e((k+1/2)T))+(13)然后可得:gu(k)=(A0(k)-A1(k))(K(k)-K(k-1))+(14)ge(k)=A0(k)-gu(k)·K(k)(15)其中,e(kT)、e((k+1/2)T)表示第k、(k+1/2)时刻系统状态误差,符号·+代表矩阵的伪逆;104、按照式(11)计算K(k+1)和K(k+2);其中,λ表示设定步长,为0-1之间的常数;符号||||表示矩阵的Frobenius范数。105、判断k是否小于设定阈值,若是进入第二部分,否则令k=k+1,返回到步骤102;第二部分:数据驱动的自适应优化控制设置j=0,定义φki、uj,...

【专利技术属性】
技术研发人员:甘明刚张弛陈杰窦丽华张蒙赵金刚白永强
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1