当前位置: 首页 > 专利查询>天津大学专利>正文

一种切换线性系统在线无模型最优控制方法技术方案

技术编号:25801279 阅读:44 留言:0更新日期:2020-09-29 18:35
本发明专利技术公开了一种切换线性系统在线无模型最优控制方法,考虑现实中难以获取准确动态模型的大系统和系统动态完全未知的情况,针对离散时间切换线性系统,在已知切换信号的情况下,定义代价函数,在不考虑切换信号的情况下,给出子系统最优控制求解方法;引入Q函数,基于Q函数重构上述的代价函数,推导Q函数贝尔曼方程并给出最优控制表达式;依据推导出的Q函数贝尔曼方程及最优控制表达式,设计基于策略迭代的Q‑learning算法,并用最小二乘法迭代地求解每个子系统的最优控制。本发明专利技术提供的设计方案在求解过程中不需要任何系统动态模型的信息,为求解模型未知切换系统最优控制问题提供了新的思路。

【技术实现步骤摘要】
一种切换线性系统在线无模型最优控制方法
本专利技术涉及切换线性系统的最优跟踪控制
,更具体地,涉及一种离散时间切换线性系统最优控制的策略迭代Q-learning方法。
技术介绍
切换系统是一类特殊的混合系统,它由多个子系统组成,并且在任何时候都只能激活一个系统。切换信号的作用是确定每个时刻被激活的个子系统。切换系统的最佳控制涉及找到最优切换顺序,子系统之间的最优切换时刻以及每个子系统的最优连续控制输入,它们之间是紧密耦合的。在实际物理系统中,系统动态模型往往由于各种原因不易或者不能获取,因此,基于系统动态模型的方法不能得以实施。除此之外,在现实应用中,切换系统的切换序列和切换时刻往往是已知的,只有子系统控制器需要根据系统性能指标进行设计。本专利技术从切换系统最优控制出发,在已知切换信号作用,系统动态模型未知的情况下,研究切换子系统最优控制器设计问题,是符合切换系统控制技术的应用和发展趋势的。强化学习,又称再励学习,是机器学习方法之一,强化学习已经被广泛用于求解最优控制问题。强化学习通过描述和解决智能体在与环境的交互过程中通过学习策本文档来自技高网...

【技术保护点】
1.一种切换线性系统在线无模型最优控制方法,其特征在于,包括如下步骤:/n步骤一、针对离散时间切换线性系统,在已知切换信号的情况下,定义代价函数,在不考虑切换信号的情况下,给出子系统最优控制求解方法;/n步骤二、引入Q函数,基于Q函数重构步骤一中的代价函数,推导Q函数贝尔曼方程并给出最优控制表达式;/n步骤三、依据步骤二中的Q函数贝尔曼方程及最优控制表达式,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个子系统的最优控制。/n

【技术特征摘要】
1.一种切换线性系统在线无模型最优控制方法,其特征在于,包括如下步骤:
步骤一、针对离散时间切换线性系统,在已知切换信号的情况下,定义代价函数,在不考虑切换信号的情况下,给出子系统最优控制求解方法;
步骤二、引入Q函数,基于Q函数重构步骤一中的代价函数,推导Q函数贝尔曼方程并给出最优控制表达式;
步骤三、依据步骤二中的Q函数贝尔曼方程及最优控制表达式,设计基于策略迭代的Q-learning算法,并用最小二乘法迭代地求解每个子系统的最优控制。


2.根据权利要求1所述的切换线性系统在线无模型最优控制方法,其特征在于,步骤一的具体步骤如下:
步骤1-1、离散时间切换线性系统的系统动态如下:



式(1)中,表示系统当前时刻的状态向量,表示系统下一时刻的状态向量,表示系统的控制向量;v(k)∈I={1,2,...,M}是切换信号,其决定在任意时刻哪个子系统被激活;是具有合适维度的常数矩阵;
步骤1-2、定义离散时间切换线性系统代价函数为:



式(2)中,z表示系统初始状态,即x(0)=z,其中效应函数ψ(x(k),u(k),v(k))选取如下二次形式:
ψ(x(k),u(k),v(k))=xT(k)Qv(k)x(k)+uT(k)Rv(k)u(k)(3)
式(3)中,u(k)∈Rm,v(k)∈I,Qv(k)是n×n维半正定对称矩阵,Rv(k)是m×m维正定对称矩阵;
步骤1-3、给定固定的混合控制(u(k),v(k)),切换系统的值函数定义为:



式(4)写成如下贝尔曼方程的形式:
V(x(k))=ψ(x(k),u(k),v(k))+V(x(k+1))(5)
基于贝尔曼最优性原理,切换系统的最优值函数满足离散哈密顿-雅可比-贝尔曼方程
V*(x(k))=min(ψ(x(k),u(k),v(k))+V(x(k+1)))(6)
通过式(6)等号两边对u(k)求偏导并令其等于0,即求得最优控制的表达式为
u*(k)=argmin(ψ(x(k),u(k),v(k))+V*(x(k+1)))(7)
步骤1-4、切换系统的子系统均为线性系统,并且效应函数为二次形式;值函数V(x(k))和相关的控制策略u(k)之间具有良好的特性;假设子系统i在时间段内[kl,kl+1)被激活,则子系统i的值函数V(x(k))是状态x(k)的二次形式,为:
V*(x(k))=xT(k)Pix(k)(8)
式(8)中,Pi为正定对称矩阵,满足被激活子系统的代数黎卡提方程:



在时间段[kl,kl+1)内,相关被激活子系统最优控制可以通过状态反馈形式来实现,控制形式如下:
u(k)=-Kix(k)(10)
相应的最优控制增益矩阵Ki为:





3.根据权利要求2所述的切换线性系统在线无模型最优控制方法,其特征在于,步骤二的具体步骤如下:
步骤2-1、基于贝尔曼方程(5),离散时间切换线性系统Q函数定义为:
Q(x(k),u(k),v(k))=ψ(x(k),u(k),v(k))+V(x(k+1))(12)
通过式(5)和式(12),得:
Q(x(k),u(k),v(k))=V(x(k))(13)...

【专利技术属性】
技术研发人员:穆朝絮周友宜
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1