基于强化学习的线性系统数据驱动模型预测控制方法技术方案

技术编号：31085165 阅读：34 留言：0更新日期：2021-12-01 12:36

本发明专利技术公开一种基于强化学习的线性系统数据驱动模型预测控制方法，能够保证控制算法的稳定性，避免模型预测控制中复杂的终端约束、终端集、终端代价设计等。包括：在开环状态下，对线性系统施加随机的输入，并测量线性系统的输出，收集N组输入

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的线性系统数据驱动模型预测控制方法

[0001]本专利技术属于控制理论领域，涉及一种基于强化学习的线性系统数据驱动模型预测控制方法。

技术介绍

[0002]模型预测控制是指利用系统的数学模型对系统未来的行为进行预测，并通过在线求解优化问题得到最优决策，具有预测、滚动优化和反馈校正的基本特征。
[0003]模型预测的有效性必须建立在对系统精确建模的基础之上。状态空间模型是一种常用的模型，不仅能够反映系统的外部关系，更能揭示系统的内部特性。但遗憾的是现实使用很难达到最佳。其原因在于：一方面，非线性被控对象大多特性复杂，很难获得准确的状态空间模型；另一方面，即便得到了状态空间模型，在实际应用中最大的问题是很多状态是不可测的，而且噪声中通常具有有色特性。这给系统的模型预测控制带来了更多的挑战。
[0004]目前，基于数据驱动的模型预测控制技术已经在工程应用中逐渐崭露头角。子空间辨识模型预测控制方法的优点是可以在线更新系统模型，适合于自适应预测控制器的设计，缺点是要求收集的历史数据满足连续轨迹同时满足持续激...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的线性系统数据驱动模型预测控制方法，其特征在于，包括：在开环状态下，对线性系统施加随机的输入，并测量线性系统的输出，收集N组输入
‑
输出轨迹，分别构建汉克尔矩阵；在采样时刻k，利用线性系统的历史轨迹求解所述汉克尔矩阵优化问题，预测得到线性系统未来的输入、输出和最小化目标函数；根据所述最小目标函数利用强化学习方法迭代更新权重直到终端代价函数收敛；将预测得到的最优控制输入中的第一个元素作为输入作用于系统，并观测系统输出，循环直到系统稳定。2.如权利要求1所述的一种基于强化学习的线性系统数据驱动模型预测控制方法，其特征在于，所述汉克尔矩阵如下式所示：征在于，所述汉克尔矩阵如下式所示：其中，u为线性系统施加随机的输入，y为线性系统的输出，为N组输入
‑
...

【专利技术属性】
技术研发人员：孙中奇，王倩，夏元清，潘俊安，张金会，戴荔，翟弟华，崔冰，詹玉峰，邹伟东，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人