基于Q学习算法的轧机压下控制方法技术

技术编号：41233978 阅读：2 留言：0更新日期：2024-05-09 23:48

本发明专利技术公开了一种基于Q学习算法的轧机压下控制方法，包括：获取轧机压下控制系统的轧制力的目标值和输出值；基于获取的轧制力的目标值和输出值，根据三个PID参数Q值表确定PID控制器的PID参数，PID参数Q值表利用预设Q学习算法预先获取；根据获取的轧制力的目标值和输出值、以及PID参数，得到PID控制器的输出；将PID控制器的输出叠加到轧机压下控制系统的输入，以调整轧机压下控制系统的轧制力的输出值。本发明专利技术的基于Q学习算法的轧机压下控制方法通过采用Q学习算法预先学习获取不同轧制力输入输出状态下对应的PID控制器的最优PID参数，能够实现目标值跟踪特性和干扰抑制特性的同时最优化控制，提高轧机轧制力的控制调节精度，保证有载辊缝的调控精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及轧机控制，尤其涉及一种基于q学习算法的轧机压下控制方法。

技术介绍

1、对于不锈钢极薄带而言，特别是0.015mm及以下钢带，厚度精度的控制是生产工艺、能源消耗最重要的衡量指标，在轧制生产过程中，不锈钢厚度通过轧机的液压自动厚度控制系统进行控制，为此，轧机的液压自动厚度控制系统是轧机的核心部分，其性能的优劣将直接影响轧机的生产精度及产品质量，也是影响带材薄化、板形控制精度的关键技术。

2、典型的液压板厚自动控制系统由液压、控制、机械和电气系统等组成。在实际轧制中，受到液压伺服系统精度、自动控制系统控制精度、工艺瞬时条件和来料性质随机变化等多方面因素的共同影响，为了轧制出满足厚度精度要求的板带轧件产品，不仅要正确设定好初始空载辊缝，而且要在轧制过程中随轧制条件变化及时准确地调整辊缝以保证不锈钢极薄带的厚度，而这些都是通过设定和调整压下位置来实现。

3、目前，液压板厚自动控制系统中的各个压下控制系统的控制方式通常为pid控制方式，根据系统模型和各种性能指标，将控制器确定为pid形式的情况下，调整pid控制器的pid参数，使由控制对象、控制器、执行元件、反馈元件等组成的控制回路的动态特性与静态特性能满足期望的水平，达到理想的控制目标。

4、然而，在实际应用中，所采用的pid控制器的pid参数通常不是最优的，难以使目标值跟踪特性和干扰抑制特性同时达到最优，导致压下控制回路的动态特性与静态特性无法满足期望的水平，进而无法达到理想的控制目标。

技术实现思路

1、为解决上述现有技术中存在的部分或全部技术问题，本专利技术提供一种基于q学习算法的轧机压下控制方法。

2、本专利技术的技术方案如下：

3、提供了一种基于q学习算法的轧机压下控制方法，所述方法包括：

4、获取轧机压下控制系统的轧制力的目标值和输出值；

5、基于获取的轧制力的目标值和输出值，根据三个pid参数q值表确定pid控制器的pid参数，pid参数q值表利用预设q学习算法预先获取；

6、根据获取的轧制力的目标值和输出值、以及pid参数，得到pid控制器的输出；

7、将pid控制器的输出叠加到轧机压下控制系统的输入，以调整轧机压下控制系统的轧制力的输出值。

8、在一些可能的实现方式中，所述pid参数q值表利用以下方式获取：

9、步骤s201，初始化三个pid参数q值表；

10、步骤s202，设定迭代变量eps＝1；

11、步骤s203，确定初始时刻的轧制力状态，将初始时刻的轧制力状态作为当前轧制力状态，轧制力状态包括轧制力的目标值和输出值；

12、步骤s204，利用预设衰变控制策略计算确定ε-greedy策略的探测率ε；

13、步骤s205，设定时间步长变量t＝0；

14、步骤s206，判断t是否大于或等于预设阈值，若是，则执行步骤s213，若否，则使t的数值增加1，并继续执行下一步；

15、步骤s207，根据当前轧制力状态，利用ε-greedy策略选择动作，动作包括三个pid参数；

16、步骤s208，根据选择的动作，调整pid控制器，确定经pid控制器调节后的轧制力的输出值；

17、步骤s209，确定下一个轧制力状态，并利用预设奖励策略计算即时奖励；

18、步骤s210，分别利用预设学习率调整策略自适应调整三个pid参数对应的学习率；

19、步骤s211，分别利用贝尔曼方程更新三个当前轧制力状态-pid参数对的q值；

20、步骤s212，将获取的下一个轧制力状态作为当前轧制力状态，并返回步骤s206；

21、步骤s213：判断eps是否大于或等于预设最大迭代次数，若是，则输出更新q值后的q值表，若否，则使eps的数值增加1，并返回步骤s203。

22、在一些可能的实现方式中，衰变控制策略定义为：

23、

24、其中，e0表示预先设定的判定阈值。

25、在一些可能的实现方式中，奖励策略定义为：

26、

27、其中，rt表示即时奖励，fn(t+1)表示第t+1步时的轧制力的输出值，fn(t)表示第t步时的轧制力的输出值，fnref表示给定的轧制力的目标值，δf表示给定的轧制力判定阈值。

28、在一些可能的实现方式中，学习率调整策略定义为：

29、

30、其中，αt+1表示第t+1步时的学习率，αt表示第t步时的学习率，δαt表示学习率调节量，k为给定数值，k＞0，φ表示给定的对应于折扣因子的数值，0＜φ＜1，δt表示第t步时的时间差误差，δt-1表示第t-1步时的时间差误差。

31、在一些可能的实现方式中，所述方法还包括：

32、对轧制力进行离散化处理，以将轧制力数值划分为多个区间，属于同一个区间的轧制力视为相同的状态，且采用同一组pid参数进行控制。

33、在一些可能的实现方式中，所述方法用于二十辊可逆式轧机的压下控制过程。

34、在一些可能的实现方式中，所述方法用于二十辊可逆式轧机生产0.015mm以下厚度不锈钢的压下控制过程。

35、本专利技术技术方案的主要优点如下：

36、本专利技术的基于q学习算法的轧机压下控制方法通过采用q学习算法预先学习获取不同轧制力输入输出状态下对应的pid控制器的最优pid参数，能够实现目标值跟踪特性和干扰抑制特性的同时最优化控制，提高轧机轧制力的控制调节精度，保证有载辊缝的调控精度。

本文档来自技高网...

【技术保护点】

1.一种基于Q学习算法的轧机压下控制方法，其特征在于，包括：

2.根据权利要求1所述的基于Q学习算法的轧机压下控制方法，其特征在于，所述PID参数Q值表利用以下方式获取：

3.根据权利要求2所述的基于Q学习算法的轧机压下控制方法，其特征在于，衰变控制策略定义为：

4.根据权利要求2所述的基于Q学习算法的轧机压下控制方法，其特征在于，奖励策略定义为：

5.根据权利要求2所述的基于Q学习算法的轧机压下控制方法，其特征在于，学习率调整策略定义为：

6.根据权利要求2所述的基于Q学习算法的轧机压下控制方法，其特征在于，所述方法还包括：

7.根据权利要求1-6中任一项所述的基于Q学习算法的轧机压下控制方法，其特征在于，所述方法用于二十辊可逆式轧机的压下控制过程。

8.根据权利要求7所述的基于Q学习算法的轧机压下控制方法，其特征在于，所述方法用于二十辊可逆式轧机生产0.015mm以下厚度不锈钢的压下控制过程。

【技术特征摘要】

1.一种基于q学习算法的轧机压下控制方法，其特征在于，包括：

2.根据权利要求1所述的基于q学习算法的轧机压下控制方法，其特征在于，所述pid参数q值表利用以下方式获取：

3.根据权利要求2所述的基于q学习算法的轧机压下控制方法，其特征在于，衰变控制策略定义为：

4.根据权利要求2所述的基于q学习算法的轧机压下控制方法，其特征在于，奖励策略定义为：

5.根据权利要求2所述的基于q学习算法的轧机压...

【专利技术属性】
技术研发人员：胡尚举，赵永顺，郭璞，张瑞婷，李鹏程，尉彦昭，石晓晨，郭斌，李刚，
申请(专利权)人：山西太钢不锈钢精密带钢有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人