一种基于深度强化学习的镰刀弯控制策略生成方法技术

技术编号:39494000 阅读:9 留言:0更新日期:2023-11-24 11:19
本发明专利技术公开了一种基于深度强化学习的镰刀弯控制策略生成方法,包括:收集热粗轧带钢轧制过程中的中间坯数据作为样本数据并进行数据预处理;建立并训练基于

【技术实现步骤摘要】
一种基于深度强化学习的镰刀弯控制策略生成方法


[0001]本专利技术涉及带钢热粗轧生产领域,具体涉及一种基于深度强化学习的镰刀弯控制策略生成方法


技术介绍

[0002]随着国民经济的日益发展,特别是汽车制造

航空航天

家用电器和精密仪表等行业的迅猛发展,人们对带钢的需求越来越大,对其产品质量要求也越来越高

镰刀弯现象是困扰带材生产的难点问题,易使出口带钢产生楔形,甚至引起生产出现甩尾

堆钢等事故,严重影响产品质量与正常生产,造成巨大的经济损失与资源浪费

[0003]由于热粗轧非线性

时变性等特征和生产数据的多样性,各种因素并不单一存在,而往往互相影响,导致镰刀弯缺陷问题产生机理十分复杂,传统的控制方法难以满足热轧现场的生产要求

通常情况下,镰刀弯控制主要依靠操作人员手动调整带钢生产输入特征,不仅在精确度上有所欠缺,且存在一定的滞后性

因此提供一种适应带钢生产环境的镰刀弯控制方法对于带钢生产质量的提升尤为重要


技术实现思路

[0004]本专利技术的目的在于提供一种基于深度强化学习的镰刀弯控制策略生成方法,通过利用深度学习

强化学习建模热粗轧带钢镰刀弯的产生及控制过程,自动计算后续道次中带钢生产的工艺参数设定值,保证带钢生产的中间坯平直,提高热粗轧生产的自动化率与带钢质量

[0005]为实现上述目的,本专利技术提出了一种基于深度强化学习的镰刀弯控制策略生成方法,包括以下步骤:
[0006]S1)
收集热粗轧带钢轧制过程中的工艺参数作为中间坯输入数据,中间坯弯曲状态的量化数据作为中间坯响应数据,并对中间坯输入数据和中间坯响应数据进行预处理,所述预处理按照顺序分为异常数据处理

标准化处理

中心线偏移量平滑处理

计算中间坯镰刀弯弯曲量和数据合并五个部分;
[0007]S2)
建立并训练基于
XGBoost
算法的镰刀弯弯曲量预测模型,该模型根据输入的轧制工艺参数的特征输出预测的镰刀弯弯曲量,所述基于
XGBoost
算法的镰刀弯弯曲量预测模型由某轧制道次的输入数据,即轧制工艺参数预测得到该道次结束时的镰刀弯弯曲量,实现对镰刀弯弯曲状态的模拟,通过训练得到训练好的基于
XGBoost
算法的镰刀弯弯曲量预测模型;
[0008]S3)
建立基于深度确定性策略梯度算法的镰刀弯控制策略生成模型,该控制策略生成模型利用所述镰刀弯弯曲量预测模型模拟镰刀弯弯曲量搭建智能体环境,该镰刀弯控制策略生成模型基于输入数据与训练好的基于
XGBoost
算法的镰刀弯弯曲量预测模型,计算出待调整工艺参数的调整值;
[0009]S4)
对基于深度确定性策略梯度算法的镰刀弯控制策略生成模型进行训练,并保
存模型参数,得到训练好的基于深度确定性策略梯度算法的镰刀弯控制策略生成模型;
[0010]S5)
将热粗轧带钢轧制中间坯输入数据输入训练好的基于深度确定性策略梯度算法的镰刀弯控制策略生成模型,输出中间坯镰刀弯控制策略

[0011]本专利技术通过分析大量历史数据,并结合实际业务分析得到影响镰刀弯的关键工艺参数,确定待调整工艺参数集,通过控制待调整工艺参数值改善镰刀弯弯曲状态,从而实现热粗轧轧制后板坯在长度方向上的平直保证,减少了镰刀弯对带钢轧制带来的不利影响

本技术方案不采用机理模型,而是通过对热粗轧镰刀弯的生产控制流程进行建模,并基于
XGBoost
模型构建镰刀弯弯曲量预测模型和基于
DDPG
构建镰刀弯控制策略生成模型

利用强化学习中基于奖励反馈的自动控制,能够有效建模热粗轧过程中多工艺参数非线性耦合关系,从而寻找优化的待调整工艺参数值

本技术方案的实施通过自动控制,可以有效避免当前依赖人工经验带来的控制误差,并减少人工干预,降低劳动强度

同时,控制粗轧板坯的平直性,为精轧生产的稳定性提供了有力的保障

附图说明
[0012]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍

[0013]图1为基于深度强化学习的镰刀弯控制策略生成方法的流程图;
[0014]图2为基于
XGBoost
算法的镰刀弯弯曲量预测模型的预测效果图;
[0015]图3为基于
XGBoost
算法的镰刀弯弯曲量预测模型的特征重要度分析结果图;
[0016]图4为基于深度确定性策略梯度算法的镰刀弯控制策略生成模型的模型结构图;
[0017]图5为基于深度强化学习的镰刀弯控制策略生成方法实际应用流程图;
[0018]图6为基于深度确定性策略梯度算法的镰刀弯控制策略生成模型测试所有样本的结果图;
[0019]图7为基于深度确定性策略梯度算法的镰刀弯控制策略生成模型测试镰刀弯弯曲量大于5的样本的结果图;
[0020]图8为基于深度确定性策略梯度算法的镰刀弯控制策略生成模型测试镰刀弯弯曲量大于
10
的样本的结果图

具体实施方式
[0021]下面将结合说明书附图和具体实施例对本专利技术所述的方法做出进一步的解释说明

[0022]图1为本专利技术提出的一种基于深度强化学习的镰刀弯控制策略生成方法的流程图,该方法具体包括以下步骤:
[0023]S1)
收集热粗轧带钢轧制过程中的中的工艺参数
(
如轧制力

轧制速度等
)
作为中间坯输入数据,中间坯弯曲状态的量化数据作为中间坯响应数据,并对中间坯输入数据和响应数据进行预处理,所述预处理按照顺序分为异常数据处理

标准化处理

中心线偏移量平滑处理

计算中间坯镰刀弯弯曲量和数据合并五个部分,具体步骤如下:
[0024]S11)
去除中间坯输入数据中字段内容缺失

内容重复或数值超出正常范围的数据样本,将数据中的字段作为模型的输入特征信息

主要由以下步骤组成:
[0025]S111)
在热粗轧带钢轧制过程中,生产线的传感设备可收集到描述轧制工艺参数等值的中间坯输入数据和表示中间坯弯曲状态的响应数据

中间坯输入数据共有
m

n
维特征
(
轧制力

轧制速度等
)
的样本,中间坯输入数据构成的中间坯输入数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于深度强化学习的镰刀弯控制策略生成方法,其特征在于,该方法包括以下步骤:
S1)
收集热粗轧带钢轧制过程中的工艺参数作为中间坯输入数据,中间坯弯曲状态的量化数据作为中间坯响应数据,并对中间坯输入数据和中间坯响应数据进行预处理,所述预处理按照顺序分为异常数据处理

标准化处理

中心线偏移量平滑处理

计算中间坯镰刀弯弯曲量和数据合并五个部分;
S2)
建立并训练基于
XGBoost
算法的镰刀弯弯曲量预测模型,该模型根据输入的轧制工艺参数的特征输出预测的镰刀弯弯曲量,所述基于
XGBoost
算法的镰刀弯弯曲量预测模型由某轧制道次的输入数据,即轧制工艺参数预测得到该道次结束时的镰刀弯弯曲量,实现对镰刀弯弯曲状态的模拟,通过训练得到训练好的基于
XGBoost
算法的镰刀弯弯曲量预测模型;
S3)
建立基于深度确定性策略梯度算法的镰刀弯控制策略生成模型,该控制策略生成模型利用所述镰刀弯弯曲量预测模型模拟镰刀弯弯曲量搭建智能体环境,该镰刀弯控制策略生成模型基于输入数据与训练好的基于
XGBoost
算法的镰刀弯弯曲量预测模型,计算出待调整工艺参数的调整值;
S4)
对基于深度确定性策略梯度算法的镰刀弯控制策略生成模型进行训练,并保存模型参数,得到训练好的基于深度确定性策略梯度算法的镰刀弯控制策略生成模型;
S5)
将热粗轧带钢轧制中间坯输入数据输入训练好的基于深度确定性策略梯度算法的镰刀弯控制策略生成模型,输出中间坯镰刀弯控制策略
。2.
根据权利要求1所述的基于深度强化学习的镰刀弯控制策略生成方法,其特征在于,所述步骤
S1)
具体包括:
S11)
去除中间坯输入数据中字段内容缺失

内容重复或数值超出正常范围的数据样本,主要由以下步骤组成:
S111)
在热粗轧带钢轧制过程中,生产线的传感设备收集到中间坯输入数据和中间坯响应数据,中间坯输入数据共有
m

n
维特征的样本,中间坯输入数据构成的中间坯输入数据集
F
m,n
用矩阵表示为:其中,
f
xy
表示第
x
个样本的第
y
维特征值,
x
表示样本编号,
y
表示特征编号,
x

1,2,...,m

y

1,2,...,n

S112)

f
xy
的数值为空或该数值表现异常,则去除编号为
x
的样本,即去除数据集
F
m,n
中的
[f
x1
,

,f
xn
]

S113)
若存在
n
维特征值完全相同的样本数据,即
[f
x1
,

,f
xn
]

[f
x
′1…
f
x

n
]
相同,其中
x

1,2,...,m

x


1,2,...,m

x≠x

,则去掉编号为
x

的样本,即去除中间坯输入数据集
F
m,n
中的
[f
x
′1…
f
x

n
]
;由于经过步骤
S112)

S113)
处理后的中间坯输入数据集
F
m,n
中某些样本会被去掉,所以经过步骤
S11)
处理后的中间坯输入数据集为
F
m

,n
,其样本数为
m


m

≤m

S12)
使用
z

score
标准化方法对经过步骤
S11)
处理后的中间坯输入数据集进行标准化,包括以下步骤:
S121)
计算数据特征的均值与标准差,针对中间坯输入数据集
F
m

,n

y
维特征的均值与标准差分别为:均值标准差其中,
f
iy
表示任意第
i
个样本的第
y
维特征值,
i

1,2,...,m


S122)
对中间坯输入数据集
F
m

,n
进行
z

socre
标准化,
F
m

,n
中任一样本
f
iy
进行
z

socre
标准化后为:
S123)
经过步骤
S122)
处理后的中间坯输入数据集表示为:
S13)
利用
Savitzky

Golay
滤波器对中间坯响应数据中的中间坯中心线偏移量这一特征进行平滑处理,包括以下步骤:
S131)
中间坯中心线偏移量为由中间坯响应数据构成的中间坯响应数据集中的
DATACONTENT
字段内容,记录了中间坯的中心线偏移情况,中间坯中心线偏移量表示为
S

[s1,s2,...,s
L
]

s1,s2,...,s
L
由在轧道方向上等间距采样得到,
s1与
s
L
分别代表采样起点与采样终点,
s
l

l

1,2,...,L
的值为中间坯中心线与轧道中心线的第
l
个偏移量;
S132)
采用
Savitzky

Golay
滤波器对中间坯中心线偏移量进行平滑处理,其公式为:设一个长度为
2m+1
的滑动窗口内的一组数据为
s[
ω
]

ω


m,

m+1,...,0,...,m

1,m

ω
的取值为
2m+1
个连续的整数值,现构造一个
H
阶,
H≤2m+1
多项式
f(
ω
)
来拟合数据
s[
ω
]
:其中,是
S

l
个数据点
s
l
的滤波结果;
m

Savitzky

Golay
滤波器的阶数也即窗口的长度,用于指定滑动窗口的大小,必须为正奇数;
s
l+
ω
是以
S
中第
l
个数据点
s
l
为中心

长度为
2m+1
的滑动窗口内的第
ω
个数据点,该数据点由多项式
f(
ω
)
拟合得到,
b
h
表示多项式系数,
h

1,2,...,H

c
ω

Savitzky

Golay
滤波器系数,由最小二乘法拟合多项式求得;经过平滑处理后的中间坯中心线偏移量表示为
S14)
利用平滑处理后的中间坯中心线偏移量计算中间坯的镰刀弯弯曲量,并作为新特征添加至中间坯响应数据集中,包括以下步骤:
S141)
定义镰刀弯弯曲量计算方法:其中,
bending
为镰刀弯弯曲量,为中最大值;与分别表示平滑处理后的中间坯采样起点和采样终点的中心线偏移量;
S142)
中间坯响应数据共有
p

q
维特征的样本,
m

p
,其构成的中间坯响应数据集
G
p,q
使用数据矩阵表示为:其中,
g
x

y


x


1,2,

,p

y


1,2,

,q
表示某一样本的某一特征值,
x

代表样本编号,
y

代表特征编号,新增
bending
特征使
G
p,q
的特征维度扩充至
q+1
维,得到
G
p,q+1
:采用步骤
S141)
给出的方法得到镰刀弯弯曲量
S15)
利用中间坯输入数据与中间坯响应数据中的共有字段
——
中间坯板材编号,对步骤
S12)
处理得到的中间坯输入数据集与步骤
S14)
处理得到的中间坯响应数据集
G
p,q+1
进行拼接,进而得到数据集
dataset
,具体为:将处理后的中间坯输入数据集与处理后的中间坯响应数据集根据共有特征
——
中间坯板材编号进行左连接拼接,且处理后的中间坯响应数据集仅取镰刀弯弯曲量
bending
,得到数据集
dataset
:将镰刀弯弯曲量
bending
作为镰刀弯控制策略生成的依据,中间坯输入数据与中间坯响应数据中的样本为一一对应关系,数据集
dataset
样本数为
m

。3.
根据权利要求2所述的基于深度强化学习的镰刀弯控制策略生成方法,其特征在于,所述步骤
S2)
具体包括:
S21)
将数据集
dataset
划分为训练集与测试集,随机抽取数据集
dataset

80
%的数据作为训练集
trainset1
,其余数据作为测试集
testset1

S22)
使用
XGBoost
算法默认参数对基于
XGBoost
算法的镰刀弯弯曲量预测模型进行训练,根据模型性能衡量指标:平均绝对误差
MAE
与均方误差
MSE
,对该镰刀弯弯曲量预测模型
的参数进行调整,保存符合预测效果要求的模型参数,得到训练好的基于
XGBoost
算法的镰刀弯弯曲量预测模型,步骤
S22)
包括以下子步骤:
S221)

trainset1
中的镰刀弯弯曲量
bending
特征作为输出
Y
train

trainset1
中的其余特征作为输入
X
train
,建立基于
XGBoost
算法的镰刀弯弯曲量预测模型,并使用
XGBoost
算法默认参数进行训练,得到训练好的基于
XGBoost
算法的镰刀弯弯曲量预测模型;
S222)

testset1
中的镰刀弯弯曲量
bending
特征作为镰刀弯弯曲量的真实值
Y
test

Y
test
由实际生产过程中采集到的中间坯中心线偏移量数据计算得到,
testset1
中的其余特征作为训练好的基于
XGBoost
算法的镰刀弯弯曲量预测模型的输入
X
test
,得到镰刀弯弯曲量的预测值
Y
predict

S223)
使用
Y
predict

Y
test
的均方误差与平均绝对误差对训练好的基于
XGBoost
算法的镰刀弯弯曲量预测模型的预测效果进行评估,并通过调整该镰刀弯弯曲量预测模型的模型参数优化模型的预测效果,保存符合预测效果要求的模型参数,其中,平均绝对误差与均方误差的公式分别为:平均绝对误差:均方误差:其中,
m

为样本数量,
|
·
|
表示求绝对值,
y
i
为根据实际生产记录中的镰刀弯中心线偏移量计算镰刀弯弯曲量的实际值
Y
test
,为镰刀弯弯曲量预测模型输出的预测值
Y
predict
。4.
根据权利要求3所述的基于深度强化学习的镰刀弯控制策略生成方法,其特征在于,所述步骤
S3)
具体包括:
S31)
将数据集
dataset
重新划分为训练集与测试集,随机抽取数据集
dataset

80
%的数据作为训练集
trainset2
,其余数据作为测试集
testset2

S32)
所述基于深度确定性策略梯度算法的镰刀弯控制策略生成模型将中间坯作为智能体,智能体状态由中间坯输入特征和镰刀弯弯曲量组成,智能体的动作是工艺参数的调整值,智能体环境指由当前智能体状态及动作得到智能体的下一状态,该镰刀弯控制策略生成模型利用中间坯输入特征和镰刀弯弯曲量,计算出待调整工艺参数的调整值,包括以下步骤:
S321)
智能体状态
state
由中间坯输入特征和镰刀弯弯曲量构成,作为基于深度确定性策略梯度算法的镰刀弯控制策略生成模型的输入,第
i
个样本的状态表示为:个样本的状态表示为:是样本编号为
i
的样本对应特征编号为
j
的特征值,
i

1,2,

,m

,j

1,2,

,n

g
i(q+1)
为样本编号为
i
的样本的镰刀弯弯曲量;
S322...

【专利技术属性】
技术研发人员:刘峤李垒刘序江佟飘张志鹏李正豪侯睿代婷婷甘洋镭蓝天罗许胡浩然
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1