当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于约束多目标深度强化学习的挥发窑温度场优化方法技术

技术编号:39796645 阅读:11 留言:0更新日期:2023-12-22 02:29
本发明专利技术涉及挥发窑温度场优化技术领域,具体公开了一种基于约束多目标深度强化学习的挥发窑温度场优化方法,包括以下步骤:步骤

【技术实现步骤摘要】
一种基于约束多目标深度强化学习的挥发窑温度场优化方法


[0001]本申请涉及挥发窑温度场预测
,具体公开了一种基于约束多目标深度强化学习的挥发窑温度场优化方法


技术介绍

[0002]挥发窑以焦粒或无烟煤为热源和还原剂,用于还原

挥发浸出渣或低品位物料中的铅



锡及稀散金属的卧式回转窑

以锌冶炼过程为例,挥发窑以浸出渣和焦炭组成的混合物为原料,在高温反应下发生一系列复杂的氧化还原反应,然后从混合物中分离出含锌氧化物

[0003]而在挥发窑中包括了两个相互冲突的生产目标:锌回收率和碳排放

而在目前的挥发窑冶炼过程中,通常以消耗过量的焦炭为代价来保持高的锌回收率,这导致大量的碳排放

但是过量的碳排放将对经济和社会产生重大影响,甚至破坏生态平衡,所以在挥发窑冶炼过程中,企业需要保证锌回收率的前提下,尽可能减少碳排放

[0004]挥发窑的温度场是影响锌回收率和碳排放的最重要的工艺参数,因为它为化学反应提供了高温反应氛围

具体而言,挥发窑内偏高的温度分布对应着高锌回收率和高碳排放量,反之亦然

所以在挥发窑的冶炼控制过程中,对挥发窑的温度场进行优化能够获取最佳温度场,从而平衡锌回收率和碳排放量

[0005]而优化温度场比优化离散温度点更有难度,因为优化温度场涉及由无数单个温度点组成的不同温度分布模式,此外,工艺约束也增加了温度场优化的难度,即挥发窑温度场优化难度大,导致挥发窑的最优温度场难以获得等问题,因此,专利技术人有鉴于此,提供了一种基于约束多目标深度强化学习的挥发窑温度场优化方法,以便解决上述问题


技术实现思路

[0006]本专利技术的目的在于解决传统的挥发窑温度场优化难度大,导致其最优温度场难以高效获得的问题

[0007]为了达到上述目的,本专利技术的基础方案提供一种基于约束多目标深度强化学习的挥发窑温度场优化方法,包括以下步骤:
[0008]步骤
S1
,以挥发窑的温度场作为决策变量,锌回收率

碳排放量作为优化目标,并考虑过程约束,将挥发窑的温度场优化描述为一个典型的多目标优化问题;
[0009]步骤
S2
,设计了一个称为不可控因子的评估指标来量化温度场的可控性约束;
[0010]步骤
S3
,采用深度强化学习算法中的动态惩罚方法来处理温度场的可控性约束;
[0011]步骤
S4
,以切比雪夫标量化函数作为约束深度强化学习算法的动作选择机制,并通过训练其中的深度神经网络来获得优化结果

[0012]进一步,在所述约束多目标深度强化学习算法中,各表达式分别如下:
[0013]状态空间:
[0014]S

[s1,s2,

,s
j
]=
[T
s1
,T
s2
,

,T
sj
],j

1,2,

,n
[0015]式中,
S
表示状态空间

由多个物料温度点组成;
[0016]动作空间:
[0017][0018]式中,
A
表示动作空间

表示状态
s1对应采取的动作
a

[0019]奖励函数:
[0020]R

f(x)+p(x)
[0021]式中,
R
表示奖励向量
、p(x)
是因违反约束而受到的惩罚项
、f(x)
是挥发窑生产过程中的技术指标;
[0022]动作选择机制:
[0023][0024]式中,
L

(x)
是切比雪夫度量
、f
o
(x)
表示目标
o
对应的技术指标

参考点是学习过程中的一个动态参数;
[0025]损失函数:
[0026]L(
θ
)

E
(s,a,R,s

,w)

D
[(y

Q(s,a,w

θ
))2][0027]式中,
L(
θ
)
表示损失函数
、y
是由目标网络获得的目标值
、s,a,R,s',w
分别表示当前状态

当前动作

当前奖励

下一时刻状态以及偏好向量

θ
表示深度
Q
网络中需要学习的参数

[0028]进一步,所述约束多目标深度强化学习算法中,约束多目标优化问题的关系式如下:
[0029]maxF(T
s
)

max{f1(T
s
),f2(T
s
)}
[0030]s.t.
[0031][0032]式中:
[0033]f1和
f2分别是锌回收率和碳排放量;
[0034]g
j
是第
j
个约束函数;
[0035]T
s
是关于挥发窑中物料温度的决策向量;
[0036]T
s,low

T
s,up
分别是决策变量的下界和上界

[0037]进一步,所述约束多目标深度强化学习算法中,设计了一个称为不可控因子的评估指标以量化温度场的可控性,具体表示如下:
[0038][0039]式中:
[0040]G(z)
为不可控因子,并且该值越大,控制成本就越大;
[0041]T
s
(z)
表示挥发窑在轴向位置
z
处对应的物料温度;
[0042]Δ
z
表示挥发窑沿轴向位置的位置增量

[0043]进一步,在所述采用可控性动态惩罚方法用于处理温度场的可控性约束中,采用基于梯度优化的约束聚合方法,将多个约束聚合为一个约束

[0044]进一步,所述基于梯度优化的约束聚合方法为
KS
函数,其表达式如下:
[0045][0046]式中:
[0047]ρ
用于控制约束的上限;
[0048]g
j
(x)
是第
j
个约束;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于约束多目标深度强化学习的挥发窑温度场优化方法,其特征在于,包括以下步骤:步骤
S1
,以挥发窑的温度场作为决策变量,锌回收率

碳排放量作为优化目标,并考虑过程约束,将挥发窑的温度场优化描述为一个典型的多目标优化问题;步骤
S2
,设计了一个称为不可控因子的评估指标来量化温度场的可控性约束;步骤
S3
,采用深度强化学习算法中的动态惩罚方法来处理温度场的可控性约束;步骤
S4
,以切比雪夫标量化函数作为约束深度强化学习算法的动作选择机制,并通过训练其中的深度神经网络来获得优化结果
。2.
根据权利要求1所述的一种基于约束多目标深度强化学习的挥发窑温度场优化方法,其特征在于,在所述约束多目标深度强化学习算法中,各表达式分别如下:状态空间:
S

[s1,s2,

,s
j
]

[T
s1
,T
s2
,

,T
sj
],j

1,2,

,n
式中,
S
表示状态空间

由多个物料温度点组成;动作空间:式中,
A
表示动作空间

表示状态
s1对应采取的动作
a
;奖励函数:
R

f(x)+p(x)
式中,
R
表示奖励向量
、p(x)
是因违反约束而受到的惩罚项
、f(x)
是挥发窑生产过程中的技术指标;动作选择机制:式中,
L

(x)
是切比雪夫度量
、f
o
(x)
表示目标
o
对应的技术指标

参考点是学习过程中的一个动态参数;损失函数:式中,
L(
θ
)
表示损失函数
、y
是由目标网络获得的目标值
、s,a,R,s',w
分别表示当前状态

当前动作

当前奖励

下一时刻状态以及偏好向量

θ
表示深度
Q
网络中需要学习的参数
。3.
根据权利要求2所述的一种基于约束多目标深度强化学习的挥发窑温度场优化方法,其特征在于,所述约束多目标深度强化学习算法中,通过下式作为不可控因子的可控性评估指标以量化温度场的可控性:式中:
G(z)
为不可控因子,并且该值越大,控制成本就越大;
T
...

【专利技术属性】
技术研发人员:李勇刚唐峰润朱红求阳春华黄科科莫凡易佞纯
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1