【技术实现步骤摘要】
一种基于约束多目标深度强化学习的挥发窑温度场优化方法
[0001]本申请涉及挥发窑温度场预测
,具体公开了一种基于约束多目标深度强化学习的挥发窑温度场优化方法
。
技术介绍
[0002]挥发窑以焦粒或无烟煤为热源和还原剂,用于还原
、
挥发浸出渣或低品位物料中的铅
、
锌
、
锡及稀散金属的卧式回转窑
。
以锌冶炼过程为例,挥发窑以浸出渣和焦炭组成的混合物为原料,在高温反应下发生一系列复杂的氧化还原反应,然后从混合物中分离出含锌氧化物
。
[0003]而在挥发窑中包括了两个相互冲突的生产目标:锌回收率和碳排放
。
而在目前的挥发窑冶炼过程中,通常以消耗过量的焦炭为代价来保持高的锌回收率,这导致大量的碳排放
。
但是过量的碳排放将对经济和社会产生重大影响,甚至破坏生态平衡,所以在挥发窑冶炼过程中,企业需要保证锌回收率的前提下,尽可能减少碳排放
。
[0004]挥发窑的温度场是影响锌回收率和碳排放的最重要的工艺参数,因为它为化学反应提供了高温反应氛围
。
具体而言,挥发窑内偏高的温度分布对应着高锌回收率和高碳排放量,反之亦然
。
所以在挥发窑的冶炼控制过程中,对挥发窑的温度场进行优化能够获取最佳温度场,从而平衡锌回收率和碳排放量
。
[0005]而优化温度场比优化离散温度点更有难度,因为优化温度场涉及由无数单个温度点组成的不同温度分布 ...
【技术保护点】
【技术特征摘要】
1.
一种基于约束多目标深度强化学习的挥发窑温度场优化方法,其特征在于,包括以下步骤:步骤
S1
,以挥发窑的温度场作为决策变量,锌回收率
、
碳排放量作为优化目标,并考虑过程约束,将挥发窑的温度场优化描述为一个典型的多目标优化问题;步骤
S2
,设计了一个称为不可控因子的评估指标来量化温度场的可控性约束;步骤
S3
,采用深度强化学习算法中的动态惩罚方法来处理温度场的可控性约束;步骤
S4
,以切比雪夫标量化函数作为约束深度强化学习算法的动作选择机制,并通过训练其中的深度神经网络来获得优化结果
。2.
根据权利要求1所述的一种基于约束多目标深度强化学习的挥发窑温度场优化方法,其特征在于,在所述约束多目标深度强化学习算法中,各表达式分别如下:状态空间:
S
=
[s1,s2,
…
,s
j
]
=
[T
s1
,T
s2
,
…
,T
sj
],j
=
1,2,
…
,n
式中,
S
表示状态空间
、
由多个物料温度点组成;动作空间:式中,
A
表示动作空间
、
表示状态
s1对应采取的动作
a
;奖励函数:
R
=
f(x)+p(x)
式中,
R
表示奖励向量
、p(x)
是因违反约束而受到的惩罚项
、f(x)
是挥发窑生产过程中的技术指标;动作选择机制:式中,
L
∞
(x)
是切比雪夫度量
、f
o
(x)
表示目标
o
对应的技术指标
、
参考点是学习过程中的一个动态参数;损失函数:式中,
L(
θ
)
表示损失函数
、y
是由目标网络获得的目标值
、s,a,R,s',w
分别表示当前状态
、
当前动作
、
当前奖励
、
下一时刻状态以及偏好向量
、
θ
表示深度
Q
网络中需要学习的参数
。3.
根据权利要求2所述的一种基于约束多目标深度强化学习的挥发窑温度场优化方法,其特征在于,所述约束多目标深度强化学习算法中,通过下式作为不可控因子的可控性评估指标以量化温度场的可控性:式中:
G(z)
为不可控因子,并且该值越大,控制成本就越大;
T
...
【专利技术属性】
技术研发人员:李勇刚,唐峰润,朱红求,阳春华,黄科科,莫凡,易佞纯,
申请(专利权)人:中南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。