一种热风炉燃烧控制方法技术

技术编号:38252606 阅读:6 留言:0更新日期:2023-07-27 10:17
本发明专利技术涉及一种热风炉燃烧控制方法,其包括:根据第一历史燃烧性能指标通过离线学习方法得到训练后的Q网络;获取实时燃烧参数,利用训练得到的Q网络根据所述实时燃烧参数控制热风炉的煤气阀位调节方向。本发明专利技术能满足煤气流量计、空气流量计缺失或失灵时的热风炉的智能燃烧控制需求,保证模型在热风炉真实环境中应用的安全性和稳定性,提高生产效率。提高生产效率。提高生产效率。

【技术实现步骤摘要】
一种热风炉燃烧控制方法


[0001]本专利技术涉及热风炉燃烧控制
,尤其是指一种热风炉燃烧控制方法。

技术介绍

[0002]热风炉是高炉炼铁系统重要组成部分,其能耗占高炉工序能耗20%以上,同时也是碳排放大户。提高热风炉燃烧控制精度是提高风温、降低燃料消耗以及减排的重要手段,也是提高热风炉使用寿命和减轻工人劳动强度的有效措施。因此,研究热风炉优化燃烧具有重要的工程应用价值和现实意义。
[0003]热风炉燃烧是一个复杂的热交换过程,具有非线性、慢时变、滞后性等特点。热风炉燃烧控制的主要任务是保证拱顶温度快速达到设定值并维持稳定,在此前提下提高废烟气的温升速率,保证热风炉经济高效运行。目前,高炉热风炉燃烧控制的方法主要有三大类:传统控制法,如空气/煤气串级调节、交叉限幅控制等;数学模型法,以热风炉的全炉热平衡计算为基础,建立符合生产实际的控制数学模型;智能控制法,以专家系统、模糊控制、粒子群等人工智能算法为基础的热风炉智能控制。上述方法中,传统控制法存在控制滞后和控制作用强度过大的问题,而数学模型法由于需要监控的热工参数较多,所需投资大。与之相比,热风炉智能控制方法可利用智能知识来设计控制器,具有工作范围宽,适用范围广等优点,是目前发展的主流方向。
[0004]但是,基于专家系统、模糊控制和粒子群优化等智能控制方法的高炉热风炉智能优化燃烧系统均需要依赖空气流量计、煤气流量计等精确计量装置,当空气流量计等检测设备失灵时,智能优化燃烧系统会陷入瘫痪。在现实环境中,由于高炉热风炉的工作条件恶劣,所安装的热风炉残氧检测仪、空气流量计和煤气流量计很容易失灵。等到设备采购到位并更换,一般至少需要1

2个月。此外,部分热风炉受安装空间的限制,只有总管的空气流量计和煤气流量计,没有支管的空气流量计和煤气流量计。
[0005]因此,构建能够应对检测仪表缺失或失灵工况的新模型,不仅突破了现有热风炉智能控制模型边界,而且能进一步带来风温提高、燃耗降低等现实经济社会效益,具有重要理论研究意义和工程应用价值。

技术实现思路

[0006]本专利技术所要解决的技术问题在于克服现有技术中存在的不足,提供一种热风炉燃烧控制方法,其能满足煤气流量计、空气流量计缺失或失灵时的热风炉的智能燃烧控制需求,保证模型在热风炉真实环境中应用的安全性和稳定性。
[0007]按照专利技术提供的技术方案,所述热风炉燃烧控制方法包括:
[0008]根据第一历史燃烧性能指标通过离线学习方法得到训练后的深度强化学习模型;
[0009]获取实时燃烧参数,利用训练得到的深度强化学习模型根据所述实时燃烧参数控制热风炉的煤气阀位调节方向;
[0010]其中,所述离线学习方法包括:
[0011]获取第一历史燃烧性能指标,并对所述第一燃烧性能指标进行预处理;
[0012]构建深度强化学习模型,所述深度强化学习模型包括经验池、用于输出动作的Q网络以及用于输出估计值以指导所述Q网络的目标网络,所述Q网络与所述目标网络初始参数相同;
[0013]将经过预处理的第一历史燃烧性能指标输入所述经验池,所述Q网络根据所述经验池中的第一历史燃烧性能指标进行训练,并更新所述Q网络的参数;
[0014]所述Q网络将更新后的参数同步至所述目标网络。
[0015]在本专利技术的一个实施例中,还包括在线学习方法,所述在线学习为利用训练得到的Q网络根据所述实时燃烧参数控制热风炉的煤气阀位调整方向之后的步骤,所述在线学习方法包括:
[0016]获取第二历史燃烧性能指标,所述第二历史燃烧性能指标包括经预处理后的所述实时燃烧参数、所述Q网络的输出以及热风炉经所述Q网络调节后的状态;
[0017]对所述第二历史燃烧性能指标进行预处理,将经过预处理的第二历史燃烧性能指标输入所述经验池,所述Q网络根据所述经验池中的第二历史燃烧性能指标进行训练,并更新所述Q网络的参数;
[0018]所述Q网络将更新后的参数同步至所述目标网络。
[0019]在本专利技术的一个实施例中,所述第一历史性能指标包括多条状态数据,任一所述状态数据包括煤气压力、空气压力、空气阀位、煤气阀位以及拱顶温度的值,任一时刻状态数据与上一时刻和/或下一时刻的状态数据部分重叠。
[0020]在本专利技术的一个实施例中,所述Q网络的训练方法包括:
[0021]Q网络对所述第一历史燃烧性能指标进行采样,并根据采样得到的数据输出Q值,设置损失函数,将所述Q值代入所述损失函数,利用梯度下降的方法更新Q网络参数,以最小化损失函数值。
[0022]在本专利技术的一个实施例中,所述损失函数表达式为:
[0023]L(Q)=L
TD
(Q)+λ1L
TDn
(Q)+λ2L
E
(Q)+λ3L
L2
(Q)
[0024]其中,L
TD
(Q)表示Q学习损失,L
TDn
(Q)表示n步时序差分损失,L
E
(Q)表示大间距分类损失,L
E2
(Q)表示正则化损失,λ1~λ3表示权重。
[0025]在本专利技术的一个实施例中,所述Q学习损失L
TD
(Q)的表达式为:
[0026][0027][0028]其中,R(s
t
,a
t
)表示状态s
t
下执行动作a
t
获得的奖励,γ表示折扣系数,θ表示Q网络参数,Q(s
t
,a
t
;θ)表示参数为θ的Q网络在输入状态为s
t
,对应动作为a
t
的输出,θ

表示目标网络参数,a
t+1max
表示参数为θ的Q网络在输入状态为s
t+1
,Q值最大时所选的动作,s
t+1
表示热风炉在t+1时刻的状态,Q(s
t+1
,a
t+1max
;θ

)表示参数为θ

的目标网络在输入状态为s
t+1
,对应动作为a
t+1max
的输出。
[0029]在本专利技术的一个实施例中,所述n步时序差分损失的表达式为:
[0030][0031]其中,R
t
~R
t+n
‑1表示t~t+n

1时刻的奖励。
[0032]在本专利技术的一个实施例中,所述大间距分类损失L
E
(Q)的表达式为:
[0033][0034][0035]其中,A表示动作空间,s
t
表示热风炉在t时刻的状态,a表示A动作空间中的任一动作,Q(s
t
,a;θ)表示参数为θ的Q网络在输入状态s
t
下动作为a的输出,a
Et
表示t时刻的专本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种热风炉燃烧控制方法,其特征在于,包括:根据第一历史燃烧性能指标通过离线学习方法得到训练后的深度强化学习模型;获取实时燃烧参数,利用训练得到的深度强化学习模型根据所述实时燃烧参数控制热风炉的煤气阀位调节方向;其中,所述离线学习方法包括:获取第一历史燃烧性能指标,并对所述第一燃烧性能指标进行预处理;构建深度强化学习模型,所述深度强化学习模型包括经验池、用于输出动作的Q网络以及用于输出估计值以指导所述Q网络的目标网络,所述Q网络与所述目标网络初始参数相同;将经过预处理的第一历史燃烧性能指标输入所述经验池,所述Q网络根据所述经验池中的第一历史燃烧性能指标进行训练,并更新所述Q网络的参数;所述Q网络将更新后的参数同步至所述目标网络。2.根据权利要求1所述的热风炉燃烧控制方法,其特征在于,还包括在线学习方法,所述在线学习为利用训练得到的Q网络根据所述实时燃烧参数控制热风炉的煤气阀位调整方向之后的步骤,所述在线学习方法包括:获取第二历史燃烧性能指标,所述第二历史燃烧性能指标包括经预处理后的所述实时燃烧参数、所述Q网络的输出以及热风炉经所述Q网络调节后的状态;对所述第二历史燃烧性能指标进行预处理,将经过预处理的第二历史燃烧性能指标输入所述经验池,所述Q网络根据所述经验池中第二历史燃烧性能指标进行训练,并更新所述Q网络的参数;所述Q网络将更新后的参数同步至所述目标网络。3.根据权利要求1所述的热风炉燃烧控制方法,其特征在于:所述第一历史性能指标包括多条状态数据,任一所述状态数据包括煤气压力、空气压力、空气阀位、煤气阀位以及拱顶温度的值,任一时刻状态数据与上一时刻和/或下一时刻的状态数据部分重叠。4.根据权利要求1所述的热风炉燃烧控制方法,其特征在于,所述Q网络的训练方法包括:Q网络对所述第一历史燃烧性能指标进行采样,并根据采样得到的数据输出动作对应的Q值,设置损失函数,将所述Q值代入所述损失函数,利用梯度下降的方法更新Q网络参数,以最小化损失函数值。5.根据权利要求4所述的热风炉燃烧控制方法,其特征在于,所述损失函数表达式为:其中,L
TD
(Q)表示Q学习损失,表示n步时序差分损失,L
E
(Q)表示大间距分类损失,L
E2
(Q)表示正则化损失,λ1~λ3表示权重。6.根据权利要求5所述的热风炉燃烧控制方法,其特征在于,所述Q学习损失L
TD
(Q)的表达式为:
其中,R(s
t
,a
t
)表示状态s

【专利技术属性】
技术研发人员:许浩李雷
申请(专利权)人:苏州视智冶科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1