提供用于高炉热控制的操作指令的计算机系统和方法技术方案

技术编号:37869162 阅读:15 留言:0更新日期:2023-06-15 20:58
提供了用于训练强化学习模型(130)以提供用于高炉热控制的操作指令的计算机系统(100)、计算机实施的方法和计算机程序产品。领域自适应机器学习模型(110)从作为多变量时间序列获得的并反映多个领域的相应高炉(BF1至BFn)的热状态的历史操作数据(21),生成第一领域不变数据集(22)。通用高炉过程的瞬态模型(121)用于生成人工操作数据(24a)作为反映针对特定热控制动作(26a)的通用高炉(BFg)的热状态的多变量时间序列。生成式深度学习网络(122)通过将从历史操作数据21学习到的特征传递到人工操作数据(24a)来生成第二领域不变数据集(23a)。强化学习模型(130)通过处理组合的第一和第二领域不变数据集(22,23a)鉴于给定的目标函数来确定(1400)针对特定热控制动作(26a)的奖励(131)。根据奖励(131),基于修改的参数(123

【技术实现步骤摘要】
【国外来华专利技术】提供用于高炉热控制的操作指令的计算机系统和方法


[0001]本专利技术整体涉及用于控制高炉的系统,更具体地,涉及使用机器学习方法生成用于高炉的操作指令的方法、计算机程序产品和系统。

技术介绍

[0002]高炉(blast furnaces)被用来生产铁水作为用于钢铁的原料。高炉有非常复杂的过程需要建模,因为它们依赖于多变量的过程输入和干扰。其目的是减少材料和燃料消耗,以优化整个熔炉的效率和稳定性、热金属质量,并提高熔炉的寿命。因此,期望为复杂的生产目标限定提供优化的操作指令。

技术实现思路

[0003]通过训练由递归神经网络实施的强化学习(RL)模型以提供高炉热控制的操作指令,该技术问题通过独立权利要求的特征来解决。操作指令涉及相应的热控制动作。本文中使用的热控制动作是指为了对高炉过程进行热控制而影响执行器的任何动作。取决于控制自动化的水平,操作指令可以针对人类操作者来提供对高炉的校正控制的指导,或者它们可以直接指示高炉的热控制器,该热控制器可以在没有人类交互的情况下执行这样的指令。
[0004]由此,来自多个高炉的真实世界(测量的)操作数据与高炉过程的模拟模型(瞬态模型)一起使用,以通过强化学习来训练递归神经网络模型。这可以理解为数据级和模拟模型级的离线RL模型训练。从历史记录的数据中,可以生成多个附加特征,为高炉过程的表征提供更好的洞察力。这些特征是由从记录的原始数据实施的规则限定的现象,或者是以机器学习模型提供的预测形式可用的过程现象的预测。
[0005]当被训练时,RL模型向高炉的主执行器提供操作指令的推荐,诸如例如:风口和鼓风设定点,如煤粉喷射(PCI)速率(kg/s)、鼓风流动速率(Nm3/s)、富氧度(%)等,和/或负载成分和装载设定点,如焦炭率(公斤/装载)、碱度、负载分配等。所提供的推荐确保了当过程处于热平衡时,在由虚拟操作者(自治级别5至最大自治级别)或人工操作者手动实施上述推荐后,目标函数将得到优化。目标由高炉专家限定,并且可以由多个目标组成,例如(1)燃料消耗最小化,(2)高炉寿命最大化,(3)CO2拒绝最小化,(4)稳定高炉操作的铁质量和量。每个目标被加权(例如,由专家)以限定用于训练RL模型的全局目标。当模型被训练并部署在生产中时,它可以继续从全局目标和实际目标之间的偏差中连续学习(在线RL模型训练),实际目标是在针对相应高炉的热控制执行推荐的操作指令之后达到的。
[0006]在一个实施例中,提供了计算机实施的方法,用于训练强化学习模型以提供高炉热控制的操作指令。例如,强化学习模型可以由递归神经网络实施。
[0007]通过迁移学习训练的领域自适应机器学习模型处理从多个领域的多个高炉获得的作为多元时间序列的历史操作数据。历史操作数据反映了多个领域相应高炉的热状态。典型地,每个高炉有几千个传感器测量操作参数,诸如例如温度、压力、化学含量等。在特定
时间点测量的这些参数限定了高炉在该时间点的相应热状态。由于每个高炉的多种特性(例如,操作模式、尺寸、输入材料(材料成分)等),如果不对多元时间序列数据进行专门的转换,则无法直接比较两个高炉(源高炉和目标高炉)。
[0008]领域自适应机器学习模型生成代表任何高炉的热状态的第一领域不变数据集作为输出,而与领域无关。历史操作数据通常在过去从响应于相应的热控制动作的多个不同的高炉(例如,不同尺寸、在不同条件下操作等)收集。典型地,每个高炉对应于特定的领域,但是领域也可以是高炉的特定操作。领域自适应机器学习模型被训练以对从不同领域获得的数据执行一种归一化操作,以便最终这些数据变得可比较。
[0009]可以使用不同的迁移学习方法。例如,领域自适应机器学习模型可以由具有卷积和/或递归层的深度学习神经网络实施,该深度学习神经网络被训练成从历史操作数据中提取领域不变特征作为第一领域不变数据集。在该实施例中,实施迁移学习以从历史操作数据中提取领域不变特征。深度学习中的特征是从由该特定高炉的操作生成的多变量时间序列数据中提取的特定高炉特征的抽象表示。通过应用迁移学习,可以从多个独立于特定熔炉(即独立于各种领域)的真实世界高炉中提取领域不变特征。
[0010]在替代方法中,领域自适应机器学习模型已被训练以学习从多个高炉到参考高炉的对应原始数据的多个映射。参考高炉可以是代表通用高炉的虚拟高炉,也可以是实际高炉。每个映射是相应特定高炉到参考高炉的转换的表示。在这种方法中,多个映射对应于第一领域不变数据集。例如,这种领域自适应机器学习模型可以由基于CycleGAN架构的生成式深度学习架构来实施,CycleGAN架构在伪图像生成中很流行。CycleGAN是GAN架构的扩展,涉及两个生成器模型和两个鉴别器模型的同时训练。一个生成器将来自第一领域的数据作为输入并输出用于第二领域的数据,而另一生成器将来自第二领域的数据作为输入并生成用于第一领域的数据。然后使用鉴别器模型来确定生成的数据的可信程度,并相应地更新生成器模型。CycleGAN对架构使用了附加的扩展,称为循环一致性。背后的想法是,第一生成器输出的数据可以用作第二生成器的输入,第二生成器的输出应该与原始数据匹配。反过来也是正确的:第二生成器的输出可以作为输入馈送到第一生成器,并且结果应该与第二生成器的输入相匹配。
[0011]循环一致性(Cycle consistency)是机器翻译中的概念,其中从英语翻译到法语的短语应该从法语翻译回英语,并且与原始短语相同。相反的过程也应该是正确的。CycleGAN通过增加附加的损失来测量第二生成器的生成输出和原始图像之间的差异,反之亦然,从而促进循环一致性。这充当生成器模型的正则化,指引新领域中的图像生成过程朝向图像翻译。为了使原始CycleGAN架构从图像处理适应于多变量时间序列数据的处理以获得第一领域不变数据集,可以通过使用递归层(例如LSTM)结合卷积层来实施以下修改,以学习多变量时间序列数据的时间依赖性,如C.Schockaert,H.Hoyez,(2020)“MTS

CycleGAN:An Adversarial

based Deep Mapping Learning Network for Multivariate Time Series Domain Adaptation Applied to the Ironmaking Industry(应用于炼铁工业的多变量时间序列领域适应的基于对抗性的深度映射学习网络)”,载于arXiv:2007.07518。
[0012]所获得的第一领域不变数据集表示高炉的热状态,所述热状态是在将相应的热控制动作应用于相应的高炉之后存在的。在领域自适应之后,该表示不再与特定的高炉相关
联(或者以学习到参考高炉的映射的形式,或者以提取的公共特征的形式)。
[0013]同时,通用高炉过程的瞬态模型用于生成人工操作数据,作为反映针对特定热控制动作的通用高炉在应用特定控制动作之后转变到的热状态的多元时间序列。通用高炉是虚拟设备(类似于参考高炉)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实施的方法(1000),用于训练强化学习模型(130)以提供用于高炉热控制的操作指令,所述方法包括:通过迁移学习训练的领域自适应机器学习模型(110)处理作为为多元时间序列获得并反映多个领域的相应高炉(BF1至BFn)的热状态的历史操作数据(21),以生成(1100)代表所述高炉(BF1至BFn)中任一个的所述热状态的第一领域不变数据集(22),而与所述领域无关;通过使用通用高炉过程的瞬态模型(121),生成(1200)人工操作数据(24a)作为反映针对特定热控制动作(26a)的所述通用高炉(BFg)的热状态的多元时间序列,其中,所述瞬态模型(121)反映了通用高炉的相应的物理、化学、热和流动状况,并在交换热量、质量和动量传递时为所述通用高炉中构造的固体层的向上气体流动和向下移动提供解决方案;通过在所述历史操作数据(21)的多变量时间序列上训练的生成式深度学习网络(122)来处理所述人工操作数据(24a),以通过将从所述历史操作数据(21)学习到的特征传递到所述人工操作数据(24a)来生成(1300)第二领域不变数据集(23a);所述强化学习模型(130)通过处理组合的第一领域不变数据集和第二领域不变数据集(22,23a)鉴于给定的目标函数,来确定(1400)针对所述特定热控制动作(26a)的奖励(131);以及根据所述奖励(131),基于修改的参数(123

2)重新生成(1300)所述第二领域不变数据集,其中,遗传搜索和/或贝叶斯优化算法(123

1)基于所述强化学习模型(130)的当前环境(25a)和当前学习步骤的所述热控制动作(26a)输出,来指导对用于进一步热控制动作的所述修改的参数的搜索,并且重复确定(1400)步骤以学习用于将被应用于一个或多个高炉的相应操作状态的优化的热控制动作的优化的操作指令。2.根据权利要求1所述的方法,进一步包括:所述强化学习模型(130)基于特定高炉的当前操作状态数据,来预测(1700)用于生产中的所述特定高炉的至少一个执行器的优化的操作指令;在将根据所述优化的操作指令的热控制动作应用于所述至少一个执行器之后,基于在执行热控制动作之后所述特定高炉的新状态,确定(1400)所述奖励;以及如果所述奖励低于预限定阈值,则利用所述瞬态模型为一个或多个替代操作指令重新生成第二领域不变数据,用于重新训练所述强化学习模型。3.根据权利要求1或2所述的方法,其中,所述领域自适应机器学习模型(110)由具有卷积和/或递归层的生成式深度学习神经网络实施,所述生成式深度学习神经网络被训练成从所述历史操作数据(21)中提取领域不变特征作为所述第一领域不变数据集。4.根据权利要求1或2所述的方法,其中,所述领域自适应机器学习模型(110)已被训练以学习从多个高炉(BF1至BFn)到参考高炉(BFr)的对应原始数据的多个映射,其中,每个映射是相应高炉到所述参考高炉的转换的表示,并且所述多个映射对应于所述第一领域不变数据集。5.根据权利要求4所述的方法,其中,所述领域自适应机器学习模型(110)由基于CycleGAN架构的生成式深度学习架构来实施。6.根据前述权利要求中任一项所述的方法,其中,所述强化学习模型被训练以...

【专利技术属性】
技术研发人员:锡德里克
申请(专利权)人:保尔伍斯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1