提供用于高炉热控制的操作指令的计算机系统和方法技术方案

技术编号：37869162 阅读：15 留言：0更新日期：2023-06-15 20:58

提供了用于训练强化学习模型(130)以提供用于高炉热控制的操作指令的计算机系统(100)、计算机实施的方法和计算机程序产品。领域自适应机器学习模型(110)从作为多变量时间序列获得的并反映多个领域的相应高炉(BF1至BFn)的热状态的历史操作数据(21)，生成第一领域不变数据集(22)。通用高炉过程的瞬态模型(121)用于生成人工操作数据(24a)作为反映针对特定热控制动作(26a)的通用高炉(BFg)的热状态的多变量时间序列。生成式深度学习网络(122)通过将从历史操作数据21学习到的特征传递到人工操作数据(24a)来生成第二领域不变数据集(23a)。强化学习模型(130)通过处理组合的第一和第二领域不变数据集(22，23a)鉴于给定的目标函数来确定(1400)针对特定热控制动作(26a)的奖励(131)。根据奖励(131)，基于修改的参数(123

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】提供用于高炉热控制的操作指令的计算机系统和方法

[0001]本专利技术整体涉及用于控制高炉的系统，更具体地，涉及使用机器学习方法生成用于高炉的操作指令的方法、计算机程序产品和系统。

技术介绍

[0002]高炉(blast furnaces)被用来生产铁水作为用于钢铁的原料。高炉有非常复杂的过程需要建模，因为它们依赖于多变量的过程输入和干扰。其目的是减少材料和燃料消耗，以优化整个熔炉的效率和稳定性、热金属质量，并提高熔炉的寿命。因此，期望为复杂的生产目标限定提供优化的操作指令。

技术实现思路

[0003]通过训练由递归神经网络实施的强化学习(RL)模型以提供高炉热控制的操作指令，该技术问题通过独立权利要求的特征来解决。操作指令涉及相应的热控制动作。本文中使用的热控制动作是指为了对高炉过程进行热控制而影响执行器的任何动作。取决于控制自动化的水平，操作指令可以针对人类操作者来提供对高炉的校正控制的指导，或者它们可以直接指示高炉的热控制器，该热控制器可以在没有人类交互的情况下执行这样的指令。
[0004]由此，来自多个高炉的真实世界(测量的)操作数据与高炉过程的模拟模型(瞬态模型)一起使用，以通过强化学习来训练递归神经网络模型。这可以理解为数据级和模拟模型级的离线RL模型训练。从历史记录的数据中，可以生成多个附加特征，为高炉过程的表征提供更好的洞察力。这些特征是由从记录的原始数据实施的规则限定的现象，或者是以机器学习模型提供的预测形式可用的过程现象的预测。
[0005]当被训练时，RL模型向高...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实施的方法(1000)，用于训练强化学习模型(130)以提供用于高炉热控制的操作指令，所述方法包括：通过迁移学习训练的领域自适应机器学习模型(110)处理作为为多元时间序列获得并反映多个领域的相应高炉(BF1至BFn)的热状态的历史操作数据(21)，以生成(1100)代表所述高炉(BF1至BFn)中任一个的所述热状态的第一领域不变数据集(22)，而与所述领域无关；通过使用通用高炉过程的瞬态模型(121)，生成(1200)人工操作数据(24a)作为反映针对特定热控制动作(26a)的所述通用高炉(BFg)的热状态的多元时间序列，其中，所述瞬态模型(121)反映了通用高炉的相应的物理、化学、热和流动状况，并在交换热量、质量和动量传递时为所述通用高炉中构造的固体层的向上气体流动和向下移动提供解决方案；通过在所述历史操作数据(21)的多变量时间序列上训练的生成式深度学习网络(122)来处理所述人工操作数据(24a)，以通过将从所述历史操作数据(21)学习到的特征传递到所述人工操作数据(24a)来生成(1300)第二领域不变数据集(23a)；所述强化学习模型(130)通过处理组合的第一领域不变数据集和第二领域不变数据集(22，23a)鉴于给定的目标函数，来确定(1400)针对所述特定热控制动作(26a)的奖励(131)；以及根据所述奖励(131)，基于修改的参数(123
‑
2)重新生成(1300)所述第二领域不变数据集，其中，遗传搜索和/或贝叶斯优化算法(123
‑
1)基于所述强化学习模型(130)的当前环境(25a)和当前学习步骤的所述热控制动作(26a)输出，来指导对用于进一步热控制动作的所述修改的参数的搜索，并且重复确定(1400)步骤以学习用于将被应用于一个或多个高炉的相应操作状态的优化的热控制动作的优化的操作指令。2.根据权利要求1所述的方法，进一步包括：所述强化学习模型(130)基于特定高炉的当前操作状态数据，来预测(1700)用于生产中的所述特定高炉的至少一个执行器的优化的操作指令；在将根据所述优化的操作指令的热控制动作应用于所述至少一个执行器之后，基于在执行热控制动作之后所述特定高炉的新状态，确定(1400)所述奖励；以及如果所述奖励低于预限定阈值，则利用所述瞬态模型为一个或多个替代操作指令重新生成第二领域不变数据，用于重新训练所述强化学习模型。3.根据权利要求1或2所述的方法，其中，所述领域自适应机器学习模型(110)由具有卷积和/或递归层的生成式深度学习神经网络实施，所述生成式深度学习神经网络被训练成从所述历史操作数据(21)中提取领域不变特征作为所述第一领域不变数据集。4.根据权利要求1或2所述的方法，其中，所述领域自适应机器学习模型(110)已被训练以学习从多个高炉(BF1至BFn)到参考高炉(BFr)的对应原始数据的多个映射，其中，每个映射是相应高炉到所述参考高炉的转换的表示，并且所述多个映射对应于所述第一领域不变数据集。5.根据权利要求4所述的方法，其中，所述领域自适应机器学习模型(110)由基于CycleGAN架构的生成式深度学习架构来实施。6.根据前述权利要求中任一项所述的方法，其中，所述强化学习模型被训练以...

【专利技术属性】
技术研发人员：锡德里克，
申请(专利权)人：保尔伍斯股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人