用于构建强化学习模型的方法、装置、电子设备及介质制造方法及图纸

技术编号：26763729 阅读：22 留言：0更新日期：2020-12-18 23:29

本申请实施例公开了用于构建强化学习模型的方法、装置、电子设备及计算机可读存储介质，涉及大数据、深度学习技术领域。该方法的一具体实施方式包括：建立分解炉喂煤量与分解炉温度之间的第一仿真模型；建立窑头喂煤量与窑电流、二次风温、烟室温度之间的第二仿真模型；建立篦下压力、第一仿真模型输出的分解炉温度和第二仿真模型输出的窑电流、二次风温、烟室温度与游离钙含量之间的预测模型；将第一仿真模型、第二仿真模型以及预测模型，按预设的强化学习模型架构构建表征喂煤量与游离钙含量之间关联的强化学习模型。该实施方式将强化学习的概念应用于水泥行业熟料煅烧的喂煤量控制方面，实现了降本增效。

全部详细技术资料下载

【技术实现步骤摘要】
用于构建强化学习模型的方法、装置、电子设备及介质
本申请涉及数据处理
，具体涉及大数据、深度学习
，尤其涉及用于构建强化学习模型的方法、装置、电子设备及计算机可读存储介质。
技术介绍
水泥的生产过程主要有三个阶段：生料的开采和研磨、生料煅烧成熟料、熟料的再加工。其中生料煅烧成熟料是一个非常复杂的过程，过程中消耗的煤电成本很大。在煅烧过程中，主要有煤电的消耗，其中煤耗比重最大，即如何在煅烧阶段合理的管控喂煤量，是水泥行业降本增效的关键。
技术实现思路
本申请实施例提出了一种用于构建强化学习模型的方法、装置、电子设备及计算机可读存储介质。第一方面，本申请实施例提出了一种用于构建强化学习模型的方法，包括：建立分解炉喂煤量与分解炉温度之间的第一仿真模型；建立窑头喂煤量与窑电流、二次风温、烟室温度之间的第二仿真模型；建立篦下压力、第一仿真模型输出的分解炉温度和第二仿真模型输出的窑电流、二次风温、烟室温度与游离钙含量之间的预测模型；将第一仿真模型、第二仿真模型以及预测模型，按预设的强化学习模型架构...

【技术保护点】
1.一种用于构建强化学习模型的方法，包括：/n建立分解炉喂煤量与分解炉温度之间的第一仿真模型；/n建立窑头喂煤量与窑电流、二次风温、烟室温度之间的第二仿真模型；/n建立篦下压力、所述第一仿真模型输出的分解炉温度和所述第二仿真模型输出的窑电流、二次风温、烟室温度与游离钙含量之间的预测模型；/n将所述第一仿真模型、所述第二仿真模型以及所述预测模型，按预设的强化学习模型架构构建表征喂煤量与游离钙含量之间关联的强化学习模型；其中，所述喂煤量包括分解炉喂煤量和窑头喂煤量。/n

【技术特征摘要】
1.一种用于构建强化学习模型的方法，包括：
建立分解炉喂煤量与分解炉温度之间的第一仿真模型；
建立窑头喂煤量与窑电流、二次风温、烟室温度之间的第二仿真模型；
建立篦下压力、所述第一仿真模型输出的分解炉温度和所述第二仿真模型输出的窑电流、二次风温、烟室温度与游离钙含量之间的预测模型；
将所述第一仿真模型、所述第二仿真模型以及所述预测模型，按预设的强化学习模型架构构建表征喂煤量与游离钙含量之间关联的强化学习模型；其中，所述喂煤量包括分解炉喂煤量和窑头喂煤量。

2.根据权利要求1所述的方法，还包括：
接收目标场景下给定的目标游离钙含量；
利用所述强化学习模型确定与所述目标游离钙含量对应的理论喂煤量；其中，所述理论喂煤量包括理论分解炉喂煤量和理论窑头喂煤量；
根据所述理论喂煤量指导所述目标场景下的分解炉喂煤操作和窑头喂煤操作。

3.根据权利要求2所述的方法，还包括：
获取当前的分解炉温度，并根据所述第一仿真模型确定与当前的分解炉温度对应的仿真分解炉喂煤量；
响应于所述仿真分解炉喂煤量与所述理论分解炉喂煤量间的第一差异超过第一预设阈值，根据所述第一差异的正负对分解炉进行温度调控。

4.根据权利要求2所述的方法，还包括：
获取当前的窑电流、二次风温、烟室温度，并根据所述第二仿真模型确定与当前的窑电流、二次风温、烟室温度对应的仿真窑头喂煤量；
响应于所述仿真窑头喂煤量与所述理论窑头喂煤量间的第二差异超过第二预设阈值，根据所述第二差异对所述窑电流、所述二次风温、所述烟室温度进行调整。

5.根据权利要求1至4任一项所述的方法，其中，所述按预设的强化学习模型架构构建表征喂煤量与游离钙含量之间关联的强化学习模型，包括：
按Actor-Critic强化学习模型架构构建表征喂煤量与游离钙含量之间关联的强化学习模型。

6.根据权利要求5所述的方法，其中，所述按Actor-Critic强化学习模型架构构建表征喂煤量与游离钙含量之间关联的强化学习模型，包括：
将分解炉喂煤量、窑头喂煤量、篦下压力构建为以三维向量表示的Action；
至少将上一时刻的分解炉温度、窑电流、二次风温、烟室温度，当前时刻的分解炉温度、窑电流、二次风温、烟室温度、篦下压力，以及所述预测模型输出的游离钙含量的预测值分别作为一个维度，构建为以十维向量表示的State；每次执行完成一个Action之后，State都将通过预设的仿真环境更新；
将输出的游离钙含量的预测值是否在预设的目标值范围内、当前的喂煤量作为Reward；
基于Action、State和Reward构建得到表征喂煤量与游离钙含量之间关联的强化学习模型。

7.一种用于构建强化学习模型的装置，包括：
第一仿真模型建立单元，被配置成建立分解炉喂煤量与分解炉温度之间的第一仿真模型；
第二仿真模型建立单元，被配置成建立窑头喂煤量与窑电流、二次风温、烟室温度之间的第二仿真模型；
预测模型建立单元，被配置成建立篦下压力、所述第一仿真模型输出的分解炉温度和所述第二仿真模型输出的窑电流、二次风温、烟室温度与游离钙含量之间的预测模型；
强化学习模型构建...

【专利技术属性】
技术研发人员：刘颖，解鑫，许铭，齐月震，李瑞锋，白璐，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人