基于双重DQN网络的热轧生产调度方法、系统及电子设备技术方案

技术编号：45133740 阅读：13 留言：0更新日期：2025-05-06 17:54

本发明专利技术提供了一种基于双重DQN网络的热轧生产调度方法、系统及电子设备，涉及生产调度技术领域。该方法包括如下步骤：收集历史热轧生产数据集并对其预处理；将预处理后的历史热轧生产数据集按照预定比例划分训练集和测试集；构建双重DQN网络，结合最小化轧制单元数量、最小化规格跳变成本和最小化未排入板坯惩罚三个目标，设计综合奖励函数；利用训练集和测试集分别训练和验证双重DQN网络，得到调度优化模型；将当前生产批次下的板坯规格信息、生产需求信息、约束条件信息输入至调度优化模型，由调度优化模型输出最优动作策略；求解最优动作策略得到最优生产调度方案。本方法可以在小样本数据情况下快速获得高质量的热轧生产调度方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生产调度，尤其涉及一种基于双重dqn网络的热轧生产调度方法、系统及电子设备。

技术介绍

1、热轧作为钢铁生产流程中的关键环节，其生产调度的主要研究方向在于实现智能化与绿色化，对最终产品的质量、生产效率以及资源消耗情况具有直接影响。在市场竞争加剧的大环境下，客户需求趋向多元化，促使产品生产决策需综合考量多重目标。从本质上来讲，热轧生产调度要确定候选板坯的归属轧制单元以及确定单元中板坯的排序（见图1），是一个复杂的np难组合优化问题，涉及多个相互冲突的目标。

2、传统基于经验或规则的方法主要依赖于生产管理人员的经验和直觉，缺乏系统性和科学性；数学模型建模方法较为复杂，难以适应实时性的现实需求；遗传算法、模拟退火等启发式算法往往依赖于初始解的选择，算法收敛速度和稳定性难以保证。近年来，深度强化学习（deep reinforcement learning, drl）因其强大的决策能力和自适应学习特性，在复杂优化问题中展现出巨大潜力。然而，直接将drl应用于热轧调度问题仍面临挑战，尤其是在小样本场景下如何有效构建和训...

【技术保护点】

1.一种基于双重DQN网络的热轧生产调度方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于双重DQN网络的热轧生产调度方法，其特征在于，所述板坯规格信息记录板坯的宽度、厚度、硬度；

3.根据权利要求1所述的基于双重DQN网络的热轧生产调度方法，其特征在于，所述双重DQN网络由Q网络和目标网络组成；

4.根据权利要求1所述的基于双重DQN网络的热轧生产调度方法，其特征在于，所述综合奖励函数R的表达式如下：

5.根据权利要求3所述的基于双重DQN网络的热轧生产调度方法，其特征在于，利用加权TD误差训练Q网络和目标网络的权重参数，计算...

【技术特征摘要】

1.一种基于双重dqn网络的热轧生产调度方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于双重dqn网络的热轧生产调度方法，其特征在于，所述板坯规格信息记录板坯的宽度、厚度、硬度；

3.根据权利要求1所述的基于双重dqn网络的热轧生产调度方法，其特征在于，所述双重dqn网络由q网络和目标网络组成；

4.根据权利要求1所述的基于双重dqn网络的热轧生产调度方法，其特征在于，所述综合奖励函数r的表达式如下：

5.根据权利要求3所述的基于双重dqn网络的热轧生产调度方法，其特征在于，利用加权td误差训练q网络和目标网络的权重参数，计算式如下：

6.根据权利要求5所述的...

【专利技术属性】
技术研发人员：李晨铄，孔航飞，周哲文，李伟，蔡茂，刘一锦，邵财盛，
申请(专利权)人：北京弥天科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人