【技术实现步骤摘要】
本专利技术涉及生产调度,尤其涉及一种基于双重dqn网络的热轧生产调度方法、系统及电子设备。
技术介绍
1、热轧作为钢铁生产流程中的关键环节,其生产调度的主要研究方向在于实现智能化与绿色化,对最终产品的质量、生产效率以及资源消耗情况具有直接影响。在市场竞争加剧的大环境下,客户需求趋向多元化,促使产品生产决策需综合考量多重目标。 从本质上来讲,热轧生产调度要确定候选板坯的归属轧制单元以及确定单元中板坯的排序(见图1),是一个复杂的np难组合优化问题,涉及多个相互冲突的目标。
2、传统基于经验或规则的方法主要依赖于生产管理人员的经验和直觉,缺乏系统性和科学性;数学模型建模方法较为复杂,难以适应实时性的现实需求;遗传算法、模拟退火等启发式算法往往依赖于初始解的选择,算法收敛速度和稳定性难以保证。近年来,深度强化学习(deep reinforcement learning, drl)因其强大的决策能力和自适应学习特性,在复杂优化问题中展现出巨大潜力。然而,直接将drl应用于热轧调度问题仍面临挑战,尤其是在小样本场景下如何有效构建和训
...【技术保护点】
1.一种基于双重DQN网络的热轧生产调度方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于双重DQN网络的热轧生产调度方法,其特征在于,所述板坯规格信息记录板坯的宽度、厚度、硬度;
3.根据权利要求1所述的基于双重DQN网络的热轧生产调度方法,其特征在于,所述双重DQN网络由Q网络和目标网络组成;
4.根据权利要求1所述的基于双重DQN网络的热轧生产调度方法,其特征在于,所述综合奖励函数R的表达式如下:
5.根据权利要求3所述的基于双重DQN网络的热轧生产调度方法,其特征在于,利用加权TD误差训练Q网络和目标
...【技术特征摘要】
1.一种基于双重dqn网络的热轧生产调度方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于双重dqn网络的热轧生产调度方法,其特征在于,所述板坯规格信息记录板坯的宽度、厚度、硬度;
3.根据权利要求1所述的基于双重dqn网络的热轧生产调度方法,其特征在于,所述双重dqn网络由q网络和目标网络组成;
4.根据权利要求1所述的基于双重dqn网络的热轧生产调度方法,其特征在于,所述综合奖励函数r的表达式如下:
5.根据权利要求3所述的基于双重dqn网络的热轧生产调度方法,其特征在于,利用加权td误差训练q网络和目标网络的权重参数,计算式如下:
6.根据权利要求5所述的...
【专利技术属性】
技术研发人员:李晨铄,孔航飞,周哲文,李伟,蔡茂,刘一锦,邵财盛,
申请(专利权)人:北京弥天科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。