当前位置: 首页 > 专利查询>福州大学专利>正文

基于深度强化学习的流水车间新订单插入优化方法技术

技术编号:36896115 阅读:10 留言:0更新日期:2023-03-15 22:33
本发明专利技术涉及一种基于深度强化学习的流水车间新订单插入优化方法。在制造实践中常有新工单紧急插单生产,扰乱事先制定好的生产计划,有可能造成工单延误、产线闲置、设备利用率降低等问题。本发明专利技术基于事先制定的生产计划方案,重调度采用基于深度强化学习的方法,提取状态特征,以最小化新订单插入对调度目标(延误、闲置等)和系统稳定性的影响为目标,建立以机器为对象的状态特征,利用现有最优调度规则和调度理论形成动作空间,然后依据状态特征变化情况进行行为策略选取,快速调整生成满足生产需求的生产方案。产需求的生产方案。产需求的生产方案。

【技术实现步骤摘要】
基于深度强化学习的流水车间新订单插入优化方法


[0001]本专利技术属于智能制造的生产调度领域,具体涉及一种基于深度强化学习的流水车间新订单插入优化方法。

技术介绍

[0002]电子产品的普及造就了巨大的市场,目前电子产品制造业的全球化竞争不断加剧,消费者需求表现出的差异性和波动性,随着相关生产技术的不断进步,在激烈的市场竞争下,电子制造业面临着订单更新和物料情况动态变化的情况,企业需要不断提高车间的生产能力和作业柔性,提高机器利用率,适应复杂多变的市场环境更好的满足顾客的需求。

技术实现思路

[0003]本专利技术的目的在于提供一种基于深度强化学习的流水车间新订单插入优化方法,解决传统排程很难适应复杂的问题模型的生产排程重调度问题。
[0004]为实现上述目的,本专利技术的技术方案是:一种基于深度强化学习的流水车间新订单插入优化方法,本专利技术基于事先制定的生产计划方案,重调度采用基于深度强化学习的方法,提取状态特征,以最小化新订单插入对调度目标(延误、闲置等)和系统稳定性的影响为目标,建立以机器为对象的状态特征,利用现有最优调度规则和调度理论形成动作空间,然后依据状态特征变化情况进行行为策略选取,快速调整生成满足生产需求的生产方案。
[0005]相较于现有技术,本专利技术具有以下有益效果:本专利技术方法考虑了如何在新工件到达的流水车间调度环境中重新安排工作的问题,以最小化延期成本和最小化系统不稳定性为目标,设计兼顾效率和稳定性的多目标模型,通过深度强化学习算法进行优化求解,以便在给定新工件到达情形下经济、高效、快速地得到最优重调度方案。
附图说明
[0006]图1为本专利技术方法流程图。
[0007]图2为流水车间重调度问题。
[0008]图3为强化学习过程。
[0009]图4为DQN网络。
具体实施方式
[0010]下面结合附图,对本专利技术的技术方案进行具体说明。
[0011]如图1所示,本专利技术一种基于深度强化学习的流水车间新订单插入优化方法,在制造实践中经常会有新作业到达导致当前的生产计划方案不可行,通常这些新到达的工件为急单,需要更早生产,因此需要重新安排生产计划。在当前的生产计划方案下,采用基于深度强化学习的方法,依据输入状态进行行为策略选取,生成更贴近实际制造系统加工状态响应式的生产调度方案。具体包括以下步骤:步骤S1、构造流水车间问题和流水车间重调度
问题,原始工件中所有未开始生产的工序和新到达的所有工件构成了重调度的对象。步骤S2、将工件的加工信息和每台机器的加工情况输入数据管理模块,根据步骤S1所述的约束和假设构造以最小化工件总延迟和系统不稳定性为目标的重调度模型;步骤S3、将步骤S2描述的调度问题转化为一个半马尔科夫决策过程问题;步骤S4、根据目标提取多个状态特征作为重新调度点的生产状态作为目标的映射;步骤S5、将多种调度规则构成动作空间,给每台机器定义候选动作集合,与状态相关或无关的行为都应该被采纳,以充分利用现有调度规则、理论和智能体从经验中学习的能力;步骤S6、根据目标特性设置状态转移和报酬函数。步骤S7、构造智能体感知加工状态特征的深度神经网络结构,包括输入层,隐藏层,输出层。考虑到连续的生产状态,设计一个深度Q网络(adeep Q

network,DQN),将连续状态特征作为DQN的输入,可以获得每个调度规则的状态

动作值(Q值),并通过设置另外一个网络,通过梯度下降和反向传播更新目标网络的参数,减少过拟合现象,最后通过迭代积累奖励选择最优动作获得最优的重调度方案。本专利技术结合了实际生产过程中的突发情况对生产计划进行重新调度,解决了由于受到冲击导致原始生产计划不可行的问题。
[0012]本专利技术方法具体实现如下:
[0013]步骤S1、如图2所示,流水车间问题(Flow

shop scheduling problem,FSP)描述如下:现有的工件需要在M={M1,M2,

M
m
}台机器上进行加工,每个工件经由相同的工艺路线,即在机器M1上开始加工,经过机器M2,

,直到最后一台机器M
m
。调度决策就是安排工件通过每台机器的加工顺序。一般假设如下:
[0014]1)每台机器每个时刻只允许加工一道工序且不存在其他工序抢占情况;
[0015]2)每个工件都有对应机器上的加工时间,加工路径不变;
[0016]3)每台机器前的等待队列容量足够大以满足重新排列工件加工顺序的需要;
[0017]4)一个工件不能同时在不同机器上加工;
[0018]5)工件准备时间包含在加工时间内或可以忽略不计。
[0019]根据以上约束,流水车间重调度问题描述为:在已有原始生产计划s0的基础上,J表示原始生产计划中的所有工件,T时刻到达的新工件为N(时间T已经包含了新工件的备料时间),此时一部分工件的某些工序可能已经加工完成(以下称为完工工件)或者正在加工(以下称为在制工件),对于正在加工的情况,如上述约束1)所述,需要将该工件的当前工序加工完成后才能生产别的工件。因此,原始工件中所有未开始生产的工序和新到达的所有工件构成了重调度的对象。
[0020]步骤S2、将工件的加工信息和每台机器的加工情况输入数据管理模块,根据步骤S1所述的约束和假设构造以最小化工件总延迟和系统不稳定性为目标的重调度模型。约束和符号定义如下:
[0021]原始调度中工件j在机器m上的开始加工时间
[0022]原始调度中工件j在机器m上的完工时间
[0023]原始调度中工件j在机器m上的加工次序
[0024]S
m
:如果m
wip
(T)为空,S
m
=T,否则
[0025]s
mj
:工件j在机器m上的开始加工时间
[0026]p
mj
:工件j在机器m上的加工时间
[0027]c
mj
:工件j在机器m上的完工时间
[0028]o
mj
:工件j在机器m上的加工次序
[0029]y
mjj'
:在机器m上,如果工件j排在工件j'之前,则y
mjj'
=1,否则y
mjj'
=0
[0030]z
mj
:如果则z
mj
=0,否则z
mj
=1
[0031]c
j
:工件j的完工时间,c
j
=max
1≤m≤M
{c
mj
}
[0032]d
j
:工件j的交期
[0033]U:一个特别大的正数
[0034]T:新作业到达的时间
[0035]J:还未加工完成的原始工件的集合
[0036]N本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的流水车间新订单插入优化方法,其特征在于,在现有的生产计划方案下,根据新订单的到达情况,采用基于深度强化学习的方法,依据输入状态选取行为策略,生成更贴近实际制造系统加工状态响应式的生产调度方案,这个过程需要满足两个相互冲突的目标,分别为效率度量和稳定性度量,前者用于评估期望目标函数值的满意度,后者则用来评估中断前后时间表之间的变化量;具体包括以下步骤:步骤S1、流水车间问题FSP描述为:现有的工件需要在M={M1,M2,...M
m
}台机器上进行加工,每个工件经由相同的工艺路线,即在机器M1上开始加工,经过机器M2,...,直到最后一台机器M
m
;调度决策就是安排工件通过每台机器的加工顺序;假设如下:1)每台机器每个时刻只允许加工一道工序且不存在其他工序抢占情况;2)每个工件都有对应机器上的加工时间,加工路径不变;3)每台机器前的等待队列容量足够大以满足重新排列工件加工顺序的需要;4)一个工件不能同时在不同机器上加工;5)工件准备时间包含在加工时间内或可忽略不计;根据以上约束,流水车间重调度问题描述为:在已有原始生产计划s0的基础上,J表示原始生产计划中的所有工件,T时刻到达的新工件集合为N,T已经包含新工件的备料时间,此时一部分工件的某些工序可能已经加工完成即称为完工工件或者正在加工即称为在制工件,对于正在加工的情况,如约束1)所述,需要将该工件的当前工序加工完成后才能生产别的工件;因此,原始工件中所有未开始生产的工序和新到达的所有工件构成重调度的对象;步骤S2、将工件的加工信息和每台机器的加工情况输入数据管理模块,根据步骤S1中的约束和假设构造以最小化工件总延迟和系统不稳定性为目标的重调度模型:目标函数:约束条件:约束条件:约束条件:约束条件:约束条件:约束条件:约束条件:约束条件:约束条件:约束条件:约束条件:
式中,表示原始调度中工件j在机器m上的开始加工时间;表示原始调度中工件j在机器m上的完工时间;表示原始调度中工件j在机器m上的加工次序;S
m
表示如果m
wip
(T)为空,S
m
=T,否则s
mj
表示工件j在机器m上的开始加工时间;p
mj
表示工件j在机器m上的加工时间;c
mj
表示工件j在机器m上的完工时间;o
mj
表示工件j在机器m上的加工次序;y
mjj

表示在机器m上,如果工件j排在工件j

之前,则y
mjj

=1,否则y
mjj

=0;z
mj
表示如果则z
mj
=0,否则z
mj
=1;c
j
表示工件j的完工时间,c
j
=max
1≤m≤M
{c
mj
};d
j
表示工件j的交期;U表示一个特别大的正数;T表示新作业到达的时间;J表示还未加工完成的原始工件的集合;N表示所有的新工件的集合;n表示所有工件的集合,包括原始工件和新工件;n
m
表示机器m上参与重调度的工件的集合,包括新工件和未加工的原始工件;P
m
表示机器m上参与重调度的工件的加工时间总和,m
fp
(T)表示T时刻机器m上的完工工件集合,若没有则为空;m
wip
(t)表示t时刻机器m上在制工件,若没有则为空;Q
m
(t)表示t时刻还未在机器m上开始加工的工件的集合;F
m
(t)表示t时刻机器m上已经分配过的工件;表示t时刻机器m上的在制品工件已经加工的时间;其中,目标函数(1)是工件总延迟系统不稳定性的加权和;约束(2)表示系统不稳定性采用原始工件在重调度前后每台机器上开始加工时间的总偏差进行衡量;约束(3)(4)(5)(6)(7)(8)表示在重调度中T时刻机器m上的在制工件和完工工件的生产时间与原始调度保持一致;约束(9)表示对于一个工件的两道连续工序,只有在前一道工序完成后才能开始下一道工序;约束(10)表示工件在该台机器上的完工时间为开始加工时间加上加工时长;约束(11)(12)(13)描述了机器容量限制,对于同一台机器连续处理的两个工件,只有在前一个工件完成后才能开始下一个工件;约束(14)表示参与重调度的工件需要在该机器将当前加工的工件加工完成才可以加工,(15)表示所有工件的延迟总和,延迟等于该工件的完工时间减去该工件的交期;步骤S3、将步骤S2描述的流水车间重调度问题转化为一个半马尔科夫决策过程SMDP问题;首先根据目标提取多个状态特征作为重新调度点的生产状态,同时作为目标的映射,然后将多种调度规则构成动作空间,状态特征和动作空间的定义与调度问题的目标和特征紧密相关,同时考虑到连续的生产状态,设计一个深度Q网络DQN,将连续状态特征作为DQN的输入,获得每个调度规则的状态

动作值即Q值,并通过设置另外一个网络,通过梯度下降和反向传播更新目标网络的参数,减少过拟合现象,最后通过迭代积累奖励选择最优动作获得最优的重调度方案;考虑两种目标即调度成本和重调度的中断成本,前者以最小化工件总延迟表示,后者代表系统不稳定性,以机器为对象定义状态特征如下:(1)f
m,1
(t)=Q
m
(t)|/|n
m
...

【专利技术属性】
技术研发人员:李德彪汪文霞
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1