一种基于深度强化学习的离散制造车间鲁棒调度优化方法技术

技术编号:35368502 阅读:11 留言:0更新日期:2022-10-29 18:09
本发明专利技术公开了一种基于深度强化学习的离散制造车间鲁棒调度优化方法,包括:取历史加工数据,利用神经网络拟合工序加工时长关于设备、操作员以及生产初始时刻的函数;建立工厂车间的加工环境模型,加工环境模型包括可运行设备数量、在岗操作员以及中间产品的库存数;获取当天需要加工的产品数量;根据加工环境模型以及当天需要加工的产品数量构建离散制造车间鲁棒调度问题,该离散制造车间鲁棒调度问题的目标函数为最小化最大完工时间与最小化完工时间同交付时间的差值;对离散制造车间鲁棒调度问题进行求解。本发明专利技术能够得到更加符合实际、更具鲁棒性的生产方案。更具鲁棒性的生产方案。更具鲁棒性的生产方案。

【技术实现步骤摘要】
一种基于深度强化学习的离散制造车间鲁棒调度优化方法


[0001]本专利技术属于车间调度领域,具体涉及一种基于深度强化学习的离散制造车间鲁棒调度优化方法,应用于加工时间存在不确定性的离散制造车间,该类车间不确定性因素较多,为了提高调度方案的干扰能力,本专利技术考虑典型因素加工时间,得到具有权衡鲁棒性与优化目标的调度方法。

技术介绍

[0002]生产调度,作为制造业生产管理关键一环,直接影响企业生产加工的效率与产品的交付时间。良好的调度方案能为企业提升生产能力等核心竞争力,通常传统工厂车间的调度功能是由持有丰富经验的调度员在获取所有车间设备的加工状态、订单信息、设备操作员等车间状态后,根据自身经验合理安排调度方案。受自身经验不足、生产车间不可测事件等因素影响,人为设计的调度方案难以对生产车间的突发性事件及时响应。
[0003]目前计算机技术的迅速发展与大量智能算法涌现,元启发式算法、人工智能等算法在生产调度领域得到大量成功应用。实践表明,智能算法得到的结果相比人工设计方案具有响应速度更快、方案质量更高等优势。
[0004]智能算法计算速度快,但智能算法在生产调度实施过程中,存在各种不确定因素。实际的工业现场环境复杂,不可控事件众多,在模型建立的时候难以将所有短期及长期不确定因素进行前摄性预测。目前调度理论研究主要集中在完全信息和静态确定性环境下,研究风险性和不确定性环境下项目调度的文献较少,因此在不确定条件下展开对调度理论的研究,提高方调度案的鲁棒性与稳定性,避免环境不确定的客观因造成原调度计划无法继续执行或执行存在较大偏移是该领域面临的挑战与值得有待进一步研究的问题。

技术实现思路

[0005]本专利技术的目的在于提供一种基于深度强化学习的离散制造车间鲁棒调度优化方法,得到更加符合实际、更具鲁棒性的生产方案。
[0006]为实现上述目的,本专利技术所采取的技术方案为:
[0007]一种基于深度强化学习的离散制造车间鲁棒调度优化方法,所述基于深度强化学习的离散制造车间鲁棒调度优化方法,包括:
[0008]步骤1、取历史加工数据,利用神经网络拟合工序加工时长关于设备、操作员以及生产初始时刻的函数;
[0009]步骤2、建立工厂车间的加工环境模型,所述加工环境模型包括可运行设备数量、在岗操作员以及中间产品的库存数;
[0010]步骤3、获取当天需要加工的产品数量;
[0011]步骤4、根据加工环境模型以及当天需要加工的产品数量构建离散制造车间鲁棒调度问题,该离散制造车间鲁棒调度问题的目标函数为最小化最大完工时间与最小化完工时间和交付时间的差值;
[0012]步骤5、对离散制造车间鲁棒调度问题进行求解,包括:
[0013]步骤51、选定特征,包括工序加工时长、工序的结束时间、设备利用率和工序离交付剩余时间这四个二维矩阵;
[0014]步骤52、根据四个二维矩阵基于实时加工数据将生产规程状态描述为四通道图像,基于四通道图像利用深度卷积神经网络逼近状态动作值;
[0015]步骤53、以启发式规则作为动作空间,基于深度卷积神经网络输出的状态动作值,利用Double DQN算法输出调度优化方案。
[0016]以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
[0017]作为优选,所述当天需要加工的产品数量,包括:当天订单中的产品数量,以及当天之前的订单中未完成加工的产品数量。
[0018]作为优选,所述根据加工环境模型以及当天需要加工的产品数量构建离散制造车间鲁棒调度问题,包括:
[0019]令工厂车间可运行的设备数为m,当天需要加工的产品数量为n,设备集记为M=(M1,M2,...,M
m
),当天订单中的工件集记为J=(J1,J2,...,J
n
),第i个工件J
i
共有P
i
道加工工序,i=1,2,...,n,O
ij
为工件J
i
的第j道工序,j=1,2,...,P
i
,中间产品的库存数记为工件集L=(L1,L2,...,L
P
‑1),其中P为该车间产品加工的最大工序数,S
ijk
为工件J
i
的第j道工序O
ij
在第k台设备M
k
上的开工时间,k=1,2,...,m,T
ijk
为工序O
ij
在机器M
k
上的工序加工时长,其中T
ijk
数值由步骤1训练得到的拟合函数输出;
[0020]令C
ij
为工序O
ij
的完工时间,则最大完工时间C
max
=Max(C
ij
),因此目标函数中的最小化最大完工时间可描述为函数f1=minMax(C
ij
),并且令其中RT为报工需要消耗的时间,S
i
为工件J
i
的第首个待加工工序的开工时间;
[0021]令订单中工件J
i
的交付时间为D
oi
,工件J
i
加工过程中预测交付时间为D
pi
,则目标函数中的最小化完工时间和交付时间的差值可描述为函数f2=minD,
[0022]因此目标函数最终描述为:F=min(α
·
C
max

·
D);
[0023]其中,约束条件为:
[0024]x
i,j,k
∈{0,1}
[0025][0026][0027]C
i,j
≥0
[0028]α+β=1
[0029][0030][0031]式中,x
i,j,k
为决策变量,当工序O
i,j
在设备M
k
上加工时取值为1;否则取值为0,α、β为加权权重,S
i,j+1
表示第i个工件的第j+1道工序的开工时间。
[0032]作为优选,所述特征中的工序加工时长的计算方式如下:
[0033]若当前产品为中间产品,则将当前产品已完成的工序的加工时长设置为0;
[0034]若当前产品的工序已经分配至设备,则将已分配的工序的加工时长设置为0;
[0035]若当前工序未完成且未分配,则根据步骤1中训练得到的拟合函数得到该工序的加工时长。
[0036]作为优选,所述特征中的设备利用率的计算方式如下:
[0037]设备利用率为每次加工工序所用设备的利用率,初始状态为0,所述利用率计算方式如下:利用率=设备工作时间/(当前时间

所有工件的第一个工本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的离散制造车间鲁棒调度优化方法,其特征在于,所述基于深度强化学习的离散制造车间鲁棒调度优化方法,包括:步骤1、取历史加工数据,利用神经网络拟合工序加工时长关于设备、操作员以及生产初始时刻的函数;步骤2、建立工厂车间的加工环境模型,所述加工环境模型包括可运行设备数量、在岗操作员以及中间产品的库存数;步骤3、获取当天需要加工的产品数量;步骤4、根据加工环境模型以及当天需要加工的产品数量构建离散制造车间鲁棒调度问题,该离散制造车间鲁棒调度问题的目标函数为最小化最大完工时间与最小化完工时间和交付时间的差值;步骤5、对离散制造车间鲁棒调度问题进行求解,包括:步骤51、选定特征,包括工序加工时长、工序的结束时间、设备利用率和工序离交付剩余时间这四个二维矩阵;步骤52、根据四个二维矩阵基于实时加工数据将生产规程状态描述为四通道图像,基于四通道图像利用深度卷积神经网络逼近状态动作值;步骤53、以启发式规则作为动作空间,基于深度卷积神经网络输出的状态动作值,利用Double DQN算法输出调度优化方案。2.如权利要求1所述的基于深度强化学习的离散制造车间鲁棒调度优化方法,其特征在于,所述当天需要加工的产品数量,包括:当天订单中的产品数量,以及当天之前的订单中未完成加工的产品数量。3.如权利要求1所述的基于深度强化学习的离散制造车间鲁棒调度优化方法,其特征在于,所述根据加工环境模型以及当天需要加工的产品数量构建离散制造车间鲁棒调度问题,包括:令工厂车间可运行的设备数为m,当天需要加工的产品数量为n,设备集记为M=(M1,M2,...,M
m
),当天订单中的工件集记为J=(J1,J2,...,J
n
),第i个工件J
i
共有P
i
道加工工序,i=1,2,...,n,O
ij
为工件J
i
的第j道工序,j=1,2,...,P
i
,中间产品的库存数记为工件集L=(L1,L2,...,L
P
‑1),其中P为该车间产品加工的最大工序数,S
ijk
为工件J
i
的第j道工序O
ij
在第k台设备M
k
上的开工时间,k=1,2,...,m,T
ijk
为工序O
ij
在机器M
k
上的工序加工时长,其中T
ijk
数值由步骤1训练得到的拟合函数输出;令C
ij

【专利技术属性】
技术研发人员:郭方洪姜滨姚晗刘师硕吴祥董辉俞立陈积明
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1