【技术实现步骤摘要】
一种基于深度强化学习的离散制造车间鲁棒调度优化方法
[0001]本专利技术属于车间调度领域,具体涉及一种基于深度强化学习的离散制造车间鲁棒调度优化方法,应用于加工时间存在不确定性的离散制造车间,该类车间不确定性因素较多,为了提高调度方案的干扰能力,本专利技术考虑典型因素加工时间,得到具有权衡鲁棒性与优化目标的调度方法。
技术介绍
[0002]生产调度,作为制造业生产管理关键一环,直接影响企业生产加工的效率与产品的交付时间。良好的调度方案能为企业提升生产能力等核心竞争力,通常传统工厂车间的调度功能是由持有丰富经验的调度员在获取所有车间设备的加工状态、订单信息、设备操作员等车间状态后,根据自身经验合理安排调度方案。受自身经验不足、生产车间不可测事件等因素影响,人为设计的调度方案难以对生产车间的突发性事件及时响应。
[0003]目前计算机技术的迅速发展与大量智能算法涌现,元启发式算法、人工智能等算法在生产调度领域得到大量成功应用。实践表明,智能算法得到的结果相比人工设计方案具有响应速度更快、方案质量更高等优势。
[0004]智能算法计算速度快,但智能算法在生产调度实施过程中,存在各种不确定因素。实际的工业现场环境复杂,不可控事件众多,在模型建立的时候难以将所有短期及长期不确定因素进行前摄性预测。目前调度理论研究主要集中在完全信息和静态确定性环境下,研究风险性和不确定性环境下项目调度的文献较少,因此在不确定条件下展开对调度理论的研究,提高方调度案的鲁棒性与稳定性,避免环境不确定的客观因造成原调度计划无法继续执 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于深度强化学习的离散制造车间鲁棒调度优化方法,其特征在于,所述基于深度强化学习的离散制造车间鲁棒调度优化方法,包括:步骤1、取历史加工数据,利用神经网络拟合工序加工时长关于设备、操作员以及生产初始时刻的函数;步骤2、建立工厂车间的加工环境模型,所述加工环境模型包括可运行设备数量、在岗操作员以及中间产品的库存数;步骤3、获取当天需要加工的产品数量;步骤4、根据加工环境模型以及当天需要加工的产品数量构建离散制造车间鲁棒调度问题,该离散制造车间鲁棒调度问题的目标函数为最小化最大完工时间与最小化完工时间和交付时间的差值;步骤5、对离散制造车间鲁棒调度问题进行求解,包括:步骤51、选定特征,包括工序加工时长、工序的结束时间、设备利用率和工序离交付剩余时间这四个二维矩阵;步骤52、根据四个二维矩阵基于实时加工数据将生产规程状态描述为四通道图像,基于四通道图像利用深度卷积神经网络逼近状态动作值;步骤53、以启发式规则作为动作空间,基于深度卷积神经网络输出的状态动作值,利用Double DQN算法输出调度优化方案。2.如权利要求1所述的基于深度强化学习的离散制造车间鲁棒调度优化方法,其特征在于,所述当天需要加工的产品数量,包括:当天订单中的产品数量,以及当天之前的订单中未完成加工的产品数量。3.如权利要求1所述的基于深度强化学习的离散制造车间鲁棒调度优化方法,其特征在于,所述根据加工环境模型以及当天需要加工的产品数量构建离散制造车间鲁棒调度问题,包括:令工厂车间可运行的设备数为m,当天需要加工的产品数量为n,设备集记为M=(M1,M2,...,M
m
),当天订单中的工件集记为J=(J1,J2,...,J
n
),第i个工件J
i
共有P
i
道加工工序,i=1,2,...,n,O
ij
为工件J
i
的第j道工序,j=1,2,...,P
i
,中间产品的库存数记为工件集L=(L1,L2,...,L
P
‑1),其中P为该车间产品加工的最大工序数,S
ijk
为工件J
i
的第j道工序O
ij
在第k台设备M
k
上的开工时间,k=1,2,...,m,T
ijk
为工序O
ij
在机器M
k
上的工序加工时长,其中T
ijk
数值由步骤1训练得到的拟合函数输出;令C
ij
技术研发人员:郭方洪,姜滨,姚晗,刘师硕,吴祥,董辉,俞立,陈积明,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。