一种基于强化学习的线缆生产调度优化方法技术

技术编号:25187122 阅读:119 留言:0更新日期:2020-08-07 21:14
本发明专利技术公开了一种基于强化学习的线缆生产调度优化方法,首先建立多流水线和复杂资源约束条件下的线缆生产调度优化模型,优化模型以截止期延期惩罚费用最小化为目标,在此基础上,结合超启发式算法框架,将强化学习机制作为超启发式算法的HLH策略,并针对线缆生产调度问题特点,设计简易启发式规则,用以构建LLH方法集合,从而实现对于线缆生产调度问题的优化求解;优化方法复杂度低,可有效提升传统电缆行业生产与管理效率;对于传统产业全面推进提质增效、转型升级具有重要意义。

【技术实现步骤摘要】
一种基于强化学习的线缆生产调度优化方法
本专利技术涉及一种优化方法,特别涉及一种基于强化学习的线缆生产调度优化方法。
技术介绍
随着工业规模的不断提升和社会经济的不断发展,线缆产品已越来越广泛地被应用于建筑、交通、汽车、通信、能源等重要工业领域。据统计,早在2012年,我国电线电缆行业总产值就已超过万亿规模,成为世界上第一大电线电缆生产国。与此同时,电线电缆行业市场竞争形势也日趋激烈,企业需要通过降低库存、提高设备利用率、合理配置人力资源等方式来降低企业生产成本,提升企业生产、管理和服务效率。调度优化是实现企业生产、管理和服务效率提升的关键环节,对企业来讲,合理的生产调度方案不仅可以缩短产品制造周期,而且可以有效提高人员工作效率、设备利用率、减少能源和物质损耗,从而达到节能减排、降低成本和提高经济效益的目的。特别是伴随着敏捷制造思想的形成以及企业敏捷化工程的不断开展,重视准时生产,实现资源的灵活和高效配置以满足企业生产和客户服务需求,已成为生产调度的核心思想。由于线缆产品种类型号繁多、生产工艺复杂,因此针对电缆生产调度问题的建模和求解均具有很大挑战性。目前线缆生产企业主要还停留在依赖人工经验进行生产调度的阶段,有关线缆生产调度的文献少之又少。申请号为201810526733.7专利技术专利名称为《一种多类电缆加工的优化调度方法》,公开了一种多类电缆加工的优化调度方法,用于实现电缆生产加工排程。但是该专利技术只考虑了所有订单工艺流程均相同的情况,与线缆企业的生产实际存在明显差异。此外,超启发式算法作为一种跨领域的问题求解模式,通过一种高层次启发式(HighLevelHeuristic,HLH)策略管理和操纵一系列低层次启发式(LowLevelHeuristics,LLH)方法,动态地生成最优启发式方法用以求解不同问题,这为解决复杂多样性问题提供了新的途径。但是,超启发式算法存在计算复杂度较高的问题,其中主要一方面原因在于HLH策略本身就需耗费大量时间以寻找最优启发式方法,降低HLH策略的算法复杂度对于提升算法整体性能同样具有重要影响。
技术实现思路
本专利技术所要解决的技术问题是提供一种简单实用,优化方法复杂度低,可有效提升传统电缆行业生产与管理效率的基于强化学习的线缆生产调度优化方法。本专利技术首先建立多流水线和复杂资源约束条件下的线缆生产调度优化模型,优化模型以截止期延期惩罚费用最小化为目标,在此基础上,结合超启发式算法框架,将强化学习机制作为超启发式算法的HLH策略,并针对线缆生产调度问题特点,设计简易启发式规则,用以构建LLH方法集合,从而实现对于线缆生产调度问题的优化求解。本专利技术是通过以下技术方案来实现的:1、一种基于强化学习的线缆生产调度优化方法,该方法包括如下步骤:步骤1、建立线缆生产调度问题的约束优化数学模型;线缆生产原材料铜棒或铝棒通过拉丝退火、束丝/绞线、挤塑、成缆、挤护套、铠装等工艺环节实现电线电缆生产,其中退火环节主要针对铜棒材质,以增加拉丝后导线的柔韧性。不同工序的设备均需要相应配套模具以实现某种特定型号的线缆生产,在某一工序的某一台机器上,生产不同型号产品需要切换相应模具,且切换模具需花费一定时间,在拉丝退火、束丝/绞线、挤塑、成缆、挤护套等工艺环节结束后都会生成线缆产品。设定线缆生产线中共有m台机器,有N个待生产订单{J1,J2,…,JN},每个订单Ji(i=1,2,…,N)根据线缆产品型号的生产工艺要求对应n个工序集合Oi={Oi1,Oi2,…,Oin};一个订单只包含一种线缆产品规格,设定用于工艺环节g(g=1,2,…,6)生产的机器集合为Mg,Ggh表示工艺环节g上第h个生产规格,Gig为订单Ji在工艺环节g上对应的生产规格,G′gh为生产线缆规格Ggh时相应的可用模具套数;在机器Mk(k=1,2,…,m)上生产,若需要从订单Ji切换到另一订单Ji′,且Ji和Ji′两个订单对应的线缆规格不同,则所需更换模具的时间为Sii′k;设定工序Oij(i=1,2,…,N;j=1,2,…,n)的开始时间和完工时间分别为Bij和Cij;设定机器k上生产订单Ji的开始时间和完工时间分别为Bi′k和Ci″k;以截止期延期惩罚费用最小化为优化目标,合理安排不同作业相应工序的加工设备和时序;线缆生产调度问题目标函数为:其中,Di为订单Ji对应的交货截止期,Ci为订单Ji的完工时间,wi为截止期各订单紧急权重因子;约束条件如下:其中,约束(2)给定了同一个订单Ji中后一个工序的开始时间必须要在前一个工序结束后才能开始加工;约束(3)给定了机器k上紧后工序必须要在前一工序结束后才能开始加工,其中考虑了更换模具的时间;约束(5)给定了线缆生产中某一工序上的模具数量限制;本步骤所建立的线缆生产调度模型同时考虑了多型号线缆生产、不同型号模具切换、模具资源约束等情况,更加符合企业线缆生产实际情况。步骤2、初始化优化算法和强化学习参数;2.1、初始化算法参数:当前迭代次数t,最大迭代次数maxT,周期迭代次数T;2.2、初始化强化学习动作集:构建全局搜索算子集Λ={a1,a2,…,aλ}和领域搜索算子集Γ={a′1,a′2,…,a′γ},并将A=Λ∪Γ作为动作集,其中Λ中算子基于交叉操作,Γ中算子则基于交换操作;2.3、生成初始解:随机生成一个由N个订单对应工序所组成的初始解,即Xt=Ruffled{O1,O2,…,ON},Ruffled(·)为随机打乱顺序操作;步骤3、随机选取初始状态st以及st对应的某一个动作χt(χt∈A);步骤4、将χt作为搜索算子应用到Xt,并连续运行T次,每次运行时,采用最小完工时间优先作为标准,生成调度方案,具体步骤如下:4.1、遍历所有机器,判断工序Oij是否可以在机器上加工,若可以,则在满足公式(2)-(6)给定的约束条件基础上,计算每一台机器上工序Oij的完工时间;4.2、选取完工时间最小的机器作为Oij的加工指派机器;4.3、生成订单在机器上的生产调度方案,并采用公式(1)计算得到目标函数值F(·);若得到的新解更优,则替换原有解,T次运行结束后按照公式(7)计算得到λ值;步骤5、根据λ值选择相应状态st,即λ∈{s|s=θ1,θ2,θ3},其中θ1=[0.9,1],θ2=[0.5,0.9),θ3=[0,0.5)为状态空间的区间阈值;步骤6、生成随机数r(r∈[0,1]),基于公式(8)所计算的强化概率ε得到下一步执行动作χt;当r<ε时,选择状态st对应Q值最高的动作;否则,随机选择状态st对应某一动作进行操作;公式(8)中,maxT为设定的最大迭代次数;步骤7、针对当前动作χt执行结果对其效用进行评价以引导超启发式算法的搜索方向,定义执行动作χt的效用值函数rt为:根据公式(10)所示学习函数更新χt所属动作集中所有动作χ′本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的线缆生产调度优化方法,其特征在于,该方法包括如下步骤:/n步骤1、建立线缆生产调度问题的约束优化数学模型;/n设定线缆生产线中共有m台机器,有N个待生产订单{J

【技术特征摘要】
1.一种基于强化学习的线缆生产调度优化方法,其特征在于,该方法包括如下步骤:
步骤1、建立线缆生产调度问题的约束优化数学模型;
设定线缆生产线中共有m台机器,有N个待生产订单{J1,J2,…,JN},每个订单Ji(i=1,2,…,N)根据线缆产品型号的生产工艺要求对应n个工序集合Oi={Oi1,Oi2,…,Oin};一个订单只包含一种线缆产品规格,设定用于工艺环节g(g=1,2,…,6)生产的机器集合为Mg,Ggh表示工艺环节g上第h个生产规格,为订单Ji在工艺环节g上对应的生产规格,G′gh为生产线缆规格Ggh时相应的可用模具套数;在机器Mk(k=1,2,…,m)上生产,若需要从订单Ji切换到另一订单Ji′,且Ji和Ji′两个订单对应的线缆规格不同,则所需更换模具的时间为Sii′k;设定工序Oij(i=1,2,…,N;j=1,2,…,n)的开始时间和完工时间分别为Bij和Cij;设定机器k上生产订单Ji的开始时间和完工时间分别为B′ik和C′i′k;以截止期延期惩罚费用最小化为优化目标,合理安排不同作业相应工序的加工设备和时序;线缆生产调度问题目标函数为:



其中,Di为订单Ji对应的交货截止期,Ci为订单Ji的完工时间,wi为截止期各订单紧急权重因子;
约束条件如下:















其中,约束(2)给定了同一个订单Ji中后一个工序的开始时间必须要在前一个工序结束后才能开始加工;约束(3)给定了机器k上紧后工序必须要在前一工序结束后才能开始加工;
步骤2、初始化优化算法和强化学习参数;
2.1、初始化算法参数:当前迭代次数t,最大迭代次数maxT,周期迭代次数T;
2.2、生成初始解:随机生成一个由N个订单对应工序所组成的初始解,即Xt=Ruffled{O1,O2,…,ON},Ruffled(·)为随机打乱顺序操作;
步骤3、随机选取初始状态st以及st对应的某一个动作χt(χt∈A);
步骤4、将χt作为搜索算子应用到Xt,并连续运行T次,每次运行时,采用最小完工时间优先作为标准,生成调度方案,
若得到的新解更优,则替换原有解,T次运行结束后按照公式(7)计算得到λ值;



步骤5、根据λ值选择相应状态st,即λ∈{...

【专利技术属性】
技术研发人员:林剑宋洪波王周敬
申请(专利权)人:浙江财经大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1