一种差异工件随机到达情况下单机批调度问题的求解方法技术

技术编号:24459318 阅读:51 留言:0更新日期:2020-06-10 16:31
本发明专利技术公开了一种差异工件随机到达情况下单机批调度问题的求解方法,其特点在于,按如下步骤进行:步骤1、定义T

A solution method of single machine batch scheduling problem with different jobs arriving at random

【技术实现步骤摘要】
一种差异工件随机到达情况下单机批调度问题的求解方法
本专利技术涉及生产调度优化,具体地说是一种差异工件随机到达情况下单机批调度问题的求解方法技术背景随着实体经济和制造业的迅猛发展,企业间的竞争也愈发激烈,为了提升产品质量,降低生产成品,企业在生产制造时必须将有限的资源在有限的时间内创造出最大利润,因此,生产调度优化问题是现代化生产作业中的核心内容。批处理问题是一类具有很强应用背景的生产调度问题,它起源于半导体制造业,例如在半导体生产中的扩散工序阶段,芯片需要成批的放置在扩散炉中进行掺杂,以改变半导体的电学性质。同时,在氧化,老化测试等阶段都需要在批处理机中进行加工。批处理工序可同时加工多个工件且加工时间往往较长,例如芯片老化测试工序,其加工时间通常几倍甚至几十倍于其他工序,这类工序往往成为生产线中的瓶颈,因此提升该类工序的生产效率至关重要。此外,批调度问题还广泛存在于金属铸造,纺织品染整作业和港口货物装卸等领域。传统批调度方法大多针对工件信息都预先可知的理想情况,但是在现实世界的制造系统中,生产调度系统的运行通常伴随着随机事件的发生。另外,在一些面向订单生产的企业中,未来的订单到达也是无法提前预知的随机事件。这些事件的发生可能导致原先制定的生产调度计划非最优甚至不可行。因此,在问题中考虑相关的随机因素,才能更真实的反应实际调度情况,目前针对随机批调度问题的研究也受到了广泛关注,但是现有的调度方法大多只考虑工件尺寸相同的情况,实际生产中不同种类的工件往往会有尺寸上的差异,此时分批决策会更加复杂,不仅在构建工件批时要考虑工件加工时间的差异,还要考虑工件尺寸的不同所可能造成的加工资源浪费。同时,现有处理随机批调度问题的方法只考虑了工件种类较少的情况,在工件种类增多的情况下,现有方法往往会遇到解空间急剧增加的问题,这极大的降低了算法的优化效果。
技术实现思路
本专利技术专利是为了解决上述现有技术存在的不足之处,提出一种差异工件随机到达情况下单机批调度问题的求解方法,以期能对差异工件随机到达时的批处理机进行调度优化控制,减少系统代价,提高系统生产率,同时针对工件种类较多的情况下,解决解空间过大的问题,保持良好的优化效果。本专利技术为解决技术问题采用如下技术方案:一种差异工件随机到达情况下单机批调度问题的求解方法,其特点在于,按如下步骤进行:步骤1、定义Tk为系统第k个决策时刻,初始化决策时刻Tk=0,k=0;步骤2、提前计算出所有状态下9种启发式规则对应的批量加工方案,在删除多余相同方案后,将其作为各状态下的行动集;步骤2.1、对当前缓冲库中所有工件按照加工时间由大到小进行排序;步骤2.2、计算所有选择式启发式规则所对应的加工工件,作为对应规则的加工批;步骤2.3、计算所有构建式启发式规则所对应的加工工件,作为对应规则的加工批;步骤2.4、在某状态下若有多种启发式规则对应的加工批相同,则在该状态的行动集合中剔除多余相同的加工规则;步骤3、利用强化学习中的Q学习方法得到每个系统状态下的最优加工行动;步骤3.1、初始化所有状态-行动对值,即Q值表,设定总迭代次数为Y,每次迭代学习步数为Z,模拟退火温度Ttemp和退火系数随机初始化系统状态,并令y=0,z=0;步骤3.2、在第k个决策时刻,观察到的系统状态记为Sk,此时系统采取的行动记为在Q值表中找到当前系统对应的状态,根据状态-行动对的值,选取当前状态下的最优行动记为再随机选取当前状态下可选的一个行动记为产生一个随机数,若随机数大于选择最优行动即否则选择随机行动即其中表示在状态Sk下采取行动时的状态行动对值,表示在状态Sk下采取行动时的状态行动对值;步骤3.3、执行所选行动,观察系统环境反馈,即系统从当前决策时刻到下一决策时刻的转移信息其中Sk+1表示下一决策时刻时的状态,ΔTk为转移时间,表示从状态Sk采取行动转移到状态Sk+1所产生的代价;若采取的行动为机器等待后续工件的到达,则代价由式(1)计算若系统采用某启发式规则加工工件,则代价由式(2)计算上面式子中的三部分分别表示存储代价、流失代价和机器浪费代价,k1、k2和k3为各代价的权重,ai表示当前决策周期内第i类工件的加工个数,AS为转移过程中到达并存储的工件个数,为第j个工件在转移时间内的到达的时间,Gj为第j个到达的工件的工件量,Gl为在转移过程中系统流失的工件量之和,工件量的计算公式为工件尺寸乘以工件加工时间;步骤3.4、利用步骤3.3中计算好的状态转移信息对当前时刻的状态-行动对值进行更新,更新公式如下其中,为第k个决策时刻的状态Sk下采取行动的学习步长,其随着访问次数增多而不断衰减,表示在第k个决策时刻前系统累积代价的平均值;步骤3.5、令z=z+1,k=k+1,若z<Z则转跳到步骤3.2;步骤3.6、令y=y+1,若y<Y,则令z=0,并转跳到步骤3.2;步骤3.7、学习结束;步骤4、利用学到的最优策略调度批处理机进行加工。步骤1中所述系统为:m类不同类型的工件缓存库和容量为C的批处理机所组成的系统中,记di,μi分别表示第i类工件的尺寸和加工率,满足容量约束的前提下,机器每次可加工由任意多个工件构成的一个加工批,机器的加工时间等于加工工件中所有加工时间的最大值;m类工件不断地随机到达当前系统并被存放在对应的缓存库中,每类缓存库的最大容量记为N,当工件到达系统时,如果该类工件的缓冲库已满,则该工件流失。系统的状态由各缓存库中存放的工件数目组成记为S=(n1,n2,...,nm),ni∈[0,N];定义系统的决策时刻为批处理机加工完一批工件或批处理机空闲且有工件到达时。步骤2中,利用启发式规则代替传统机器加工行动,本方法根据问题优化目标设计出若干启发式规则作为加工可选行动,这样既可加快算法收敛速度又能解决在工件品种较多情况下解空间过大的问题,行动集合记为D={h0,h1,h2,...,hB},其中h0表示机器闲置不加工任何工件,B为启发式规则个数,定义系统在状态Sa所采取的行动为本方法设计的启发式规则分为两类,一类是对缓冲库中所有工件完全分批后挑选特定批的选择式启发式规则,另一类是以基准工件构造成批的构建式启发式规则。所述选择式启发式规则首先对缓冲库中的所有工件按加工时间由大到小进行排序后,采用BestFit规则进行工件分批,然后采用不同的选批规则从所有批中挑选一批工件进行加工,具体选批规则如下:规则1SPT-LR(shortestprocessingtime-largestprocessingrate):最短加工时间-最大加工率规则选择所有批中加工时间最短的批进行加工,若有多个批的加工时间相同,则选择其中加工率最大的批进行加工,加工率等于加工工件量除以加工时间。规则2LCW-SPT(leastcapacitywaste-shortestprocessingtime):最小加工本文档来自技高网
...

【技术保护点】
1.一种差异工件随机到达情况下单机批调度问题的求解方法,其特点在于,按如下步骤进行:/n步骤1、定义T

【技术特征摘要】
1.一种差异工件随机到达情况下单机批调度问题的求解方法,其特点在于,按如下步骤进行:
步骤1、定义Tk为系统第k个决策时刻,初始化决策时刻Tk=0,k=0;
步骤2、提前计算出所有状态下9种启发式规则对应的批量加工方案,在删除多余相同方案后,将其作为各状态下的行动集;
步骤2.1、对当前缓冲库中所有工件按照加工时间由大到小进行排序;
步骤2.2、计算所有选择式启发式规则所对应的加工工件,作为对应规则的加工批;
步骤2.3、计算所有构建式启发式规则所对应的加工工件,作为对应规则的加工批;
步骤2.4、在某状态下若有多种启发式规则对应的加工批相同,则在该状态的行动集合中剔除多余相同的加工规则;
步骤3、利用强化学习中的Q学习方法得到每个系统状态下的最优加工行动;
步骤3.1、初始化所有状态-行动对值,即Q值表,设定总迭代次数为Y,每次迭代学习步数为Z,模拟退火温度Ttemp和退火系数随机初始化系统状态,并令y=0,z=0;
步骤3.2、在第k个决策时刻,观察到的系统状态记为Sk,此时系统采取的行动记为在Q值表中找到当前系统对应的状态,根据状态-行动对的值,选取当前状态下的最优行动记为再随机选取当前状态下可选的一个行动记为产生一个随机数,若随机数大于选择最优行动即否则选择随机行动即其中表示在状态Sk下采取行动时的状态行动对值,表示在状态Sk下采取行动时的状态行动对值;
步骤3.3、执行所选行动,观察系统环境反馈,即系统从当前决策时刻到下一决策时刻的转移信息其中Sk+1表示下一决策时刻时的状态,ΔTk为转移时间,表示从状态Sk采取行动转移到状态Sk+1所产生的代价;若采取的行动为机器等待后续工件的到达,则代价由式(1)计算



若系统采用某启发式规则加工工件,则代价由式(2)计算



上面式子中的三部分分别表示存储代价、流失代价和机器浪费代价,k1、k2和k3为各代价的权重,ai表示当前决策周期内第i类工件的加工个数,AS为转移过程中到达并存储的工件个数,为第j个工件在转移时间内的到达的时间,Gj为第j个到达的工件的工件量,Gl为在转移过程中系统流失的工件量之和,工件量的计算公式为工件尺寸乘以工件加工时间;
步骤3.4、利用步骤3.3中计算好的状态转移信息对当前时刻的状态-行动对值Q(Sk,vSk)进行更新,更新公式



其中,为第k个决策时刻的状态Sk下采取行动的学习步长,其随着访问次数增多而不断衰减,表示在第k个决策时刻前系统累积代价的平均值;
步骤3.5、令z=z+1,k=k+1,若z<Z则转跳到步骤3.2;
步骤3.6、令y=y+1,若y<Y,则令z=0,并转跳到步骤3.2;
步骤3.7、学习结束;
步骤4、利用学到的最优策略调度批处理机进行加工。


2.根据权利要求1所述的一种差异工件随机到达情况下单机批调度问题的求解方法,其特点在于,步骤1中所述系统为:
由m类不同类型的工件缓存库和容量为C的批处理机所组成的系统,记di,μi分别表示第i类工件的尺寸和加工率,满足容量约束的前提下,机器每次可加工由任意多个工件构成的一个加工批,机器的加工时间等于加工工件中所有加工时间的最大值;m类工件不断地随机到达当前系统并被存放在对应的缓存库中,每类缓存库的最大容量记为N,当工件到达系统时,如果该类工件的缓冲库已满,则该工件流失;系统的状态由各缓存库中存放的工件数目组成记为S=(n1,n2,...,nm),ni∈[0,N];定义系统的决策时刻为批处理机加工完一批工件或批处理机空闲且有工件到达时。


3.根据权利要求2所述的一种差异工件随机到达情况下单机批调度问题的求解方法,其特点在于,步骤2中所述行动集合用D={h0,h1,h2,...,hB}表示,其中h0表示机器闲置不加工任何工件,B为启发式规则个数,定义系统在状态Sa所采取的行动为


4....

【专利技术属性】
技术研发人员:谭琦杨子豪唐昊夏田林贾铖钰
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1