System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于车间调度领域,更具体地,涉及一种基于强化学习方法和规则进化的可重构车间动态调度方法。
技术介绍
1、全球制造业的快速发展和科技的日新月异的趋势下,智能制造的重要性日益凸显。智能制造作为新一代信息技术与制造业深度融合的产物,其核心在于通过智能化手段实现制造过程的自动化、信息化、网络化和柔性化。在智能制造的众多领域中,车间调度问题一直备受学术界和工业界的关注。车间调度作为优化生产流程、提高生产效率的重要手段,不仅能够提升生产效率、降低生产成本,还能有效应对市场需求的快速变化,推动企业实现可持续发展,其研究价值和应用前景日益凸显。
2、在实际的生产制造过程中,可重构车间是一种新颖高效的生产模式,能够满足多样化的制造需求,在多型混线装调车间中得到广泛应用。可重构车间能够对车间设备资源进行高效重组,进而提高制造资源的利用率。相较于传统作业车间,可重构车间的调度具有更复杂的问题空间。在考虑加工工艺流程柔性的基础上,可重构车间还需制定设备资源的重组策略。重构问题的引入,在提高制造车间生产能力的同时,也给调度带来了更大的不确定性。因此,研究可重构车间的调度问题具有重要意义。
3、针对可重构车间的调度,其最终需制定相应的排产方案,即确定每一个工件的每一个工序的加工起始时间、加工结束时间以及所分配的资源。传统的可重构车间调度方法多维静态调度方法,即直接根据需要加工的工件的工艺信息及可重构车间内的资源信息确定排产方案。然而,在实际的可重构车间生产过程中,新工件到达等动态事件是频发的,使得原有的排产方案不再可行。在
技术实现思路
1、针对现有技术的缺陷和改进需求,本专利技术提供了一种基于强化学习方法和规则进化的可重构车间动态调度方法,其目的在于,提高可重构车间调度的实时性和优化质量,从而降低企业的管理成本,保证生产制造系统的稳定运行。
2、为实现上述目的,按照本专利技术的一个方面,提供了一种基于强化学习方法和规则进化的可重构车间动态调度方法,包括:初始化任务池和设备池,分别用于实时存放可重构车间中的所有待加工工件和空闲的设备单元,并构建基于dqn算法的决策智能体;决策智能体的优化目标为最小化工件加工的总拖期,动作空间由预设的选择工件的启发式规则经遗传规划算法进化得到的多个复合调度规则构成;
3、在每一个决策点,按照如下步骤进行动态调度:
4、s1:将可重构车间当前的状态特征信息和执行前一次决策所得动作后的奖励值反馈给决策智能体,对决策智能体中的神经网络进行训练并由该神经网络输出动作空间中各复合调度规则被选择的概率;工件加工的总拖期越小,则奖励值越大;
5、s2:选择概率最大的复合调度规则,作为决策智能体在当前决策点决策所得的动作,并按照所选取的复合调度规则从任务池中选择待加工工件,并为其分配当前工序所需的拓扑单元;
6、待所有待加工工件加工完成后,输出可重构车间的排产计划;排产计划包括每一个工件的每一个工序的加工开始时间、加工结束时间以及所分配的拓扑单元;
7、其中,决策点为开始时刻,或者拓扑单元完成工件工序的加工后将其释放且可重构车间中存在未分配加工任务的未完工工件的时刻。
8、进一步地,复合调度规则以二叉树结构表示;
9、二叉树的内部节点为运算符号,用于表示子节点间的运算关系;
10、二叉树的叶子节点为选择工件的启发式规则;
11、其中,运算符号包括:“+”、“-”、“×”、“÷”、“max”、“min”;当除数为0时,“÷”运算结果返回预设值;“max”表示取最大值,“min”表示取最小值;
12、选择工件的启发式规则包括:
13、a)spt:选择工序加工时间最短的工件;
14、b)lpt:选择工序加工时间最长的工件;
15、c)sso:选择后继工序加工时间最短的工件;
16、d)lso:选择后继工序加工时间最长的工件;
17、e)srpt:选择剩余加工时间最短的工件;
18、f)lrpt:选择剩余加工时间最长的工件;
19、g)edd:选择交货期最早的工件;
20、h)fifo:先进先出规则;
21、i)lnro:选择剩余工序数最大的工件;
22、j)snro:选择剩余工序数最小的工件。
23、进一步地,本专利技术提供的基于强化学习方法和规则进化的可重构车间动态调度方法,还包括:针对每一个拓扑单元,维护一个缓冲区,用于存放已分配给相应拓扑单元但当前无法进行加工的工件工序;
24、并且,步骤s2中,为所选取的待加工工件分配当前工序所需的拓扑单元时,采用分层策略;分层策略包括:
25、t1、将所选取的待加工工件的当前工序作为目标加工对象,根据工件的工艺信息,确定可用于对目标加工对象进行加工的拓扑单元以及目标加工对象在各拓扑单元上的加工时间,从中选取加工时间最短的拓扑单元作为第一目标拓扑单元;
26、t2、若设备池中的设备单元可以组合成第一目标拓扑单元,则从设备池中分配相应设备单元组合成第一目标拓扑单元后,分配给目标加工对象,分配结束;否则,转入t3;
27、t3、若设备池中的设备单元可以组合成其他用于对目标加工对象进行加工的拓扑单元,则从中选取加工时间最短的拓扑单元作为第二目标拓扑单元,并从设备池中分配相应的设备单元组合成第二目标拓扑单元后,分配给目标加工对象,分配结束;否则,转入t4;
28、t4、确定正在执行加工任务且能够用于对目标加工对象进行加工的拓扑单元中,各拓扑单元完成包括目标加工对象在内的加工任务后对应的完工时间,选取完工时间最早的拓扑单元作为第三目标拓扑单元,将目标加工对象加入第三目标拓扑单元的缓冲区,分配结束。
29、进一步地,分层策略还包括:
30、若拓扑单元未执行加工任务,且其缓冲区为空,则将该拓扑单元拆解为设备单元,并将拆解所得设备单元放入设备池。
31、进一步地,可重构车间的状态特征信息包括:面向工件的统计性特征和面向拓扑单元的统计性特征;
32、面向工件的统计性特征包括:
33、(a)所有工件的完成率的平均值特征;
34、(b)所有工件的完成率的标准差特征;
35、(c)所有工件的剩余加工时间的平均值特征;
36、(d)所有工件的剩余加工时间的标准差特征;
37、面向拓扑单元的统计性特征包括:
38、(e)所有拓扑单元的利用率的平均值特征;
39、(f)所有拓扑单元的利用率的标准差特征。
40、进一步地,用于计算奖励值的奖励函数为:
41、r(t)=(twt(t)-twt(t+1))本文档来自技高网...
【技术保护点】
1.一种基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于,包括:初始化任务池和设备池,分别用于实时存放所述可重构车间中的所有待加工工件和空闲的设备单元,并构建基于DQN算法的决策智能体;所述决策智能体的优化目标为最小化工件加工的总拖期,动作空间由预设的工件选择启发式规则经遗传规划算法进化得到的多个复合调度规则构成;
2.如权利要求1所述的基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于,所述复合调度规则以二叉树结构表示;
3.如权利要求1所述的基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于:针对每一个拓扑单元,维护一个缓冲区,用于存放已分配给相应拓扑单元但当前无法进行加工的工件工序;
4.如权利要求3所述的基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于,所述分层策略还包括:
5.如权利要求1所述的基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于,所述可重构车间的状态特征信息包括:面向工件的统计性特征和面向拓扑单元的统计性特征;
6.如权利要求1所述
7.如权利要求1所述的基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于,所述决策智能体中的神经网络为循环神经网络,且所述循环神经网络的全连接层由多层感知机实现。
8.如权利要求1~7任一项所述的基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于,还包括:构建基于DQN算法的评估智能体;所述评估智能体中的神经网络用于评估所述决策智能体所计算的Q值。
9.如权利要求8所述的基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于,还包括:初始化样本池;
10.如权利要求9所述的基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于,所述决策智能体和所述评估智能体具体为基于dueling DQN算法构建得到。
...【技术特征摘要】
1.一种基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于,包括:初始化任务池和设备池,分别用于实时存放所述可重构车间中的所有待加工工件和空闲的设备单元,并构建基于dqn算法的决策智能体;所述决策智能体的优化目标为最小化工件加工的总拖期,动作空间由预设的工件选择启发式规则经遗传规划算法进化得到的多个复合调度规则构成;
2.如权利要求1所述的基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于,所述复合调度规则以二叉树结构表示;
3.如权利要求1所述的基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于:针对每一个拓扑单元,维护一个缓冲区,用于存放已分配给相应拓扑单元但当前无法进行加工的工件工序;
4.如权利要求3所述的基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于,所述分层策略还包括:
5.如权利要求1所述的基于强化学习方法和规则进化的可重构车间动态调度方法,其特征在于,所述可重构车间的...
【专利技术属性】
技术研发人员:李新宇,迟秀雯,刘齐浩,王喆,陈祥臻,冯靖凯,崔航浩,李育鑫,柳再为,周金龙,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。