一种基于端到端深度强化学习的分布式作业车间调度方法技术

技术编号:39417314 阅读:8 留言:0更新日期:2023-11-19 16:07
本发明专利技术属于分布式车间调度相关技术领域,并公开了一种基于端到端深度强化学习的分布式作业车间调度方法。该方法包括下列步骤:S1绘制待求解的分布式车间调度问题的拼接析取图模型并确定其初始信息;确定所有工序对应的工序

【技术实现步骤摘要】
一种基于端到端深度强化学习的分布式作业车间调度方法


[0001]本专利技术属于分布式车间调度相关
,更具体地,涉及一种基于端到端深度强化学习的分布式作业车间调度方法。

技术介绍

[0002]随着企业间的合作日益紧密,分布式制造已经成为一种常见的生产模式。它可以通过合理调配多个企业的资源,实现高效生产。作为一种典型的分布式制造问题,分布式作业车间调度问题(Distributed Job

shop Scheduling Problem,DJSP)在装备制造业和其他生产领域有着广泛的应用,已经成为了一个热点问题。DJSP是一个NP

hard问题,需要探索有效的方法实现该问题的高效求解。
[0003]针对车间调度问题,已经有很多方法被提出,主要包括三大类:精确算法、启发式算法和元启发式算法。但是这些方法适合的场景各不相同,且算法在不同的场景可能差异很大。精确算法适合精确求解小规模问题,因为DJSP的NP

hard特性,所以不适宜采用精确算法求解;启发式算法是一种易于理解且易于实现的算法,但其仅适用于专业知识丰富且产品结构不复杂的场景;元启发式算法是目前寻优能力最好的一种算法,相关研究最为广泛,但其时间复杂度高,难以针对实时性要求高的场景快速生成调度方案。工业4.0倡导建设智能工厂,随着大数据、物联网、数字孪生、人工智能等新一代信息技术的深度融合,工业数据的多样性、可获得性以及可用性得到了有效的提升。上述三种方法虽然可以有效解决大多数调度问题,但它们不能充分利用历史数据,难以实现自学习,这不利于制造系统的自动化和智能化发展。为适应智能工厂的发展需求,提高调度算法的自学习和自进化能力,亟需开发一类能够自进化和自适应调节的方法。
[0004]近年来,深度强化学习(Deep Reinforcement Learning,DRL)由于其强大的学习能力得到了广泛的关注,已经被成功应用到各个领域。DRL是深度学习(Deep Learning,DL)和强化学习(Reinforment Learning,RL)的结合体。RL通过与环境互动获得奖励,指导行为选择,使累积奖励最大化。DL能根据历史数据预测某一事件发生的概率。DRL集聚了DL和RL两者的优势,具有自我学习和自我进化的能力,可以根据环境做出智能决策,其在车间调度问题中也得到了成功应用。

技术实现思路

[0005]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于端到端深度强化学习的分布式作业车间调度方法,解决现有技术存在的适用场景单一、实时性差、缺乏自学习和自进化能力的问题。
[0006]为实现上述目的,按照本专利技术,提供了一种基于端到端深度强化学习的分布式作业车间调度方法,该方法包括下列步骤:
[0007]S1对于待调度的分布式车间,确定该待调度的分布式车间的初始信息,包括工厂的数量,待加工工件的加工工序、工件在不同机器上的加工顺序以及每个工序的加工时间,
利用所述初始信息绘制包括所有待加工工件以及工件的加工工艺约束的拼接析取图;将每个工序与工厂配对组成一个动作,以此确定所有工序对应的动作;
[0008]S2根据当前时刻的拼接析取图确定当前时刻可被选取的动作;将当前时刻的所述拼接析取图信息输入图神经网络中提取所述拼接析取图中的节点信息和全局信息,将提取的节点信息和全局信息输入决策网络中;利用所述决策网络计算每个所述可被选取的动作(即动作空间中的动作,动作空间由产品工艺所决定,在任意决策点t时刻,均需根据所执行的动作更新动作空间)的概率,根据该概率选取当前时刻执行的动作;执行该被选取的动作并以此更新下一个时刻的拼接析取图信息;
[0009]S3重复步骤S2,直至获得所有时刻对应的动作,以此确定加工顺序,即获得调度方案。
[0010]进一步优选地,在步骤S2中,利用所述决策网络计算可被选取的动作的概率后,还需在每个可被选取的动作的概率上加上概率加强系数,该概率加强系数是当前可被选取的动作所在工厂的最大完成时间的倒数,将加上概率加强系数后的概率作为当前可被选取的动作的概率,概率最大的可被选取的动作作为当前时刻执行的动作。
[0011]进一步优选地,对于初始时刻,所述概率加强系数为预设给定值。
[0012]进一步优选地,对于还未开始加工的工厂,其概率加强系数为预设给定初始值。
[0013]进一步优选地,在步骤S2中,所述图神经网络按照下列关系式进行节点特征提取:
[0014]对于每个节点v:
[0015][0016]其中,是节点v经过k次迭代后的信息表达,是节点v的初始输入信息,是经过k次迭代后参数为θ
k
的多层感知机,θ
k
是经过k次迭代的多层感知机的网络参数,∈是一个学习参数,N(v)是节点v的邻居节点集合,u是邻居节点集合N(v)中的节点,是节点u经过k

1次迭代后的信息表达;
[0017]经过K次迭代后,对于所获得的所有节点信息,采用平均池化的方式计算所得拼接析取图的全局信息h
g

[0018][0019]其中,K是总迭代次数,V是所有节点集合,是任意节点v经过K次迭代后的信息表达,m是机器总数量,n是工件总数量。
[0020]进一步优选地,在步骤S2中,在决策点t时刻,所述决策网络按照下列关系式计算每个可被选取动作的概率:
[0021][0022]其中,是经过K次迭代后参数为θ
K
的多层感知机,是节点v在决策点t时刻经过K次迭代后的信息表达,h
g,t
是t时刻拼接析取图的全局信息表达,A
t
是t时刻可被选取的动作集合,即t时刻的动作空间。
[0023]进一步优选地,对于待求解的所述分布式作业车间调度问题,需先将该待求解的分布式作业车间调度问题作业转化为马尔可夫决策模型,然后选取优化算法训练步骤S2中的所述图神经网络和决策网络,最后按照步骤S1至S3求解所述待求解的分布式作业车间调度问题。
[0024]进一步优选地,在步骤S2中,所述图神经网络和决策网络是通过演员

评论家模式的近端策略优化算法训练获得。
[0025]进一步优选地,在所述演员

评论家模式的近端策略优化算法中t时刻的奖励函数按照下列关系式进行:
[0026]r
t
=C
l,t
‑1‑
C
l,t
[0027]其中,C
l,t
是t时刻被选工厂l的最大完成时间,C
l,t
‑1是上一时刻工厂l的最大完成时间。
[0028]进一步优选地,所述演员

评论家模式的近端策略优化算法中的目标函数是作业车间调度方式的最大完成时间最小化。
[0029]总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,具备下列有益效果:
...

【技术保护点】

【技术特征摘要】
1.一种基于端到端深度强化学习的分布式作业车间调度方法,其特征在于,该方法包括下列步骤:S1对于待调度的分布式车间,确定该待调度的分布式车间的初始信息,包括工厂的数量,待加工工件的加工工序、工件在不同机器上的加工顺序以及每个工序的加工时间,利用所述初始信息绘制包括所有待加工工件以及工件的加工工艺约束的拼接析取图;将每个工序与工厂配对组成一个动作,以此确定所有工序对应的动作;S2根据当前时刻的拼接析取图确定当前时刻可被选取的动作;将当前时刻的所述拼接析取图信息输入图神经网络中提取所述拼接析取图中的节点信息和全局信息,将提取的节点信息和全局信息输入决策网络中;利用所述决策网络计算每个所述可被选取的动作的概率,根据该概率选取当前时刻执行的动作;执行该被选取的动作并以此更新下一个时刻的拼接析取图信息;S3重复步骤S2,直至获得所有时刻对应的动作,以此确定加工顺序,即获得调度方案。2.如权利要求1所述的一种基于端到端深度强化学习的分布式作业车间调度方法,其特征在于,在步骤S2中,利用所述决策网络计算可被选取的动作的概率后,还需在每个可被选取的动作的概率上加上概率加强系数,该概率加强系数是当前可被选取的动作所在工厂的最大完成时间的倒数,将加上概率加强系数后的概率作为当前可被选取的动作的概率,概率最大的可被选取的动作作为当前时刻执行的动作。3.如权利要求2所述的一种基于端到端深度强化学习的分布式作业车间调度方法,其特征在于,对于初始时刻,所述概率加强系数为预设给定值。4.如权利要求2或3所述的一种基于端到端深度强化学习的分布式作业车间调度方法,其特征在于,对于还未开始加工的工厂,其概率加强系数为预设给定初始值。5.如权利要求1所述的一种基于端到端深度强化学习的分布式作业车间调度方法,其特征在于,在步骤S2中,所述图神经网络按照下列关系式进行节点特征提取:对于每个节点v:其中,是节点v经过k次迭代后的信息表达,是节点v的初始输入信息,是经过k次迭代后参数为θ
k
的多层感知机,θ
k
是经过k次迭代的多层感知机的网络参数,∈是一个学习参数,N(v)是节点v的邻居节点集合,u是邻居节点集合N(v)中的节点,是节点u经过k

...

【专利技术属性】
技术研发人员:李新宇黄江平高亮张春江
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1