一种基于图神经网络的作业车间调度方法技术

技术编号:34177823 阅读:10 留言:0更新日期:2022-07-17 12:21
本发明专利技术属于生产计划技术领域,公开了一种基于图神经网络的作业车间调度方法,基于图神经网络的作业车间调度方法包括:可视化工件内部生产工序的前后顺序以及各工件之间的机器指派情况;设计奖励函数对调度决策进行评估;对析取图节点特征信息进行嵌入提取;进行调度策略网络学习及图神经网络参数调整。本发明专利技术提高了制造系统作业车间调度方法的泛化能力,可以应用于同一系统内不同网络规模的作业车间调度问题。本发明专利技术将作业调度问题网络拓扑化,提高调度算法的泛化能力,可以有效处理作业车间调度问题,具有通用性强和自适应性高的特点。点。点。

A method of job shop scheduling based on graph neural network

【技术实现步骤摘要】
一种基于图神经网络的作业车间调度方法


[0001]本专利技术属于生产计划
,尤其涉及一种基于图神经网络的作业车间 调度方法。

技术介绍

[0002]目前,生产计划与调度是智能工厂的管理核心。大规模、不确定、强耦合 的复杂生产制造系统给作业车间生产调度带来了较大的挑战。
[0003]现有的调度算法主要分为两类:精确求解与近似求解。精确求解如分支定 界法,数学规划法等会因问题规模的扩大而导致维度灾难,使得调度结果不能 很好地应用于规模较大的调度问题。近似求解,主要由启发式算法与监督学习 组成,典型方法有分派规则法,领域搜索法以及神经网络。现有近似求解法的 运行效果主要取决于人为设定的规则以及历史调度数据。当制造系统环境改变 时,需要耗费大量精力重新决定调度规则,难以较好地适用于不确定性较强, 动态变化的作业车间调度场景。
[0004]通过上述分析,现有技术存在的问题及缺陷为:现有的调度方法可扩展性 不强,适用场景具备一定限制,通用性不强、自适应性不高,无法应用于同一 系统内不同网络规模的作业车间调度。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术提供了一种基于图神经网络的作业车间 调度方法。
[0006]本专利技术是这样实现的,一种基于图神经网络的作业车间调度方法,所述基 于图神经网络的作业车间调度方法包括:
[0007]可视化工件内部生产工序的前后顺序以及各工件之间的机器指派情况;设 置奖励函数对调度决策进行评估;对析取图节点特征信息进行嵌入提取;进行 调度策略网络学习及图神经网络参数调整。
[0008]进一步,所述基于图神经网络的作业车间调度方法包括以下步骤:
[0009]步骤一,构建作业车间调度的析取图模型,并获取作业车间工件加工数据; 基于构建的作业车间调度的析取图模型,建立马尔可夫决策模型;
[0010]步骤二,利用图神经网络提取不同节点之间的特征信息,并通过聚合函数 组合消息;
[0011]步骤三,利用Actor网络进行调度决策,利用Critic网络评价Actor决策效 果,利用图神经网络更新节点状态;
[0012]步骤四,判断调度结果是否满足预设标准,若满足,则输出调度方案;否 则利用近端策略优化算法训练图神经网络、Actor以及Critic的参数,并返回步 骤二。
[0013]进一步,所述构建作业车间调度的析取图模型,并获取作业车间工件加工 数据包括:
[0014](1)构建作业车间调度的析取图模型如下:
[0015]g=((V,C)∪D);
[0016]其中,V表示工序集,所述工序集包含作业车间的工序,所述工序在V中表 示为节点;C表示合取边集;所述合取边集包含合取边,每个合取边表示同一工 件上两个连续工序之间的优先约束;D表示析取边集,所述析取边集包含析取边, 每个析取边表示两个节点之间的机器共享约束,当两个工序可由同一台机器处 理时,相应的工序节点与析取边连接;
[0017](2)获取作业车间工件加工数据,利用作业车间工件加工数据表示作业车 间动态调度实时状态,同时利用作业车间工件加工数据作为节点V的特征信息;
[0018]所述节点V的特征信息包括:节点状态、处理时间、后续工序数、工序开 始时间;
[0019]所述节点状态包含[1,0,0]、[0,1,0]和[0,0,1];所述[1,0,0]、[0,1,0]和[0,0,1]分别 表示工序尚未开始、工序正在处理和工序已完成;
[0020]所述处理时间为工序的处理时间;所述后续工序数为同一工件工序V的后 续工序数;所述工序开始时间为工序V的开始处理时间。
[0021]进一步,所述马尔可夫决策模型如下:
[0022]马尔可夫元组(G,A,P,R,γ);
[0023]其中,G表示作业车间调度状态,A表示调度动作,γ表示折扣因子,P表 示状态转移概率,R表示每次动作获得的回报,以最小化完工时间为调度目标; 所以动作回报公式为:R=1/(makespan(g

)

makespan(g));其中,makespan表示工 件序列加工时间总和,g表示当前状态,g

表示下一状态。
[0024]进一步,所述利用图神经网络提取不同节点之间的特征信息,并通过聚合 函数组合消息包括:
[0025](1)通过节点嵌入,提取不同节点之间的特征信息:
[0026][0027]其中,f
p
(.;θ1)表示前序节点更新函数;f
s
(.;θ2)表示后序节点更新函数; f
d
(.;θ3)表示析取节点更新函数,f
n
(.;θ4)表示目标节点更新函数f
n
(.;θ4);ReLU(x) =max(0,x),||表示向量串联,和分别表示前序和后序节点集,表示析取邻居节点,表示第k代节点嵌入;
[0028](2)当相应的工序节点完成或不存在时,将所述节点嵌入设置为零向量, 其维数与H相同,不再参与图状态更新;
[0029](3)通过多层感知机训练图神经网络的输入层、隐藏层、输出层的参数。
[0030]进一步,所述利用Actor网络进行调度决策,利用Critic网络评价Actor决 策效果,利用图神经网络更新节点状态包括:
[0031](1)采用softmax函数基于下式生成目标机器选择可操作工序的概率分布:
[0032][0033]其中,f
l
(.;θ5)是一个可微函数,将节点嵌入信息映射到每个节点的logit值, 表示在τ时刻可供选择的工序集;
[0034](2)采用随机策略选择执行工序;并利用critic基于下式近似析取图状态 值;
[0035][0036]其中,表示图嵌入,f
v
(.;θ6)为一个可微函数;
[0037](3)随机生成包括加工机器数,加工工件,加工工序及对应加工时间的初 始图;对样本数据进行调度,收集状态转换样本。
[0038]进一步,所述利用近端策略优化算法训练图神经网络、Actor以及Critic的 参数包括:
[0039]1)采用近端策略优化算法,对图神经网络和Actor

critic中的参数 Θ={θ1,θ2,θ3,θ4,θ5,θ6}进行更新,当且仅当图节点嵌入信息以及调度动作可提高调 度效果时更新参数,目标函数公式如下:
[0040][0041]其中Θ={θ1,θ2,θ3,θ4,θ5,θ6};表示总体优势函数,公式 如下:δ
τ
=r
τ
+γV(g
τ+1
;Θ)

V(g
τ
;Θ),函数中的T 表示训练集的最后一步;
[0042]2)在目标函数中加入值函数误差和熵加成项:
[0043][0044]其中,表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的作业车间调度方法,其特征在于,所述基于图神经网络的作业车间调度方法包括:可视化工件内部生产工序的前后顺序以及各工件之间的机器指派情况;设计奖励函数对调度决策进行评估;对析取图节点特征信息进行嵌入提取;进行调度策略网络学习及图神经网络参数调整。2.如权利要求1所述基于图神经网络的作业车间调度方法,其特征在于,所述基于图神经网络的作业车间调度方法包括以下步骤:步骤一,构建作业车间调度的析取图模型,并获取作业车间工件加工数据;基于构建的作业车间调度的析取图模型,建立马尔可夫决策模型;步骤二,利用图神经网络提取不同节点之间的特征信息,并通过聚合函数组合消息;步骤三,利用Actor网络进行调度决策,利用Critic网络评价Actor决策效果,利用图神经网络更新节点状态;步骤四,判断调度结果是否满足预设标准,若满足,则输出调度方案;否则利用近端策略优化算法训练图神经网络、Actor以及Critic的参数,并返回步骤二。3.如权利要求2所述基于图神经网络的作业车间调度方法,其特征在于,所述构建作业车间调度的析取图模型,并获取作业车间工件加工数据包括:(1)构建作业车间调度的析取图模型如下:g=((V,C)∪D);其中,V表示工序集,所述工序集包含作业车间的工序,所述工序在V中表示为节点;C表示合取边集;所述合取边集包含合取边,每个合取边表示同一工件上两个连续工序之间的优先约束;D表示析取边集,所述析取边集包含析取边,每个析取边表示两个节点之间的机器共享约束,当两个工序可由同一台机器处理时,相应的工序节点与析取边连接;(2)获取作业车间工件加工数据,利用作业车间工件加工数据表示作业车间动态调度实时状态,同时利用作业车间工件加工数据作为节点V的特征信息;所述节点V的特征信息包括:节点状态、处理时间、后续工序数、工序开始时间;所述节点状态包含[1,0,0]、[0,1,0]和[0,0,1];所述[1,0,0]、[0,1,0]和[0,0,1]分别表示工序尚未开始、工序正在处理和工序已完成;所述处理时间为工序的处理时间;所述后续工序数为同一工件工序V的后续工序数;所述工序开始时间为工序V的开始处理时间。4.如权利要求2所述基于图神经网络的作业车间调度方法,其特征在于,所述马尔可夫决策模型如下:马尔科夫元组(G,A,P,R,γ);其中,G表示作业车间调度状态,A表示调度动作,γ表示折扣因子,为当前动作对未来回报的影响程度,P表示状态转移概率,R表示每次动作获得的回报,以最小化完工时间为调度目标;所以动作回报公式为:R=1/(makespan(g

)

makespan(g));其中,makespan表示工件序列加工时间总和,g表示当前状态,g

表示下一状态。5.如权利要求2所述基于图神经网络的作业车间调度方法,其特征在于,所述利用图神经网络提取不同节点之间的特征信息,并通过聚合函数组合消息包括:(1)通过节点嵌入,提取不同节点之间的特征信息:
其中,f
p
(.;θ1)表示前序节点更新函数;f
s
(.;θ2)表示后序节点更新函数;f
d
(.;θ3)表示析取节点更新函数,f
n
(.;θ4)表示目标节点更新函数f
n
(.;θ4);ReLU(x)=max(0,x),||表示向量串联,和分别表示前序和后序节点集,表示析取邻居节点,表示第k代节点嵌入;(2)当相应的工序节点完成或不存在时,将所述节点嵌入设置为零向量,其维数与H相同,不再参与图状态更新;(...

【专利技术属性】
技术研发人员:吕雅琼杨格格
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1