一种基于多Agent考虑订单插入的柔性机加工场景调度方法技术

技术编号:37798537 阅读:11 留言:0更新日期:2023-06-09 09:28
本发明专利技术公开了一种基于多Agent考虑订单插入的柔性机加工场景调度方法,应用于车间排产领域,包括以下步骤:建立订单插入的柔性机加工场景调度的数学模型和马尔科夫模型,以最小化最大累积延误作为评价指标;设计了选择机器的智能体和选择工件的智能体,采用了12种工件特征和机器特征作为输入;对动作值函数和目标值函数拟合并初始化;分别选择5种和3种启发式规则作为智能体动作;设计基于最小化最大累积延误的奖励函数进行评估,并更新动作值函数参数;状态更新;利用软目标更新策略对目标值函数参数进行更新;本发明专利技术可以快速处理订单插入的柔性机加工场景调度问题,具有灵活性高和实时性强的优点。时性强的优点。时性强的优点。

【技术实现步骤摘要】
一种基于多Agent考虑订单插入的柔性机加工场景调度方法


[0001]本专利技术属于生产计划
,用于作业车间的生产计划优化,具体涉及一种基于多Agent考虑订单插入的柔性机加工场景调度方法。

技术介绍

[0002]柔性车间调度问题(FJSP)作为柔性机加工场景调度问题的高度抽象,在过去几十年中得到了广泛的研究。FJSP和已被证明是NP

hard的经典车间调度问题相比,更难处理,因为每个操作都可以分配到一台或多台可用机器上。到目前为止,大多数用于解决FJSP的现有方法都假设了一个静态制造环境,其中车间的信息是事先完全已知的,因此在整个工作过程中输出了一个没有任何修改的确定性调度方案。然而,在当今复杂多变的制造系统中,动态事件如订单的插入、取消或修改、机器故障、处理时间等的变化是不可避免的。这些干扰分散了静态进度计划的实际执行,远离其预期结果,严重降低了生产效率。因此,开发动态FJSP(DFJSP)的在线调度方法以实时处理不确定事件具有重要意义。
[0003]动态调度作为学术界和工业界一个极具吸引力的研究领域,在过去的几十年中得到了广泛的研究。已经提出了各种方法,其中使用最广泛的是调度规则和元启发式。调度规则立即对动态事件做出反应,从而实现最佳的时间效率。然而,它们甚至不能保证局部最优,更不能保证全局最优。同时,由于不同的规则适用于不同的场景,决策者很难在特定时间点选择最佳规则。元启发式总是将动态调度问题分解为一系列静态子问题,并通过一些智能优化算法(如遗传算法和粒子群优化)分别解决它们。它们获得了更高的解决方案质量,但对于实时调度来说可能耗时且不可行。
[0004]基于此,提供一种能同时满足及时性以及车间性能的柔性机加工场景调度方法是本领域亟待解决的技术问题。

技术实现思路

[0005]本专利技术要解决的技术问题是:提供一种能同时满足及时性以及车间性能的柔性机加工场景调度方法,为了解决该技术问题,本专利技术采取的技术方案是:对基于多Agent考虑订单插入的柔性机加工场景建立数学模型,并建立马尔可夫模型,基于GRU和FCN的调度决策以及基于D3QN深度强化学习算法的调度决策优化,从而优化柔性机加工场景中最小化最大累积延误的性能指标。
[0006]该技术方案具体如下:
[0007]建立订单插入的柔性机加工场景调度数学模型,给出各类假设条件以及相关约束;
[0008]将调度决策问题转换为序贯决策问题,对订单插入的柔性机加工场景进行马尔可夫建模,得到马尔可夫五元组模型ε={s,a,s',γ,r},其中s表示状态,a表示动作,s'表示下一时刻状态,γ表示折扣率,r表示奖励,将最小化最大累积延误作为马尔可夫五元组模型的评价指标;
[0009]根据序贯决策问题的特性,采用GRU门控循环单元和FCN全连接网络对动作值函数和目标值函数进行拟合,采用D3QN更新动作值函数的权重参数,并采用软目标更新策略更新目标值函数的权重参数,最终得到训练好的多Agent模型;
[0010]使用训练好的多Agent模型对序贯决策问题进行求解并给出调度方案,输出甘特图。
[0011]进一步地,所述建立订单插入的柔性机加工场景调度数学模型,给出各类假设条件以及相关约束,具体步骤包括:
[0012]建立一种考虑订单插入的柔性机加工场景调度数学模型,定义所述柔性机加工场景调度数学模型中的参数、函数及约束如下:
[0013]有n个随机到达的工件J={J1,m2,

,J
n
}需要在m台机器M={M1,M2,

,M
m
}上进行处理;每个工件J
i
由n
i
个工序组成,其中O
i,j
是工件J
i
的第j道工序;每个工序O
i,j
都有一个可处理的机器集
[0014]柔性机加工场景调度数学模型表示为:
[0015][0016][0017][0018][0019][0020][0021][0022][0023][0024][0025]其中,n表示工件数量,m表示机器数量,J
i
表示第i个工件,n
i
表示第i个工件的工序数,M
k
表示第k个机器,O
i,j
表示第i个工件的第j个工序,M
i,j
表示工序O
i,j
的可选机器集合,t
i,j,k
表示工序O
i,j
在机器M
k
上的处理时间,A
i
表示工件J
i
的到达时间,D
i
表示工件J
i
的交货期,C
i,j
表示工序O
i,j
的实际完成时间,i,h表示工件的索引,j,g表示工序的索引,k表示机器的索引;X
i,k,k
为决策变量,若工序O
i,j
在机器M
k
上加工,则X
i,j,k
=1,否则X
i,j,k
=0;Y
i,j,h,g
为决策变量,若工序O
i,j
在O
h,g
前加工,则Y
i,j,h,g
=1,否则Y
i,j,h,g
=0;X
i,j,k
决定了在哪台机器
上分配工序,而Y
i,j,h,g
决定了两个工序之间的优先级;
[0026]在上述约束及定义中,具体约束每道工序的完成时间必须为非负;每道工序只能分配给一台机器;每道工序的完工时间均大于到达时间;同一工件的工序的有前后优先级的关系;每台机器一次最多只能处理一道工序。
[0027]进一步地,所述采用门控循环单元和全连接网络对动作值函数和目标值函数进行拟合,采用D3QN更新动作值函数的权重参数,并采用软目标更新策略更新目标值函数的权重参数,最终得到训练好的多模型,具体步骤包括:
[0028]A:提取当前工件状态矩阵X和机器状态矩阵Y;
[0029]B:对选择机器的智能体MA构建MA的动作值函数Q
M
(s
M
,a
M
;θ
M

M,V

M,A
)、目标值函数对选择工件的智能体JA构建JA的动作值函数Q
J
(s
J
,a
J
;θ
J

J,V

J,A
)、目标值函数采用GRU门控循环单元和FCN全连接网络对动作值函数Q
M
(s
M
,a
M
;θ
M

M,V

M,A
)、Q
J
(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多Agent考虑订单插入的柔性机加工场景调度方法,其特征在于,包括以下步骤:建立订单插入的柔性机加工场景调度数学模型,给出各类假设条件以及相关约束;将调度决策问题转换为序贯决策问题,对订单插入的柔性机加工场景进行马尔可夫建模,得到马尔可夫五元组模型ε={s,a,s

,γ,r},其中s表示状态,a表示动作,s

表示下一时刻状态,γ表示折扣率,r表示奖励,将最小化最大累积延误作为马尔可夫五元组模型的评价指标;根据序贯决策问题的特性,采用GRU门控循环单元和FCN全连接网络对动作值函数和目标值函数进行拟合,采用D3WN更新动作值函数的权重参数,并采用软目标更新策略更新目标值函数的权重参数,最终得到训练好的多Agent模型;使用训练好的多Agent模型对序贯决策问题进行求解并给出调度方案,输出甘特图。2.根据权利要求1所述的柔性机加工场景调度方法,其特征在于,所述建立订单插入的柔性机加工场景调度数学模型,给出各类假设条件以及相关约束,具体步骤包括:建立一种考虑订单插入的柔性机加工场景调度数学模型,定义所述柔性机加工场景调度数学模型中的参数、函数及约束如下:有n个随机到达的工件J={J1,J2,...,J
n
}需要在m台机器M={M1,M2,...,M
m
}上进行处理;每个工件J
i
由n
i
个工序组成,其中O
i,j
是工件J
i
的第j道工序;每个工序O
i,j
都有一个可处理的机器集柔性机加工场景调度数学模型表示为:柔性机加工场景调度数学模型表示为:柔性机加工场景调度数学模型表示为:柔性机加工场景调度数学模型表示为:柔性机加工场景调度数学模型表示为:柔性机加工场景调度数学模型表示为:柔性机加工场景调度数学模型表示为:柔性机加工场景调度数学模型表示为:柔性机加工场景调度数学模型表示为:其中,n表示工件数量,m表示机器数量,J
i
表示第i个工件,n
i
表示第i个工件的工序数,
M
k
表示第k个机器,O
i,j
表示第i个工件的第j个工序,M
i,j
表示工序O
i,j
的可选机器集合,t
i,j,k
表示工序O
i,j
在机器M
k
上的处理时间,A
i
表示工件J
i
的到达时间,D
i
表示工件J
i
的交货期,C
i,j
表示工序O
i,j
的实际完成时间,i,h表示工件的索引,j,g表示工序的索引,k表示机器的索引;X
i,j,k
为决策变量,若工序O
i,j
在机器M
k
上加工,则X
i,j,k
=1,否则X
i,j,k
=0;Y
i,j,h,g
为决策变量,若工序O
i,j
在O
h,g
前加工,则Y
i,j,h,g
=1,否则Y
i,j,h,g
=0;X
i,j,k
决定了在哪台机器上分配工序,而Y
i,j,h,g
决定了两个工序之间的优先级;在上述约束及定义中,具体约束每道工序的完成时间必须为非负;每道工序只能分配给一台机器;每道工序的完工时间均大于到达时间;同一工件的工序的有前后优先级的关系;每台机器一次最多只能处理一道工序。3.根据权利要求2所述的柔性机加工场景调度方法,其特征在于,所述采用门控循环单元和全连接网络对动作值函数和目标值函数进行拟合,采用D3QN更新动作值函数的权重参数,并采用软目标更新策略更新目标值函数的权重参数,最终得到训练好的多模型,具体步骤包括:A:提取当前工件状态矩阵X和机器状态矩阵Y;B:对选择机器的智能体MA构建MA的动作值函数Q
M
(s
M
,a
M
;θ
M
,θ
M,V
,θ
M,A
)、目标值函数对选择工件的智能体JA构建JA的动作值函数Q
J
(s
J
,a
J
;θ
J
,θ
J,V
,θ
J,A
)、目标值函数采用GRU门控循环单元和FCN全连接网络对动作值函数Q
M
(s
M
,a
M
;θ
M
,θ
M,V
,θ
M,A
)、Q
J
(s
J
,a
J
;θ
J
,θ
J,V
,θ
J,A
)和目标值函数)和目标值函数进行拟合,并初始化拟合,并初始化拟合,并初始化其中,s
M
为机器特征,a
M
为机器动作,s
J
为工件特征,a
J
为工件动作;θ
M
为MA的动作值函数神经网络内部权重w
M
和偏置b
M
的集合,θ
M,V
为MA的状态价值函数的权重w
M,V
和偏置b
M,V
的集合,θ
M,A
为MA的优势函数的权重w
M,A
和偏置b
M,A
的集合,θ

M
为MA目标值函数神经网络内部权重w

M
和偏置b

M
的集合;θ

M,V
为MA的目标状态价值函数的权重w

M,V
和偏置b

M,V
,θ

M,A
为MA的目标优势函数的权重w

M,A
和偏置b

M,A
;θ
J
为JA的价值函数神经网络内部权重w
J
和偏置b
J
的集合,θ
J,V
为JA的状态价值函数的权重w
J,V
和偏置b
J,V
的集合,θ
J,A
为JA动作优势函数的权重w
J,A
和偏置b
J,A
的集合,θ

J
为目标值函数神经网络内部权重w

J
和偏置b

J
的集合;θ

J,V
为JA的目标状态价值函数的权重w

J,V
和偏置b

J,V
,θ

J,A
为JA的目标优势函数的权重w

J,A
和偏置b

J,A
;C:选择机器的智能体MA有3个动作,选择工件的智能体JA有5个动作;在训练阶段,每个决策点的动作采用ε

greedy递减的方法随机选择,当d小于ε
t
时,随机选择动作,当d大于等于ε
t
时,选择使Q值最大的动作,即有:时,选择使Q值最大的动作,即有:式中,d∈(0,1)为随机生成的自然数,t为当前决策点,ε
end
为结束时的ε值,ε
start
为开始时的ε值,episode为当前迭代次数,Episode为总的迭代次数,random表示随机数,s
t
表示t
时刻状态,a表示可选择的动作,ε
t
表示t时刻探索度;采用SoftMax函数将网络组件输出转变为每个调度规则的概率,再根据概率进行动作选择,即:式中,μ是一个超参数,用于控制SoftMax策略中的熵,|A|表示可选动作集的大小,a
k
表示第k个可选择的动作;D:设计奖励函数R(t)对整个调度决策进行评估,并使用D3QN算法更新动作值函数的参数θ,实现调度策略的更新;在奖励函数设计方面,以最小化最大累积延误作为评价指标;对于选择工件的智能体JA,设计具有“紧急度”的奖励函数,有:的奖励函数,有:的奖励函数,有:的奖励函数,有:式中,EAST(t)为估计平均松弛时间;ERST(t)为估计平均剩余加工时间;m为机器数;n为工件数;t为决策点;OP
i
(t)为决策点t时,已完成工序数;nco(t)表示t时刻,工件已完成工序数;P
i,j,k
为第i个工件的第j道工序的第k个可选机器;P
ave,i,j
为第i个工件的第j道工序的平均加工时间;D
i
为第i个工件的交货期;OM
i,j
为第i个工件的第j道工序的可选...

【专利技术属性】
技术研发人员:卢超徐成龚文引
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1