当前位置: 首页 > 专利查询>新疆大学专利>正文

基于深度强化学习的模糊柔性作业车间优化调度方法技术

技术编号:38849535 阅读:16 留言:0更新日期:2023-09-17 09:58
本发明专利技术公开了基于深度强化学习的模糊柔性作业车间优化调度方法,涉及智能制造、运筹学领域。包括以下步骤:S1、进行问题描述;S2、将FFJSSP建模为MDP,S3、进行策略模型训练和性能评估。本发明专利技术的有益效果在于:在优化能力方面全面优于启发式方法,在优化能力和适应性方面有着更好的折衷。有着更好的折衷。有着更好的折衷。

【技术实现步骤摘要】
基于深度强化学习的模糊柔性作业车间优化调度方法


[0001]本专利技术主要涉及智能制造、运筹学领域,具体是基于深度强化学习的模糊柔性作业车间优化调度方法。

技术介绍

[0002]模糊柔性作业车间调度问题(FFJSSP)是柔性作业车间调度问题(FJSSP)的扩展,而FJSSP是作业车间调度问题(JSSP)的扩展。因此,可以看出FFJSSP意味着JSSP的二次扩展版本。FFJSSP属于组合优化问题的一种。当前求解这些车间调度问题的方法主要分为精确方法和近似方法。精确方法有着强的优化能力,往往能找到最优解或近似最优解。然而,它们的适用性是差的,随着问题规模的增大,计算复杂度也在增加。因此,这类方法主要适用于求解小规模问题。
[0003]近似方法可以在相对短的时间获得问题的满意解。与精确方法相比,近似方法有着更好的适用性。当前,近似方法主要分为三类:启发式方法、元启发式方法和基于学习的方法。启发式方法属于构造性方法,即从无调度开始来生成解。当前有很多著名的启发式方法,比如:局部最小处理时间规则(LS)、全局最小处理时间规则(GS)、最多工作剩余规则(MReW)和最多操作数剩余规则(MReO)。元启发式方法为改进式方法,即在提供初始解的基础上通过不断迭代优化来获得更好的解,比如:遗传算法、人工蜂群算法、分布估计算法、基于教学的优化算法、生物地理学优化算法、离散和声搜索算法、粒子群优化算法和多宇宙算法。基于学习的方法为近年来的新方法,且在求解各类车间调度问题方面仍然在研究的初期阶段。该类方法在学习范式上主要分为监督学习和强化学习。监督学习需要提供最优解或近似最优解作为标签,其在一定程度上增加了计算复杂度。因此,我们考虑采用深度强化学习(DRL)来训练策略模型,并利用其泛化性来求解其他规模的问题。
[0004]目前,使用DRL方法解决上述车间调度问题,在状态特征表示、动作空间定义、奖励函数设计等方面还存在不足。不同的DRL方法在优化目标设置、测试数据集、训练算法等方面也存在很大差异。有些方法甚至针对特定的应用场景。这些差异使得很难比较不同DRL方法之间的结果。

技术实现思路

[0005]为解决现有技术的不足,本专利技术提供了基于深度强化学习的模糊柔性作业车间优化调度方法,它在优化能力方面全面优于启发式方法,在优化能力和适应性方面有着更好的折衷。
[0006]本专利技术为实现上述目的,通过以下技术方案实现:
[0007]基于深度强化学习的模糊柔性作业车间优化调度方法,包括以下步骤:
[0008]S1、进行问题描述;
[0009]1)、进行模糊数定义,隶属度函数被用于表示论域X上的模糊集合其在实
轴上的取值范围为[0,1],取值的大小能够反映元素对的隶属程度。随着的取值从0到1逐渐增加,元素x对的隶属程度越来越高。在本申请的调度问题中,为三角模糊数(TFN),其隶属度函数表示如下:
[0010][0011]2)、进行模糊数操作,模糊数的操作包括加法操作、排序操作和最大操作,其模糊数的具体操作如下:
[0012]加法操作:
[0013]排序操作(包含3种准则):
[0014]令
[0015]准则1:如果则
[0016]准则2:如果则需要比较t2和t
′2。如果t2>(<)t
′2,则
[0017]准则3:如果t2=t
′2,则需要比较t3‑
t1和t
′3‑
t
′1。如果t3‑
t1>(<)t
′3‑
t
′1,则
[0018]最大操作包含以下2种策略:
[0019]策略1:
[0020]策略2:如果则else
[0021]需要注意的是,的隶属度函数被定义如下:
[0022][0023]3)、对FFJSSP定义,有n工件J={J1,

,J
i


,J
n
}需要在m台可用的机器M={M1,

,M
k


,M
m
}加工处理。每个工件J
i
包含至少一道工序同一工件的相邻工序间需满足优先级约束。每一道工序O
ij
有一个可选机器集这反映了FFJSSP的柔性,同时工序在每个机器上的处理时间不是固定的,这体现了FFJSSP的不确定性。同一工件相邻工序间的优先级约束需要满足;同一台机器同一时刻最多只能加工一道工序,即需要满足容量约束,本专利技术的优化目标为模糊Makespan的最小化。
[0024]4)、将FFJSSP转化为近似的JSSP。
[0025]5)、FFJSSP析取图表示,析取图模型,也称DG模型,用于描述FFJSSP。DG模型用一个3元组作为FFJSSP的析取图表示,这里表示所有工序节点的集合,其包含2个虚拟节点(一个开始虚拟节点0和一个结束虚拟节点*),也可能包含一些填充节点;为
连接弧的集合,每个连接弧用于表示同一工件上相邻节点间的优先级约束;ε为析取弧的集合,初始时每个析取弧表示为同一机器上相邻工序节点间的双向弧(或表示为无向的状态),求解过程中,已调度节点之间的析取弧方向被确定。
[0026]S2、将FFJSSP建模为MDP,MDP由元组(S、A、P、R、γ)组成。S为状态表示:A为动作空间:P表示状态转移函数,状态转移函数由环境决定:R为奖励函数:γ表示折扣因子。
[0027]关于状态表示,本专利技术的状态表示记录了5种状态特征,包含工序特征和机器特征:1)表示候选动作集中的工序节点在状态s
t
时分别在所有机器上的处理时间,其中处理时间的不确定性被消除。当工序节点在不可选机器集上加工时,处理时间可以设置为负值(例如:

1),以表明该节点在不可选择的机器上处理是无效的。2)表示在状态s
t
时候选动作集中每个节点的估计完成时间,这里每个节点的处理时间为消除不确定性和柔性后的平均处理时间后续三个状态特征表示中,工序的处理时间同样为消除了不确定性和柔性后的处理时间。3)表示在状态s
t
时候选动作集中每个节点的估计剩余处理时间,其中尚未调度节点的处理时间采用平均处理时间代替。4)表示每台机器在状态s
t
时的完成时间:5)表示每个工件在状态s
t
时的完成时间。
[0028]关于动作,一个回合总的决策步数等于一个实例中总的工序数目,在决策步t,一个动作a
t
包含2个子动作:工序动作和机器动作即动作a
t
表示一个子动作对。在动作空间中,工序动作由每个工件提供一道工序构成,机器动作则由总的机器构成。
[0029]关于奖励,奖励函数被定义为两个相邻决策步的估计最大完工时间的差值,即这里假设FFJSSP实例并不满足所有工件的工序数相等,此时需要设置一台虚拟机器M...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的模糊柔性作业车间优化调度方法,其特征在于:包括以下步骤:S1、进行问题描述:1)、进行模糊数定义,隶属度函数被用于表示论域X上的模糊集合其在实轴上的取值范围为[0,1],取值的大小能够反映元素对的隶属程度;随着的取值从0到1逐渐增加,元素x对的隶属程度越来越高;在本申请的调度问题中,为三角模糊数(TFN),其隶属度函数表示如下:2)、进行模糊数操作,模糊数的操作包括加法操作、排序操作和最大操作,其模糊数的具体操作如下:加法操作:排序操作(包含3种准则):令准则1:如果则准则2:如果则需要比较t2和t
′2;如果t2>(<)t
′2,则准则3:如果t2=t
′2,则需要比较t3‑
t1和t
′3‑
t
′1;如果t3‑
t1>(<)t
′3‑
t
′1,则最大操作包含以下2种策略:策略1:策略2:如果则else需要注意的是,的隶属度函数被定义如下:3)、对FFJSSP定义,有n工件J={J1,

,J
i


,J
n
}需要在m台可用的机器M={M1,

,M
k


,M
m
}加工处理;每个工件J
i
包含至少一道工序同一工件的相邻工序间需满足优先级约束;每一道工序O
ij
有一个可选机器集这反映了FFJSSP的柔性,同时工序在每个机器上的处理时间不是固定的,这体现了FFJSSP的不确定性;同一工件相邻工序间的优先级约束需要满足;同一台机器同一时刻最多只能加工一道工序,即需要满足容量约束,本发明的优化目标为模糊Makespan的最小化;4)、将FFJSSP转化为近似的JSSP;5)、FFJSSP析取图表示,析取图模型,也称DG模型,用于描述FFJSSP;DG模型用一个3元
组作为FFJSSP的析取图表示,这里表示所有工序节点的集合,其包含2个虚拟节点(一个开始虚拟节点0和一个结...

【专利技术属性】
技术研发人员:汪烈军袁二东程述立吴芳
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1