当前位置: 首页 > 专利查询>福州大学专利>正文

基于深度强化学习的智能工厂生产作业调度方法及系统技术方案

技术编号:30314346 阅读:20 留言:0更新日期:2021-10-09 22:57
本发明专利技术涉及一种基于深度强化学习的智能工厂生产作业调度方法,包括以下步骤:步骤S1:获取每个任务各个工序在对应机器上的处理数据,并预处理后构成训练集;步骤S2:构建深度强化学习DQN模型,所述深度强化学习DQN模型包括DQN深度学习网络结构和DQN强化学习模块;步骤S3:训练深度强化学习DQN模型,得到训练后的深度强化学习DQN模型;步骤S4:将待生产任务调度数据进行预处理后输入训练后的深度强化学习DQN模型,得到生产任务工序的调度安排。本发明专利技术能够实现对当前生产作业快速且高效的调度。能够实现对当前生产作业快速且高效的调度。能够实现对当前生产作业快速且高效的调度。

【技术实现步骤摘要】
基于深度强化学习的智能工厂生产作业调度方法及系统


[0001]本专利技术涉及智能工厂生产调度领域,具体涉及一种基于深度强化学习的智能工厂生产作业调度方法及系统。

技术介绍

[0002]作为工业4.0的核心,智能工厂旨在构建面向制造业的信息物理系统,通过集成信息系统与物理实体,实现工厂中机器、原料、产品的自组织生产,其中,生产作业的智能调度是提升工厂生产效率、节约生产成本的关键之一,在传统的工程生产作业调度中,调度往往需要工作人员凭借以往的经验手动选择一种或几种固定调度规则,这对于人员的经验有着较高的要求,调度质量也无法保证始终高效和稳健。随着软、硬件方面的不断成熟,AI辅助的智能技术开始被集成在智能制造中以提高盈利能力和竞争力,在过去的几年里,在输运、装配搬运、生产预测、设备预防性维护中已经出现了成功的应用,很自然的会考虑将机器学习用于生产作业的智能调度中以缩短最大完成时间,提升机器利用率。
[0003]目前智能工厂中的生产作业调度方法研究主要可分为三类:
[0004]基于知识的生产作业调度方法,基于知识的方法(如专家系统)其本质是通过专业从业人员的经验累积提出决策建议,来模拟一种原始的人工智能的调度决策系统。Kumara等人引入了一个框架来开发了一个工作车间调度和故障诊断的专家系统,可以给出调度以及故障诊断的决策与建议;Wang等人提出了一种将知识推理和语义数据集成的智能糖果包装方案,设计了推理引擎用于同时处理存在模型与来自生产过程的实时语义数据;同时为智能糖果包装应用程序构建了基准测试系统,能够直接支持客户定制和灵活的混合生产。
[0005]基于数学优化方法的生产作业调度方法,经典的生产调度问题常使用基于数学规划的方法来寻找调度解决方案,将生产调度问题描述为一个受限制的优化问题,目标是找到满足约束条件下的最优调度。Ivan等人提出了短期供应链调度的动态模型和算法,同时考虑了机器结构与作业分配,提出一种基于作业执行非平稳解释与调度问题的时间分解的调度方法,通过连续最大原则的修改形式与数学优化混合,提供了一个多项式时间的调度解决方案。基于数学优化的生产作业调度方法通常能够寻找到问题的最优解,但是原始的优化模型面对调度问题时常会受限于各种变量以及多重的条件约束,在寻找最优解的过程中会产生较高的时间与计算成本,难以满足生产调度的及时性要求,需要进一步进行改进才能用于实际的生产调度问题。
[0006]基于群智能的启发式调度方法,Law等人提出了使用调度规则来实现更高的效率,它集成了一个专家系统和启发式算法,用于解决在约束条件下的供应链调度问题;秦新立等提出的改进蚁群算法,实现了发电厂清洁机器人对太阳能电池板清洁工作的任务分配。基于群智能的启发式算法具有较强的寻优能力,能够探索各种调度可能方案,但是通常会面临陷入局部最优的问题,且调度执行时间会随着调度问题规模的增大而产生明显的增长。
[0007]伴随着深度学习在声音、视觉、医药、工业各领域的成功应用,人工智能激发了越
来越多的兴趣用于解决现实环境中的问题,深度强化学习作为深度学习和强化学习的结合,具有强化学习的优秀决策与深度学习的良好感知能力,能够自动提取各图像特征并通过强化学习训练给出明智的决策,在过往的工作中,深度强化学习主要用于游戏闯关训练以及棋类博弈,更多人期待它能够在实践领域中展现出实际应用,而智能工厂下的动态生产作业调度就是一个极好的实践环境。

技术实现思路

[0008]有鉴于此,本专利技术的目的在于提供一种基于深度强化学习的智能工厂生产作业调度方法及系统,能够实现对当前生产作业快速且高效的调度。
[0009]为实现上述目的,本专利技术采用如下技术方案:
[0010]一种基于深度强化学习的智能工厂生产作业调度方法,包括以下步骤:
[0011]步骤S1:获取每个任务各个工序在对应机器上的处理数据,并预处理后构成训练集;
[0012]步骤S2:构建深度强化学习DQN模型,所述深度强化学习DQN模型包括DQN深度学习网络结构和DQN强化学习模块;
[0013]步骤S3:训练深度强化学习DQN模型,得到训练后的深度强化学习DQN模型;
[0014]步骤S4:将待生产任务调度数据进行预处理后输入训练后的深度强化学习DQN模型,得到生产任务工序的调度安排。
[0015]进一步的,所述预处理具体为:将生产任务调度数据转换成三维矩阵,包括处理时间矩阵、完成时间矩阵和任务执行矩阵。
[0016]进一步的,所述任务执行矩阵是一个布尔矩阵,初始化为全0,用于反应当前工序在是否执行,若执行,则矩阵对应位置置为1,反正则为0,所述三维矩阵大小为3
×
N
×
O其中N代表生产任务数量,O表示生产任务工序数量,对于生产工序小于O的任务,超出工序的部分处理时间设为0。
[0017]进一步的,所述DQN深度学习网络的卷积层采用大小不同的若干个卷积核进行,用于提取输入状态的特征;所述卷积核采用方形卷积核,卷积计算公式表示如下:
[0018]y=g(w
·
x+b)
[0019]其中w表示代表卷积核的权重向量,x表示当前卷积位置的矩阵向量,b属于偏置,g是激活函数。
[0020]进一步的,所述DQN强化学习模块包括动作决策单元、回报设定单元和算法更新单元。
[0021]进一步的,所述动作决策单元在深度学习网络得到所有可能输出调度动作对应的价值估计Q后,采用ε

greedy策略进行动作选择,用ε表示探索概率,生成一个0到1的随机数,当该随机数小于ε时随机选择任意一合法动作,反之选择具有最大Q值的调度动作,探索率ε随着神经网络训练次数的增加而逐渐减低,直至0.05时保持不变持续到训练结束。
[0022]进一步的,所述回报设定单元,具体如下:
[0023]生产作业调度目的是最大化机器的平均利用率的同时最小化最大完成时间,机器平均利用率具体公式表示如下:
[0024][0025]其中M、N、O分别表示生产线、生产任务、生产任务工序的数量,m、n、o表示生产线、生产任务以及工序对应的序号,P
nom
表示任务n的第o道工序在机器m上的执行时间;P表示所有工序的处理总时间,Makespan表示所有工序的最晚结束时间,即最大完成时间;
[0026]由上式可知,因为P、M值为常数,目标最小化最大完成时间等同于最大化机器平均利用率,将回报设定为动作选择前后利用率的差值,具体公式表示如下:
[0027][0028]其中表示当前状态的机器平均利用率,表示上一状态的机器平均利用率。
[0029]进一步的,所述算法更新单元,具体为:使用当前动作选择得到的立即回报与下一状态的最大动作价值估计Q估计来更新Q值,网具体公式表示如下:
[0030]Q(s,a)

Q(s,a)+α[r+γmax
a
Q(s

,a
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的智能工厂生产作业调度方法,其特征在于,包括以下步骤:步骤S1:获取每个任务各个工序在对应机器上的处理数据,并预处理后构成训练集;步骤S2:构建深度强化学习DQN模型,所述深度强化学习DQN模型包括DQN深度学习网络结构和DQN强化学习模块;步骤S3:训练深度强化学习DQN模型,得到训练后的深度强化学习DQN模型;步骤S4:将待生产任务调度数据进行预处理后输入训练后的深度强化学习DQN模型,得到生产任务工序的调度安排。2.根据权利要求1所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述预处理具体为:将生产任务调度数据转换成三维矩阵,包括处理时间矩阵、完成时间矩阵和任务执行矩阵。3.根据权利要求2所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述任务执行矩阵是一个布尔矩阵,初始化为全0,用于反应当前工序在是否执行,若执行,则矩阵对应位置置为1,反正则为0,所述三维矩阵大小为3
×
N
×
O其中N代表生产任务数量,O表示生产任务工序数量,对于生产工序小于O的任务,超出工序的部分处理时间设为0。4.根据权利要求1所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述DQN深度学习网络的卷积层采用大小不同的若干个卷积核进行,用于提取输入状态的特征;所述卷积核采用方形卷积核,卷积计算公式表示如下:y=g(w
·
x+b)其中w表示代表卷积核的权重向量,x表示当前卷积位置的矩阵向量,b属于偏置,g是激活函数。5.根据权利要求1所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述DQN强化学习模块包括动作决策单元、回报设定单元和算法更新单元。6.根据权利要求5所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述动作决策单元在深度学习网络得到所有可能输出调度动作对应的价值估计Q后,采用ε

greedy策略进行动作选择,用ε表示探索概率,生成一个0到1的随机数,当该随机数小于ε时随机选择任意一合法动作,反之选择具有最大Q值的调度动作,探索率ε随着神经网络训练次数的增加而逐渐减低,直至0.05时保持不变持续到训练结束。7.根据权利要求5所述的基于深度强化学习的智能工厂生产作业调度方法,其特征在于,所述回报设定单元,具体如下:生产作业调度目的是最大化机器的平均利用率的同时最小化最大完成时间,机器平均利用率具体公式表示如下:其中M、N、O分别表示生产线、生产任务、生产任务工序的数量,m、n、o表示生产线、生产任务以及工序对应的序号,P
nom
表示任务n的第o道工序在机器m上的执行时间;P表示所有工序的处理总时间,Makespan表示所有工序的最晚结束时间,即最大完成时间;由上式可知,因为P、M值为常数,目标最小化最大完成时间等同于最大化机器平均利用率,将回报设定为动作选择前后利用率的差值,具体公式表示如下:
其中表示当前状态的机器平均利用率,表示上一状态...

【专利技术属性】
技术研发人员:董晨熊乾程洪祺瑜陈震亦
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1