基于深度强化学习的智能作业分批方法、装置及电子设备制造方法及图纸

技术编号:30634511 阅读:53 留言:0更新日期:2021-11-04 00:17
本发明专利技术公开了一种基于深度强化学习的智能作业分批方法、装置及电子设备,涉及工业互联网技术领域。本发明专利技术实例包括以下步骤:获取每个作业的静态特征和动态特征,所述作业的静态特征包括作业交货期、作业的规格和工艺要求,所述作业的动态特征包括接收时刻;将所述各作业的静态特征和动态特征输入作业分批模块,作业分批模块利用马尔可夫决策过程将待组批作业集合中具有相似特征的作业组合为同一个批次,使最终组成的批次总数尽量少,且每个批次中的作业特征差异值尽量小。本发明专利技术可以充分利用工业互联网中大量的未标记数据学习稳定分批策略,并能处理有多维度特征的输入数据,给出稳定的、高效的作业分批解决方案,适用于作业量较大的应用场景中。于作业量较大的应用场景中。于作业量较大的应用场景中。

【技术实现步骤摘要】
基于深度强化学习的智能作业分批方法、装置及电子设备


[0001]本专利技术涉及工业物联网
,尤其涉及一种基于深度强化学习的智能作业分批方法、装置及电子设备。

技术介绍

[0002]随着工业物联网(Industrial Internet of things,IIoT)的蓬勃发展,传统产业正在向智能制造升级。多品种小批量柔性生产是智能制造的重要组成部分。为了提高设备利用率和生产效率,生产企业往往将具有类似特征的作业组成一个批次再以批次为单位进行生产。作业分批问题广泛存在于化工、纺织、半导体、医疗、炼钢等领域。以炼钢领域为例,每个作业都有多个特征,如钢号、厚度、宽度、重量等。由于不同的客户需要不同的钢铁产品,炼钢领域的作业通常具有不同的特征值。
[0003]为提高生产效率,在满足生产设备产能约束的情况下,将具有类似钢种、类似厚度等相似特征的作业组合成一个批次进行生产。在实际生产中,这种作业分批过程通常由人工进行。然而,由人工进行作业分批往往具有以下问题:(1)待分批作业总数大、分批总数未知、作业特征多、分批约束多使得作业分批排列组合复杂本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的智能作业分批方法,其特征在于,包括以下步骤:S1、获取每个作业的静态特征和动态特征,所述作业的静态特征包括作业交货期、作业的规格和工艺要求,所述作业的动态特征包括接收时刻;S2、将所述各作业的静态特征和动态特征输入作业分批模块,作业分批模块利用马尔可夫决策过程将待组批作业集合中具有相似特征的作业组合为同一个批次,使最终组成的批次总数尽量少,且每个批次中的作业特征差异值尽量小;其中,马尔可夫决策过程为:在每一个时间步,作业分批模块获得当前环境的状态,作业在t时刻的状态包括作业的静态特征、作业在t时刻的需求量大小以及在t时刻当前批次n的剩余可用容量,当前环境在t时刻的状态为所有作业在t时刻的状态的集合;再根据当前环境的状态做出相应的动作,该动作的效果由一个正向或负向的奖励值来衡量,所述奖励值是目标函数值的相反数;然后环境受上一个动作的影响由上一个状态转移到下一个新的状态。2.根据权利要求1所述的基于深度强化学习的智能作业分批方法,其特征在于,步骤S2根据状态做出动作的过程为:将虚拟节点与其他作业节点一起作为模型的输入序列,在每个决策时间点t,作业分批模块依次从所有输入序列中选择一个作为输出节点;默认作业分批模块的第一个输出为虚拟节点,表示组批工作的开始;当作业分批模块选择虚拟节点作为输出节点,则表示当前批次划分结束;当所有作业都组合进对应的批次,根据作业分批模块的决策,会得到一个输出序列,该输出序列即为作业集合的组批结果。3.根据权利要求1所述的基于深度强化学习的智能作业分批方法,其特征在于,步骤S2所述的作业分批模块包括编码器和解码器两部分,编码器使用以一维卷积层作为嵌入层,将输入序列中每一作业的静态特征映射虚拟一个输出矩阵;解码器主要由长短期记忆网络、指针网络以及Mask向量组成,其工作过程为:在每个决策时间点t,长短期记忆网络读取上一决策时间点的长短期记忆网络隐含层状态以及上一决策时间点的输出节点,输出t时刻的隐含层状态;指针网络根据编码器的输出矩阵、t时刻长短期记忆网络隐含层状态、t时刻所有输入序列的动态特征向量、以及t时刻当前批次n的剩余容量,结合Mask向量计算出各个输出节点的概率分布,所述的Mask向量长度与输入序列相等,分别与入输序列一一对应,Mask向量每一位的取值为0或1,虚拟节点所对应的Mask向量位的值始终为1;最后选择概率值最大的节点作为t时刻输出节点;当完成t时刻的决策后,立即根据决策结果更新Mask向量、输入序列的动态特征向量、当前批次n的剩余容量,作为下一决策时间点模型的输入。4.根据权利要求3所述的基于深度强化学习的智能作业分批方法,其特征在于,所述的指针网络的工作过程为:在每一个解码时间步t,使用注意力机制得到t时刻针对输入序列的权重,将权重通过Softmax函数归一化后得到输入序列的概率分布。5.根据权利要求1所述的基于深度强化学习的智能作业分批方法,其特征在于,所述的作业分批模块的训练方法使用actor

critic算法,actor

critic算法由actor网络与critic网络组成;actor网络用于在每个决策时间点预测输入序列中各节点的概率,选取概率最大的节点作为输出节点;critic网络用于计算输入序列可获得奖励的估计值。6.根据权利要求5所述的基...

【专利技术属性】
技术研发人员:刘亮郑霄龙马华东江呈羚罗梓珲
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1