一种基于DDQN的智能车间动态自适应调度方法及系统技术方案

技术编号:32288445 阅读:24 留言:0更新日期:2022-02-12 19:57
本发明专利技术提出一种基于DDQN的智能车间动态自适应调度方法及系统,涉及车间作业调度,首先以采集的车间生产作业数据作为历史大数据,构建基于数据状态的马尔科夫状态过程,设置训练数据样本,结合DDQN算法,基于样本训练当前目标Q网络得到训练好的深度目标Q网络,最大程度地贴合离散车间生产作业的实际情况。构建实时状态与深度目标Q网络交互自适应调度匹配执行机制,根据当下的实时数据状态进行匹配推演,生成调度策略对下一步作业进行指导,可快速响应车间的动态变化,进行“一步一推理”的自适用动态调度,高效地匹配合适的调度策略动作,极大地节约了时间成本的同时提高了生产的效率。效率。效率。

【技术实现步骤摘要】
一种基于DDQN的智能车间动态自适应调度方法及系统


[0001]本专利技术涉及车间作业调度的
,更具体地,涉及一种基于DDQN的智能车间动态自适应调度方法及系统。

技术介绍

[0002]对制造业而言,车间作业调度问题一直是企业实际生产中至关重要的一环。如何提高车间调度效率,快速响应车间的动态变化,让调度更加智能化,是车间调度问题的研究重点。
[0003]目前,大部分调度问题是NP问题,传统的车间现场动态调度做法是采用反应式、预测反应式、前摄式或滚动式等方式重调度或修补调度。现阶段,多数解决车间调度问题的方案采用数学规划或启发式算法,通过对策略空间进行搜索,来获取调度策略优化,而针对动态自适应调度的生产车间,大多数启发式算法并不具备相当的稳定性,其性能取决于具体问题和设计者经验。此外,启发式算法不能从整体上去完全利用数据之间的价值,适应不了复杂的车间生产环境。对于稍大规模的调度问题,在车间实际生产中往往会有各种复杂的干扰元素,比如设备故障、增删订单等不确定的动态事件,导致生产过程无法按照预设基准计划进行,可解性差。
[0004]现有技术中公开了一种基于深度强化学习的流水车间调度方法,将每个工件作为节点并将其工序的处理时间作为节点信息进行聚合得到其嵌入表示,使用指针网络拟合策略网络,然后将最大完工时间作为奖励,对策略网络进行训练并保存参数,在实际问题中,将每个工件的嵌入表示作为策略网络的输入,并依次选择概率最高的工件,直到所有工件选择完毕得到完整的调度序列,该方案在小规模问题上可以获得近优解,在大规模问题上可以获得优于启发式算法和遗传算法的较优解,但是单纯的深度学习DQN算法可能会导致过度估计,使得调度结果偏差较大。
[0005]DDQN表示double DQN,是以深度强化学习为基础,实现“无偏估计”的一种被广泛应用的深度学习算法。在车间作业调度中,考虑调度过程中可能存在的动态不确定性情况,如何最大程度贴合实际车间生产作业,并且快速响应车间的动态变化,是实现有效率的车间动态调度,为企业制造生产带来巨大的实际价值的关键。

技术实现思路

[0006]为解决当前车间生产调度方法无法贴合车间实际生产作业情况,且无法快速响应车间状况动态变化的问题,本专利技术提出一种基于DDQN的智能车间动态自适应调度方法及系统,在实时状态下高效指导工业生产,实现车间生产的自适应调度,快速响应车间的动态变化,从而提高车间生产调度效率。
[0007]为了达到上述技术效果,本专利技术的技术方案如下:
[0008]一种基于DDQN的智能车间动态自适应调度方法,所述智能车间为搭建了物联网环境的离散制造车间,由工件加工工位、车间物流节点及工件缓存区的制造节点组成,所述方
法包括以下步骤:
[0009]S1.采集车间生产作业数据;
[0010]S2.对车间生产作业数据进行预处理,然后构建制造节点的多维数据状态,按时间序列顺序形成制造节点的马尔科夫状态视图,完成数据状态建模;
[0011]S3.随机获取状态建模后的数据,每一条数据中存在表征离散制造车间的制造节点的当前数据状态S、基于当前数据状态S所采取的调度策略动作A、当前数据状态S执行调度策略动作A后的奖励R、制造节点的下一个数据状态S+1及车间生产作业过程的末状态D,然后一次选取k条数据作为样本;
[0012]S4.确定基于DDQN的当前目标Q网络,以马尔科夫状态视图中制造节点的各个数据状态S作为当前目标Q网络的输入,以执行各个调度策略动作A的动作评估值Q作为当前目标Q网络的输出,基于样本训练当前目标Q网络,得到训练好的深度目标Q网络;
[0013]S5.确定制造节点的实时数据状态S',将实时数据状态S'作为训练好的深度目标Q网络的输入,得到基于当前实时数据状态S'所预估的可选调度策略动作A'以及实时数据状态S'采用调度策略动作A'进行调度作业所花费的时间T,并将时间T按照从小到大排序;
[0014]S6.若时间T均不相等,将时间T最小时对应的调度策略动作A'选定为最优调度策略动作,作为下一步执行的调度动作;若存在多个相等的最小时间T,选取动作评估值Q最大的调度策略动作A'作为最优调度策略动作;
[0015]S7.重复步骤S5~S6,动态更新调度策略,直至车间生产作业完成。
[0016]在本技术方案中,首先以采集的车间生产作业数据作为历史大数据,通过数据状态建模,构建基于数据状态的马尔科夫状态过程,设置训练数据样本中的当前数据状态S、调度策略动作A、奖励R、下一个数据状态S+1及车间生产作业过程的末状态D,确定基于DDQN的当前目标Q网络,利用历史数据中已形成的优化调度经验,引入基于深度强化学习的DDQN算法对历史大数据进行分析处理,然后基于样本训练当前目标Q网络得到训练好的深度目标Q网络,最大程度地贴合离散车间生产作业的实际情况,最后构建实时状态与深度目标Q网络交互自适应调度匹配执行机制,根据当下的实时数据状态进行匹配推演,生成调度策略对下一步作业进行指导,推演时间短,可以快速响应车间的动态变化,能根据车间作业的实时状态高效地匹配合适的调度策略动作,提高了车间生产的效率;可以适应物联网车间各类实时动态变化,无需像传统调度算法一样需要进行全局搜索和全局重新调度,而是进行“一步一推理”的自适用动态调度,极大地节约了时间成本的同时提高了生产的效率。同时,也解决传统调度算法中由于车间制造系统规模过大或者约束过多的条件下可解性差的问题。
[0017]优选地,步骤S1中,利用Agent模型采集车间生产作业数据,Agent模型由智能车间的主动采集对象设备和被动采集对象设备封装而成,主动采集对象设备包括自动RFID采集设备或条码采集终端、智能设备工控下位机、PLC控制器、数据采集终端及能共享部分数据的应用系统;被动采集对象设备的被动采集对象包括通过添加RFID/自动ID标签进行绑定标识的工件、配件、物料、生产设备、工具及操作工人,Agent模型利用主动采集对象设备实时采集车间作业的数据,被动采集对象在车间生产作业过程中流转,自身已绑定标识的数据信息被主动采集对象捕捉,被动采集对象设备配合主动采集对象设备采集车间作业数据,并进行上报。
[0018]优选地,步骤S1所述的采集的车间生产作业数据包括:车间操作工人的技术水平的数据、生产设备的工作状态的数据、待加工工件的信息数据、产品各种指标的精度和制造节点的上下游节点状态在内的“人、机、物、法、环”各种维度数据;
[0019]步骤S2所述的采集的车间生产作业数据进行预处理的过程包括:清洗车间生产作业数据,处理车间生产作业数据中的错误值和缺失值,根据数据错误或缺失的情况,按行或按列删除;对于缺失值,根据在车间制造实际情况下的数据自身属性,采用均值或中位数或众数作为中心度量值来填补缺失数据;
[0020]把有量纲的数据映射到无量纲的离散数据空间,即把车间生产作业过程中所得到的数据进行离散化处理;在不丢失所需要信息的前提下,把采集到的数据进行数字化、离散化、去单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DDQN的智能车间动态自适应调度方法,其特征在于,所述智能车间为搭建了物联网环境的离散制造车间,由工件加工工位、车间物流节点及工件缓存区的制造节点组成,所述方法包括以下步骤:S1.采集车间生产作业数据;S2.对车间生产作业数据进行预处理,然后构建制造节点的多维数据状态,按时间序列顺序形成制造节点的马尔科夫状态视图,完成数据状态建模;S3.随机获取状态建模后的数据,每一条数据中存在表征离散制造车间的制造节点的当前数据状态S、基于当前数据状态S所采取的调度策略动作A、当前数据状态S执行调度策略动作A后的奖励R、制造节点的下一个数据状态S+1及车间生产作业过程的末状态D,然后一次选取k条数据作为样本;S4.确定基于DDQN的当前目标Q网络,以马尔科夫状态视图中制造节点的各个数据状态S作为当前目标Q网络的输入,以执行各个调度策略动作A的动作评估值Q作为当前目标Q网络的输出,基于样本训练当前目标Q网络,得到训练好的深度目标Q网络;S5.确定制造节点的实时数据状态S

,将实时数据状态S

作为训练好的深度目标Q网络的输入,得到基于当前实时数据状态S

所预估的可选调度策略动作A

以及实时数据状态S

采用调度策略动作A

进行调度作业所花费的时间T,并将时间T按照从小到大排序;S6.若时间T均不相等,将时间T最小时对应的调度策略动作A

选定为最优调度策略动作,作为下一步执行的调度动作;若存在多个相等的最小时间T,选取动作评估值Q最大的调度策略动作A

作为最优调度策略动作;S7.重复步骤S5~S6,动态更新调度策略,直至车间生产作业完成。2.根据权利要求1所述的基于DDQN的智能车间动态自适应调度方法,其特征在于,步骤S1中,利用Agent模型采集车间生产作业数据,Agent模型由智能车间的主动采集对象设备和被动采集对象设备封装而成,主动采集对象设备包括自动RFID采集设备或条码采集终端、智能设备工控下位机、PLC控制器、数据采集终端及能共享部分数据的应用系统;被动采集对象设备的被动采集对象包括通过添加RFID/自动ID标签进行绑定标识的工件、配件、物料、生产设备、工具及操作工人,Agent模型利用主动采集对象设备实时采集车间作业的数据,被动采集对象在车间生产作业过程中流转,自身己绑定标识的数据信息被主动采集对象捕捉,被动采集对象设备配合主动采集对象设备采集车间作业数据,并进行上报。3.根据权利要求1所述的基于DDQN的智能车间动态自适应调度方法,其特征在于,步骤S1所述的采集的车间生产作业数据包括:车间操作工人的技术水平的数据、生产设备的工作状态的数据、待加工工件的信息数据、产品各种指标的精度和制造节点的上下游节点状态在内的“人、机、物、法、环”各种维度数据;步骤S2所述的采集的车间生产作业数据进行预处理的过程包括:清洗车间生产作业数据,处理车间生产作业数据中的错误值和缺失值,根据数据错误或缺失的情况,按行或按列删除;对于缺失值,根据在车间制造实际情况下的数据自身属性,采用均值或中位数或众数作为中心度量值来填补缺失数据;把有量纲的数据映射到无量纲的离散数据空间,即把车间生产作业过程中所得到的数据进行离散化处理;在不丢失所需要信息的前提下,把采集到的数据进行数字化、离散化、去单位化描述,构建无量纲的数据。
4.根据权利要求3所述的基于DDQN的智能车间动态自适应调度方法,其特征在于,步骤S2中所述的构建制造节点的多维数据状态,按时间序列顺序链接形成制造节点的马尔科夫状态视图的过程包括:采集的车间生产作业数据为多源异构数据,将采集的车间生产作业数据根据车间作业生产逻辑进行链接集成,通过以下方式的状态集合:单个制造节点状态<维度1状态,维度2状态,维度3状态,......,维度i状态>对车间中制造节点的多维数据状态进行表达,构建出每个制造节点的多维数据状态,每一个维度状态包括或部分包括了人力维度、物料维度、生产设备维度,工艺维度和环境维度的采集数据;其中,人力维度包括当前制造节点的操作工人的技能熟练度、监控人员的管理水平,物料维度包括订单工件编号、工件数目、及类型,生产设备维度包括生产设备的工作状态、类型、维护时间和忙闲情况;工艺维度包括加工精度、作业规范及产品标准,环境维度包括车间的生成上下文及自然环境因素;所有制造节点链接起来形成整个车间智能制造系统,将各个制造节点的多维数据状态映射到车间生产的所有制造节点中,从时间上截取车间制造过程中某一个瞬间的俯视全景数据视图,将各个制造节点基于某个瞬间的作业数据映射,把所有车间制造节点和各种“人、机、物、法、环”约束维度一一映射,对每一个制造节点进行编号,通过以下方式的状态集合:智能制造系统状态<制造节点1的状态,制造节点2的状态,......,制造节点j的状态>把包含所有制造节点整个智能制造系统的数据状态表示出来;将整个智能制造系统的数据状态视图根据车间生产作业过程的各个瞬间逐个表达出来,按照时间序列顺序连接,通过以下方式的时间序列顺序:智能制造系统马尔科夫状态过程<系统的状态T1,系统的状态T2,......,系统的状态Tk>将智能制造系统制造节点的各个维度状态数据信息串联起来,形成符合车间生产顺序的数据状态,得到完整车间生产过程中制造物联网映射的马尔科夫状态视图及其状态演变。5.根据权利要求4所述的基于DDQN的智能车间动态自适应调度方法,其特征在于,离散制造车间的制造节点的当前数据状态S包括制造节点的忙闲状况、容量、忙时状态的节点正在操作的订单的数目以及订单编号;离散制造车间的制造节点的各个数据状态S按时间顺序串联成为完整的智能制造系统马尔科夫状态过程;调度策略动作A表达为<JOBID,MNID&...

【专利技术属性】
技术研发人员:王美林陈晓航吴耿枫梁凯晴
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1