一种基于D3QN和时间状态的智能车间实时调度方法及系统技术方案

技术编号：40499005 阅读：15 留言：0更新日期：2024-02-26 19:26

本发明专利技术涉及车间调度的技术领域，提出一种基于D3QN和时间状态的智能车间实时调度方法及系统，包括以下步骤：采集作业数据，按智能车间的车间资源类别，将作业数据分类处理成马尔可夫决策链数据；利用根据当前时刻对应的马尔可夫决策链数据和历史时刻对应的马尔可夫决策链数据，构建时间状态序列和随机抽取的马尔可夫决策链数据，计算已构建好的基于D3QN算法的在线Q网络和目标Q<supgt;‑</supgt;网络之间的损失函数；利用损失函数更新在线Q网络的参数，得到已收敛的在线Q网络；利用已收敛的在线Q网络匹配智能车间的实时状态，择优排产，反复匹配智能车间的实时状态并择优排产，直至生产结束。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及车间调度的，更具体地，涉及一种基于d3qn和时间状态的智能车间实时调度方法及系统。

技术介绍

1、随着强化学习算法和深度神经网络技术的发展，深度强化学习算法被广泛应用于智能车间的实时调度方法中，在当前将dqn(deep q networks)算法和d3qn(duelingdouble deep q network)算法分别应用于智能车间的实时调度方法中，dqn和d3qn都是深度增强学习算法，都采用神经网络来学习q值函数；q值函数是一个将状态和行动映射到q值的函数，表示执行某行动在特定状态下获得的预期回报，且q值函数是使用深度神经网络进行建模的。

2、将dqn或d3qn应用于智能车间的实时调度方法的具体做法为：基于从智能车间的制品物料订单下发至制品加工完毕的包括车间物料订单下放、车间工件工艺排产和车间完工结果的生产过程中，采集包括车间内“人、机、物、法、环”各类资源信息变化的作业数据，利用dqn或d3qn对网络模型进行训练，使网络模型拟合最优策略，即可匹配当下的状态并快速得出最优决策，进而利用最优决策对智能车间进行择优排产，达到提高智能车间的实时调度的调度效率的目的；而且网络模型可以不断进行自我学习提升求解性能，得出更好的最优策略；

3、现有技术提出了一种动态调度方法及系统，首先获取智能车间的当前调度析取图、agv当前位置信息及预设状态特征的当前状态特征值；将所述当前调度析取图、agv当前位置信息及预设状态特征的当前状态特征值输入到基于改进型dqn网络预先建立的调度模型中，输出调度规则；执行所

技术实现思路

1、本专利技术为克服上述现有技术所述的没有考虑智能车间的历史状态导致智能车间的调度效率较低的缺陷，提供一种综合考虑智能车间的当前状态和历史状态，能够有效提高智能车间的调度效率的基于d3qn和时间状态的智能车间实时调度方法及系统。

2、为解决上述技术问题，本专利技术的技术方案如下：

3、一种基于d3qn和时间状态的智能车间实时调度方法，包括以下步骤：

4、s1：采集作业数据，并按智能车间的车间资源类别，将作业数据分类处理成马尔可夫决策链数据；

5、s2：根据当前时刻对应的马尔可夫决策链数据和历史时刻对应的马尔可夫决策链数据，构建时间状态序列；

6、s3：随机抽取若干条马尔可夫决策链数据，利用随机抽取的马尔可夫决策链数据和时间状态序列，计算已构建好的基于d3qn算法的在线q网络和目标q-网络之间的损失函数；

7、s4：利用在线q网络与目标q-网络之间的损失函数更新在线q网络的参数，并在在线q网络参数更新的过程中，更新目标q-网络的参数，在所述损失函数的损失值达到收敛时，停止在线q网络参数的更新，得到已收敛的在线q网络；

8、s5：利用已收敛的在线q网络匹配智能车间的实时状态，择优排产，反复匹配智能车间的实时状态并择优排产，直至生产结束。

9、本专利技术还提出了一种基于d3qn和时间状态的智能车间实时调度系统用于实现上述的基于d3qn和时间状态的智能车间实时调度方法，包括：

10、作业数据采集处理模块，用于采集作业数据，并按智能车间的车间资源类别，将作业数据分类处理成马尔可夫决策链数据；

11、时间状态序列构建模块，用于根据当前时刻对应的马尔可夫决策链数据和历史时刻对应的马尔可夫决策链数据，构建时间状态序列；

12、损失函数计算模块，用于随机抽取若干条马尔可夫决策链数据，利用随机抽取的马尔可夫决策链数据和时间状态序列，计算已构建好的基于d3qn算法的在线q网络和目标q-网络之间的损失函数；

13、网络更新模块，用于利用在线q网络与目标q-网络之间的损失函数更新在线q网络的参数，并在在线q网络参数更新的过程中，更新目标q-网络的参数，在所述损失函数的损失值达到收敛时，停止在线q网络参数的更新，得到已收敛的在线q网络；

14、择优排产模块，用于利用已收敛的在线q网络匹配智能车间的实时状态，择优排产，反复匹配智能车间的实时状态并择优排产，直至生产结束。

15、与现有技术相比，本专利技术技术方案的有益效果是：

16、本专利技术利用当前时刻对应的马尔可夫决策链数据和历史时刻对应的马尔可夫决策链数据构建时间状态序列，并利用随机抽取的马尔可夫决策链数据和时间状态序列计算在线q网络与目标q-网络之间的损失函数，根据损失函数更新在线q网络的参数，得到已收敛的在线q网络，再利用已收敛的在线q网络匹配智能车间的实时状态，择优排产，综合考虑了智能车间的当前状态和历史状态，能够获取更全面的车间状态信息特征，进而有效提高智能车间的调度效率。

本文档来自技高网...

【技术保护点】

1.一种基于D3QN和时间状态的智能车间实时调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于D3QN和时间状态的智能车间实时调度方法，其特征在于，将作业数据分类处理成马尔可夫决策链数据的步骤包括：

3.根据权利要求2所述的基于D3QN和时间状态的智能车间实时调度方法，其特征在于，构建时间状态序列的步骤包括：

4.根据权利要求3所述的基于D3QN和时间状态的智能车间实时调度方法，其特征在于，所述已构建好的基于D3QN算法的在线Q网络和目标Q-网络为两个结构一致的基于时间状态序列的Transformer知识网络；

5.根据权利要求4所述的基于D3QN和时间状态的智能车间实时调度方法，其特征在于，随机抽取若干条马尔可夫决策链数据后，按随机抽取的若干条马尔可夫决策链数据对应的时间顺序，将随机抽取的若干条马尔可夫决策链数据构建为历史时间状态序列；

6.根据权利要求5所述的基于D3QN和时间状态的智能车间实时调度方法，其特征在于，所述奖励值r利用时间状态序列设置，且所述奖励值r对应的奖励函数R的表达式为：

<...

【技术特征摘要】

1.一种基于d3qn和时间状态的智能车间实时调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于d3qn和时间状态的智能车间实时调度方法，其特征在于，将作业数据分类处理成马尔可夫决策链数据的步骤包括：

3.根据权利要求2所述的基于d3qn和时间状态的智能车间实时调度方法，其特征在于，构建时间状态序列的步骤包括：

4.根据权利要求3所述的基于d3qn和时间状态的智能车间实时调度方法，其特征在于，所述已构建好的基于d3qn算法的在线q网络和目标q-网络为两个结构一致的基于时间状态序列的transformer知识网络；

5.根据权利要求4所述的基于d3qn和时间状态的智能车间实时调度方法，其特征在于，随机抽取若干条马尔可夫决策链数据后，按随机抽取的若干条马尔可夫决策链数据对应的时间顺序，将随机抽取的若干条马尔可夫决策链数据构建为历史时间状态序列；

6.根据权利要求5所述的基于d3qn和时间状态的智能车间实时调度方法，其特征在于，所述奖励值r利用时间状态序列...

【专利技术属性】
技术研发人员：王美林，谢兴，梁凯晴，肖迪，胡士豪，李俊煜，冯伟莹，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人