一种基于多智能体D3QN的混流制造车间实时调度方法技术

技术编号：43587777 阅读：60 留言：0更新日期：2024-12-06 17:51

本发明专利技术提供一种基于多智能体D3QN的混流制造车间实时调度方法，包括：构建车间的MPN模型并输入待执行订单进行初始化；进行随机调度模拟，构造马尔科夫决策链数据并载入样本数据池；初始化多个不同调度目标的智能体，为每个智能体构建D3QN模型；从样本数据池中随机抽取数据并训练每个智能体；最后获取车间的实时状态输入MPN模型；调用每个智能体训练好的D3QN模型对实时MPN模型进行调度计算后，得到以不同调度目标为导向的若干条车间排产策略，根据车间排产策略进行调度生产；本发明专利技术能够让生产管理者可以在多个维度上进行考虑和决策，从而更好地优化生产调度和资源利用，提高整体生产效率和经济效益。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度强化学习和车间智能调度，更具体地，涉及一种基于多智能体d3qn(double dueling deep q-network)的混流制造车间实时调度方法。

技术介绍

1、车间作业调度问题作为具有广泛工程背景的组合问题，其理论与求解方法的研究对指导制造企业的生产有着重要意义。过往该类问题的求解算法主要包括启发式调度算法和元启发式调度算法，但是它们存在着求解过程比较耗时，算法场景适用性不强等问题。

2、随着深度强化学习理论的提出以及在游戏决策、组合优化问题等领域成功应用，为解决车间作业调度问题提供了新的思路和新方法。深度强化学习结合调度规则可以弥补传统调度方法对历史数据应用不足的缺陷，获得满足生产实际需要的调度方案。强化学习是智能体通过与环境进行的不断交互，使其获得最大的奖励的过程。在学习过程中，智能体会根据环境当前状态输出一个动作，该动作会影响环境，使得环境的状态发生改变，同时反馈智能体决策这个动作的奖励，智能体会根据获得的奖励优化自身后续对动作的选择，在不断试错的过程中，完成智能体的策略优化。

3...

【技术保护点】

1.一种基于多智能体D3QN的混流制造车间实时调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多智能体D3QN的混流制造车间实时调度方法，其特征在于，所述步骤S1包括：

3.根据权利要求2所述的一种基于多智能体D3QN的混流制造车间实时调度方法，其特征在于，所述第i个工件在MPN模型中的表达式如下：

4.根据权利要求3所述的一种基于多智能体D3QN的混流制造车间实时调度方法，其特征在于，所述步骤S2中，从所述作业数据中提取每个工件的工件数量、工件编号和工件类型，以及每个工件在加工过程中所在的加工设备、工件剩余加工时间，并将提取到的...

【技术特征摘要】

1.一种基于多智能体d3qn的混流制造车间实时调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多智能体d3qn的混流制造车间实时调度方法，其特征在于，所述步骤s1包括：

3.根据权利要求2所述的一种基于多智能体d3qn的混流制造车间实时调度方法，其特征在于，所述第i个工件在mpn模型中的表达式如下：

4.根据权利要求3所述的一种基于多智能体d3qn的混流制造车间实时调度方法，其特征在于，所述步骤s2中，从所述作业数据中提取每个工件的工件数量、工件编号和工件类型，以及每个工件在加工过程中所在的加工设备、工件剩余加工时间，并将提取到的所有信息加载到所述mpn模型中进行初始化，获取初始化后的mpn模型。

5.根据权利要求3所述的一种基于多智能体d3qn的混流制造车间实时调度方法，其特征在于，所述步骤s3中，使用随机调度策略模拟待执行订单的全部工件加工起始至结束全过程，产生批量的模拟数据，并结合作业数据构建工件排产时间矩阵st、工件位置转移标识矩阵mm和工件在设备延时矩阵mt；

6.根据权利要求...

【专利技术属性】
技术研发人员：王美林，胡凯航，杨昊，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人