一种联邦迁移学习增强的多智能体车间动态调控方法技术

技术编号：40152622 阅读：7 留言：0更新日期：2024-01-26 23:16

本发明专利技术公开一种联邦迁移学习增强的多智能体车间动态调控方法，建立基于多智能体系统的分布式柔性流水车间动态调度模型；利用联邦学习，得到具表征能力的特征提取网络；根据车间实际任务需求与设备特点，结合经特征处理过后工作数据，基于所述特征提取网络，建立基于交叉采样的多智能体深度强化学习模型；使用深度Q学习算法训练所述多智能体深度强化学习模型；采用联邦迁移学习技术，收集其他车间或工厂与本地相似任务的数据，根据训练Q网络；随后，通过自适应权重融合技术，实现知识的有效迁移；完成多智能体车间动态调控。本发明专利技术结合了多智能体的自主决策与群体智能的优势，能够更灵活地分配生产任务，根据实时情境动态调整生产调控。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于智能工厂，特别是涉及一种联邦迁移学习增强的多智能体车间动态调控方法。

技术介绍

1、随着制造业的数字化进程加速，大量的生产数据被收集、分析并用于指导生产决策。从设备的运行状态到员工的操作习惯，从物料流动到产品的质量控制，每一个环节都产生了海量的数据。这为提高生产效率和质量提供了前所未有的机会，但同时也引发了对数据隐私的深切关注。

2、尤其在多智能体系统的应用中，多个智能体之间需要频繁地交换信息以完成协同任务。这些信息可能包括技术参数、生产计划、员工操作习惯等敏感数据。一旦这些数据被未经授权的第三方获取，不仅可能导致企业的核心竞争力受损，也可能危及到员工的个人隐私和企业的商业机密。

3、目前，随着工业物联网和边缘计算，数据的处理和决策日益从云端转向设备端，这为数据安全带来了新的机遇与挑战。综上所述，面对当前的挑战和机遇，迫切需要一种有效、可靠、具有强大泛化能力的车间动态调度策略。

技术实现思路

1、为了解决上述问题，本专利技术提出了一种联邦迁移学习增强的多智能体车间动态调控方法，这种技术结合了多智能体的自主决策与群体智能的优势，能够更灵活地分配生产任务，根据实时情境动态调整生产调控。

2、为达到上述目的，本专利技术采用的技术方案是：一种联邦迁移学习增强的多智能体车间动态调控方法，包括步骤：

3、s1:建立基于多智能体系统的分布式柔性流水车间动态调度模型；

4、s2:收集车间中各设备的工作数据，使用边缘计算进行初

5、s3:根据车间实际任务需求与设备特点，结合经特征处理过后工作数据，基于所述特征提取网络，建立基于交叉采样的多智能体深度强化学习模型；在所述多智能体深度强化学习模型建立过程中，定义每个智能体的状态空间s、动作空间a和状态转移函数t，并通过将步骤s1中的分布式柔性流水车间动态调度模型转化为一个优化问题来构建奖励函数r；

6、s4:使用深度q学习算法训练所述多智能体深度强化学习模型，包括：经验回放机制，通过从经验缓冲区中随机取样并更新q网络；通过固定目标网络策略更新频率，用于稳定训练过程；

7、s5:采用联邦迁移学习技术，收集其他车间或工厂与本地相似任务的数据，根据这些数据训练所述q网络；随后，通过自适应权重融合技术，实现知识的有效迁移；完成多智能体车间动态调控。

8、进一步的是，在所述步骤s1中，建立基于多智能体系统的分布式柔性流水车间动态调度模型，包括：

9、(1)建立目标函数，最小化工厂的最大完成时间；

10、(2)建立决策变量；

11、(3)约束条件：在同一时刻，相同工序只能在同一台机器上执行；

12、在同一时刻，同一台机器只能执行一道工序；

13、任何一道工序都需要加工时间；

14、任意工件在两机器间的运输时间不小于该工件在机器滞留区的放置时间；

15、每个工件在第i个工序加工完成的时间不早于第i-1个工序加工完成的时间、调运时间、以及考虑效率折损的该工序加工时间之和；

16、第h件产品的完成时间不小于每个部件的加工时间与产品装配时间之和；

17、总处理时间不低于所有产品完成时间之和；

18、工厂最大完工时间不低于总处理时间。

19、进一步的是，在所述步骤s2中,利用联邦学习，使分布在不同设备上的智能体共同进行分布式学习，得到具表征能力的特征提取网络，包括步骤：

20、s21:初始化服务器模型组件包括特征提取器t、分类器q和分布生成器g参数wt,wq和wg，以及客户端模型组件包括鉴别器d参数wd；

21、s22:将服务器模型参数下发至客户端，客户端利用本地鉴别器结合本地数据进行训练；

22、s23:完成本地训练后，客户端将参数wt,wq和wg上传至服务器，服务器聚合来自所有客户端模型参数，以获得更新参数；

23、s24:服务器将聚合后的更新参数发送给客户端，经过多轮的服务器至客户端交互后，特征提取网络得到充分训练。

24、进一步的是，在步骤s22中:将服务器模型参数下发至客户端，客户端利用本地鉴别器结合本地数据进行训练，包括步骤：

25、首先，更新参数wt,wq以达到最小化；

26、然后，更新参数wg,wd以达到最小化式。

27、进一步的是，在步骤s23中:完成本地训练后，客户端将参数wt,wq和wg上传至服务器，服务器聚合来自所有客户端模型参数，以获得新的参数，参数更新公式为：

28、

29、其中，表示t轮客户端i上传的本地参数，ωi为,x为本地数据,label为标签，ωt为服务器下发参数，t为最大训练轮次，表示客户端i训练所采用的样本数量，表示样本级损失函数，表示训练集。

30、进一步的是，在所述步骤s4中,使用深度q学习算法训练所述多智能体深度强化学习模型，包括步骤：

31、s41:初始化经验重放缓冲区随机初始化q网络参数目标网络参数获取初始状态s0；

32、s42:通过q网络计算q值，选择动作；

33、s43：对所选动作执行平均互交叉采样，利用当前状态选择最终动作；

34、s44：将上一步的历史操作数据存储到经验重放缓冲区从经验重放缓冲区中随机采样一个小批量的状态转换；

35、s45：根据优化目标，采用小批量梯度下降法对q值网络进行更新；

36、然后，更新目标网络的参数

37、最后，重复上述过程直至训练结束，从而得到适应于本地客户端任务q网络。

38、进一步的是，在步骤s42中，通过q网络计算q值，选择动作，根据下述公式选择动作：

39、

40、其中,a*是候选动作空间集，s是状态向量，是第个动作空间内的第1个候选动作，是第个动作空间内的第k个候选动作，是是第个动作空间内的第i个候选动作，{n1,...,nk}表示动作空间a*在执行不同生产任务时的动作候选集，q(·)表示q网络。

41、进一步的是，在步骤s43中，对所选动作执行平均互交叉采样，公式为：

42、

43、其中，ξ(·)表示采样运算符，为第个动作空间内的第个候选动作，为第个动作空间内的第i个候选动作，为第个动作空间内的第j个候选动作，表示交叉采样动作空间，通过在步骤s2中所获得的特征提取网络获取当前状态s；

44、然后，利用当前状态s选择最终动作，公式为：

45、

46、其中，q(a|s)表示状态为s时执行动作a的条件概率，为第个动作空间内的第1个候选动作，ak为第k个动作空间，q(·)表示q网络。

47、进一步的是，在所述步骤s5中,采用联邦迁移学本文档来自技高网...

【技术保护点】

1.一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，在所述步骤S1中，建立基于多智能体系统的分布式柔性流水车间动态调度模型，包括：

3.根据权利要求1所述的一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，在所述步骤S2中,利用联邦学习，使分布在不同设备上的智能体共同进行分布式学习，得到具表征能力的特征提取网络，包括步骤：

4.根据权利要求3所述的一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，在步骤S22中:将服务器模型参数下发至客户端，客户端利用本地鉴别器结合本地数据进行训练，包括步骤：

5.根据权利要求3所述的一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，在步骤S23中:完成本地训练后，客户端将参数wt,wq和wg上传至服务器，服务器聚合来自所有客户端模型参数，以获得新的参数，参数更新公式为：

6.根据权利要求1所述的一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在

7.根据权利要求6所述的一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，在步骤S42中，通过Q网络计算Q值，选择动作，根据下述公式选择动作：

8.根据权利要求6所述的一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，在步骤S43中，对所选动作执行平均互交叉采样，公式为：

9.根据权利要求1所述的一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，在所述步骤S5中,采用联邦迁移学习技术，通过评估客户端训练数据的质量，自适应地设置客户端网络聚合权重系数，从而实现步骤S4中Q网络的知识迁移，包括步骤：

10.根据权利要求9所述的一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，计算多个源客户端与目标客户端特征向量间的距离，距离计算公式为：

...

【技术特征摘要】

1.一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，在所述步骤s1中，建立基于多智能体系统的分布式柔性流水车间动态调度模型，包括：

3.根据权利要求1所述的一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，在所述步骤s2中,利用联邦学习，使分布在不同设备上的智能体共同进行分布式学习，得到具表征能力的特征提取网络，包括步骤：

4.根据权利要求3所述的一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，在步骤s22中:将服务器模型参数下发至客户端，客户端利用本地鉴别器结合本地数据进行训练，包括步骤：

5.根据权利要求3所述的一种联邦迁移学习增强的多智能体车间动态调控方法，其特征在于，在步骤s23中:完成本地训练后，客户端将参数wt,wq和wg上传至服务器，服务器聚合来自所有客户端模型参数，以获得新的参数，参数更新公式为：

【专利技术属性】
技术研发人员：彭浩，冉沛筠，王钢，孙硕，张婧赟，王景璟，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人