一种基于扩散模型和权重自适应知识蒸馏的联邦学习算法制造技术

技术编号：38656882 阅读：11 留言：0更新日期：2023-09-02 22:42

本发明专利技术涉及联邦学习的多源异构数据融合技术领域，公开一种基于扩散模型和权重自适应知识蒸馏的联邦学习算法，包括：客户端在本地训练扩散模型并在服务器端生成符合原始图像分布的数据，通过生成的图像扩充客户端本地数据，以实现数据增强；通过在知识蒸馏时动态的给各个参与方分配权重，并在服务器端完成知识的迁移。本发明专利技术在各个客户端训练扩散模型并在服务器端直接生成符合全局图像分布的数据，而不需要将原始数据传输到中心服务器，可以更好地保护用户隐私；且本发明专利技术通过利用生成数据进行权重自适应的知识蒸馏，可以缓解模型聚合时造成的知识遗忘，从而提高全局模型的泛化能力。力。力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于扩散模型和权重自适应知识蒸馏的联邦学习算法

[0001]本专利技术涉及联邦学习的多源异构数据融合
，尤其涉及一种基于扩散模型和权重自适应知识蒸馏的联邦学习算法。

技术介绍

[0002]随着人类社会数字化的快速发展，机器学习在当前社会中发挥了非常重要的作用。通过机器学习技术可以自动化地挖掘数据中蕴藏的宝藏。经过大量数据训练出来的机器学习模型已经应用在各类场景中，正在深刻改变着我们的世界。但多个数据来源方无法直接交换数据，形成“数据孤岛”现象，制约着人工智能模型能力的进一步提高。随着近年来各国法律法规对隐私数据的监管越来越严格，加之各公司部门之间固有的数据割裂问题，各行各业都面临着数据近似和数据孤岛的困境。如何找到一种有效手段，既能保护用户的数据隐私，又能联合各参与方数据提升模型的泛化能力，成了当前人工智能领域的热点研究问题。一种可行的方法是：每一个拥有数据源的机构利用自身的数据单独训练一个模型，之后各机构的模型彼此之间进行交互，最终通过模型聚合得到一个全局模型。为了确保用户隐私和数据安全，各机构间交换模型信息的过程将会被精心设计，使得没有机构能够猜测到其他任何机构的隐私数据内容。同时，在构建全局模型时，其效果与数据源被整合在一起进行集中式训练的效果几乎一致，这便是联邦学习(Federated Learning，FL)提出的动机和核心思想。联邦学习是利用分散在各个参与方的数据集，通过隐私保护技术融合多方数据信息，协同构建全局模型的一种分布式机器学习范式。联邦学习强调的核心理念是：数据不动模型动，数据可用不可

【技术保护点】

【技术特征摘要】
1.一种基于扩散模型和权重自适应知识蒸馏的联邦学习算法，其特征在于，包括：客户端在本地训练扩散模型并在服务器端生成符合原始图像分布的数据，通过生成的图像扩充客户端本地数据，以实现数据增强；通过在知识蒸馏时动态的给各个参与方分配权重，并在服务器端完成知识的迁移。2.根据权利要求1所述的一种基于扩散模型和权重自适应知识蒸馏的联邦学习算法，其特征在于，所述客户端在本地训练扩散模型并在服务器端生成符合原始图像分布的数据，通过生成的图像扩充客户端本地数据，以实现数据增强包括：通过最小化下列损失完成扩散模型的训练：其中N表示客户端总数量；w为局部模型参数；为第i个客户端的本地数据集；D为所有客户端上的数据集；为交叉熵损失函数；为每个客户端的目标损失：其中T为训练总步数，α
t
为线性插值；z
t
为第t步扩散的噪声；x0为输入的真实图片；为z
t
和x0的期望值；z
θ
为模型预测的噪声；训练完成后，在服务器端按照如下公式进行反复迭代，即可完成图片的生成：其中x
t
‑1为第t
‑
1步时的图片，x
t
为第t步时的图片，σ
t
为推导过程中的常数，z为第t步时的方差；通过上述过程最终生成共享数据集。3.根据权利要求2所述的一种基于扩散模型和权重自适应知识蒸馏的联邦学习算法，其特征在于，所述通过在知识蒸馏时动态的给各个参与方分配权重，并在服务器端完成知识的迁移包括：服务器随机选择一些客户端，把此客户端集合记为S
t
，并向所述客户端发送全局模型ω
t
；客户端接收全局模型并作为本地模型进行本地训练；客户端将训练后的本地模型上传至服务器；服务器通过如下公式对各个客户端的本地模型进行聚合生成新一轮的全局模型：其中为第n个客户端的本地数据集；为第n...

【专利技术属性】
技术研发人员：翟锐，刘杭，靳浩哲，于俊洋，徐宋天浩，宋亚林，王瑛琦，李涵，王龙葛，史蕊，宋然，
申请(专利权)人：河南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人