一种基于基础生成模型的联邦学习方法技术

技术编号：40432952 阅读：5 留言：0更新日期：2024-02-22 22:58

本发明专利技术提出了一种基于基础生成模型的联邦学习方法，首先，客户端上传提示信息并在服务器上进行聚合；然后，利用基础生成模型生成合成数据，并进行筛选后，用于训练全局模型；更新后的模型权重将分发给客户端。该方法具有多个优点，包括解决数据不平衡问题、显著的性能提升和增强的隐私保护。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机，尤其涉及一种基于基础生成模型的联邦学习方法。

技术介绍

1、文本到图像生成模型，如stable diffusion模型、dall-e2、imagen，已经展示了通过自然语言描述生成令人惊叹图像的卓越能力。给定一个预先训练好的生成模型g，如stable diffusion，用户只需提供一个文本提示，就能合成高质量的图像。具体来说，在推理阶段，通过使用条件向量(如文本提示向量p)对随机噪音向量进行迭代去噪，生成新的图像潜向量z0。随后，通过使用预先训练好的解码器将潜向量z0转换成图像，得到x′＝g(z0,p)。

2、为了使深度学习模型更加高效，通常需要大规模数据进行训练。然而，对于处理敏感客户或专有数据的企业而言，这可能会带来问题。例如，标记医疗数据通常成本高昂，由于安全和隐私问题，这些数据的发布是一个敏感问题。此外，原始数据本身通常被许多公司视为有价值的资产，因此获取它是不切实际的。因为它们可能不愿意与第三方，甚至是同一组织内的其他部门共享这些数据。因此，我们迫切需要既高效又能保护隐私的协作机器学习方法。

3、联邦学习(通常称为协作学习)是一种分散式的机器学习模型训练方法，它不需要在客户设备和全局服务器之间进行数据交换。相反，它利用边缘设备上的原始数据进行本地模型训练，以增强数据隐私。最终，这些本地模型参数通过共享方式进行聚合，形成最终的模型。联邦学习允许多个参与方构建一个共同的、稳健的机器学习模型，而无需共享敏感数据，从而解决了数据隐私、数据安全、数据访问权和异构数据访问等重要问题。

4、联邦学习作为分布式机器学习中保护用户隐私的一种潜在方式，引起了广泛的关注。然而，在实际应用中，联邦学习系统面临一些挑战，这些挑战妨碍了它在现实世界中的广泛应用。这些挑战包括：

5、1.高通信成本：当前的联邦学习解决方案通常需要在客户端和服务器之间传输模型参数或梯度。然而，在处理大型模型时，这些参数通常在数十亿甚至数万亿的范围内，导致通信成本昂贵且难以承受。

6、2.数据异质性：在联邦学习中，不同客户端之间的本地数据分布的统计异质性是一个基本挑战。这导致了基于模型平均的联邦学习方法的目标不一致性问题，因为全局模型可能收敛到不匹配的目标的稳定点，导致性能显著下降。

7、3.隐私和安全风险：联邦学习系统的主要焦点是保护数据隐私和安全。现有技术通常涉及模型参数或梯度的传输，但这些方法容易受到较大的隐私泄漏风险。

8、因此，迫切需要解决如何在有效保护数据隐私和安全的同时降低高通信成本和数据异质性的问题，以满足实际应用需求。

技术实现思路

1、因此，为解决以上技术问题，本专利技术提出一种基于基础生成模型的联邦学习方法，在本专利技术中使用现成的预训练扩散模型进行推理过程，即生成图像，而不进行任何训练。

2、本专利技术的技术方案如下：

3、一种基于基础生成模型的联邦学习方法，所述方法包括以下步骤：

4、步骤1.联邦学习；假设存在一个包含n个客户端的集合，表示为:c＝{c1,c2,c3,…,cn}，每个客户端拥有私有本地数据集其中xj是训练图像，yj是其标签，yi是第i个客户端标签集合，ni是第i个客户端的训练样本数量；每个客户端ci训练的局部模型由参数θi表示，全局聚合的模型参数由θ表示；不同客户端的标签集合可能不同；联邦学习框架的目标是在服务器上学习一个参数化的模型θ，而无需访问原始数据，该模型通过最小化所有客户端的训练数据上的损失,其总的损失函数公式如下：

5、

6、其中，是第i个客户端的交叉熵损失函数；

7、步骤2.提示生成与聚合；框架使用了两种类型的提示生成策略：类级提示和实例级提示；类级提示是基于客户端数据集类别名生成的，为生成模型提供高层次的指导；实例级提示利用客户端私有数据集中每个实例量身定制的提示，该提示对于生成模型来说，包含更多的信息量，为生成模型提供细粒度层次的指导；

8、步骤3.训练数据集合成；

9、步骤4.筛选图片；

10、步骤5.模型训练及服务器模型下发。

11、本专利技术具有以下有益技术效果：本专利技术提出了一种基于基础生成模型的联邦学习方法，也提出基于基础生成模型的联邦学习框架，用于联邦学习。在该框架中，在客户端和服务器之间传输与分布式训练数据相关的提示。通过利用基础生成模型，可以使用接收到的提示远程合成有效的训练数据。所提出的框架具有几个显著的优点，包括解决数据不平衡问题、显著的性能提升以及增强的隐私保护。

本文档来自技高网...

【技术保护点】

1.一种基于基础生成模型的联邦学习方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1的具体实现方式如下：

3.根据权利要求1所述的方法，其特征在于，步骤2的类级提示生成方法如下，为每个类生成类似“A photo of a{class name}”的类级提示，表示为ci；每个类级提示可以用于控制合成图像的粗粒度指导；步骤2的实例级提示生成方法如下，使用BLIP-v2为客户端的每个真实图像xi生成描述作为实例级提示，表示为pi；每个实例级别提示用于控制合成图像的细粒度指导；然后将粗粒度的类级提示分别与该类对应的细粒度的实例级提示拼接，形成提示和相应标签其中N是总提示数量。

4.根据权利要求3所述的方法，其特征在于，步骤3的具体实现方法如下，在接收到所有提示后，服务器使用训练好的基础生成模型，将每个提示pi作为输入，合成训练样本si,合成的数学化描述如下：

5.根据权利要求4所述的方法，其特征在于，步骤4的具体实现方法为，将高斯噪声添加到干净图像si中来获得噪声图像然后使用决策距离distθ来推断成员资格：

6.根据权利要求5所述的方法，其特征在于，步骤5的具体实现方法为：

...

【技术特征摘要】

1.一种基于基础生成模型的联邦学习方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1的具体实现方式如下：

3.根据权利要求1所述的方法，其特征在于，步骤2的类级提示生成方法如下，为每个类生成类似“a photo of a{class name}”的类级提示，表示为ci；每个类级提示可以用于控制合成图像的粗粒度指导；步骤2的实例级提示生成方法如下，使用blip-v2为客户端的每个真实图像xi生成描述作为实例级提示，表示为pi；每个实例级别提示用于控制合成图像的细粒度指导；然后...

【专利技术属性】
技术研发人员：凌强，齐晓滑，於俊，方毅，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人