System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种具有差分隐私的自适应聚类联邦学习方法技术_技高网

一种具有差分隐私的自适应聚类联邦学习方法技术

技术编号:40562829 阅读:17 留言:0更新日期:2024-03-05 19:26
本发明专利技术公开了一种具有差分隐私的自适应聚类联邦学习方法,属于联邦学习技术领域,要解决的技术问题为联邦学习易遭受成员推理攻击的影响、且在non‑iid数据分布情况下全局模型精度低。服务器基于本地模型参数相似性、服务器对客户端进行自适应分簇,得到多个簇,客户端划分至不同簇内,对于每个簇内客户端,服务器基于簇内所有客户端的本地模型参数进行簇内聚合计算,得到簇内全局模型,并对所有簇内全局模型进行交叉验证,筛选一个簇内全局模型作为最优簇内全局模型、其他簇内全局模型作为非最优簇内全局模型;对所有非最优簇内全局模型进行簇间聚合计算,得到簇间全局模型,并将簇间全局模型与簇内最优全局模型相加、得到全局模型。

【技术实现步骤摘要】

本专利技术涉及联邦学习,具体地说是一种具有差分隐私的自适应聚类联邦学习方法


技术介绍

1、机器学习方法在广泛应用中展现出卓越性能,需要大量数据进行训练深度学习模型来实现,最终得到一个集中式学习模型。这些数据通常来自于客户端设备,如医院患者数据。然而,由于直接上传本地数据至服务器可能存在泄露客户端数据隐私的风险,导致安全问题,客户端常常不愿意共享数据,形成了数据孤岛现象。为解决这一问题,分布式机器学习(dml)成为一种重要手段。dml使得每个客户端能够利用本地数据训练模型,并将各本地模型上传至服务器进行聚合,以此来保护客户端数据隐私并确保通信效率。其中,联邦学习(fl)技术是一种颇具前景的dml方法。fl是一种分布式机器学习框架,可以让多个客户端或机构在不共享原始数据的前提下,通过中央服务器的协调,协作训练一个共同的机器学习模型,去保护客户端隐私,减少数据传输,节省传输带宽。

2、经典fl虽然避免了直接上传本地数据集,但它仍易遭到以成员推理攻击(mia)为代表的高对抗攻击威胁,通过mia,攻击者极可能推测出参与联邦学习的训练数据,造成隐私数据泄露。为了对抗mia等高对抗攻击,研究者探索了多种方法,包括加密方法和差分隐私(dp)方法。安全多方计算(smc)和同态加密(he)是保护fl的常用加密方法,另一种降低fl隐私风险的方法是使用区块链技术。然而,这些加密方法往往会带来很高的计算开销,可能会降低模型的准确性并增加通信成本,从而影响fl的性能。而dp方法通过在模型权重中添加噪声来实现,这种策略能混淆模型权重真实信息,从而抵抗mia,保护数据隐私。经研究,dp方法不会明显降低fl性能,即,能维持模型对数据的有效分析和学习性能。

3、在基于差分隐私的联邦学习(fl-dp)诞生之后,被广泛应用于医疗、物联网、金融、移动设备等领域。然而,在各个领域中,参与同一任务的各客户端拥有不同的设备,获得的数据样本及对应标签通常不是独立的且具有相同分布,即,non-iid数据。non-iid数据会使模型收敛困难,降低fl的通信效率并大幅度降低模型的准确率。因此,fl仍然面临着non-iid数据的挑战。

4、基于上述分析,联邦学习易遭受成员推理攻击的影响、且在non-iid数据分布情况下全局模型精度低,是需要解决的技术问题。


技术实现思路

1、本专利技术的技术任务是针对以上不足,提供一种具有差分隐私的自适应聚类联邦学习方法,来解决联邦学习易遭受成员推理攻击的影响、且在non-iid数据分布情况下全局模型精度低的技术问题。

2、本专利技术一种具有差分隐私的自适应聚类联邦学习方法,应用于包括服务器和多个客户端的联邦学习系统,所述方法包括如下步骤:

3、s100、对服务器和各客户端进行初始化:在服务器内配置全局模型、测试集以及验证集,为客户端分配id并在客户端配置本地模型、本地数据集以及差分隐私库,配置学习参数,学习参数包括用于进行本地模型迭代训练的学习率和训练批次;

4、s200、服务器初始化全局模型参数,并将全局模型参数广播至各客户端;

5、s300、客户端基于全局模型参数对本地模型进行更新,得到更新后本地模型;

6、s400、客户端基于本地数据集对更新后本地模型进行模型预训练,得到预训练后本地模型,并将预训练后本地模型对应的本地模型参数上传服务器;

7、s500、基于本地模型参数相似性、服务器对客户端进行自适应分簇,得到多个簇,客户端划分至不同簇内;

8、s600、客户端基于本地数据集对预训练后本地模型进行迭代模型训练,在模型训练过程中基于差分隐私方法将噪声添加至本地模型梯度,得到在当前轮次下训练后本地模型,并将训练后本地模型对应的本地模型参数上传服务器;

9、s700、对于每个簇内客户端,服务器基于簇内所有客户端的本地模型参数进行簇内聚合计算,得到簇内全局模型,并基于测试集对所有簇内全局模型进行交叉验证,筛选一个簇内全局模型作为最优簇内全局模型、其他簇内全局模型作为非最优簇内全局模型;

10、s800、服务器对所有非最优簇内全局模型进行簇间聚合计算,得到簇间全局模型,并将簇间全局模型与簇内最优全局模型相加、得到全局模型,将对应的全局模型参数广播至各客户端,并基于验证集对全局模型进行模型验证;

11、s900、循环执行步骤s300-s900,直至得到最终全局模型。

12、作为优选,基于本地模型参数相似性、服务器对客户端进行自适应分簇时,基于本地模型参数计算各客户端之间的欧几里得距离,基于欧几里得距离、通过k-means++聚类方法对客户端进行自适应分簇,得到个簇,并记录每个客户端对应的簇。

13、作为优选,基于本地模型参数计算各客户端之间的欧几里得距离,基于欧几里得距离、通过k-means++聚类方法对客户端进行自适应分簇,包括如下步骤:

14、基于本地模型参数计算各客户端之间欧几里得距离,得到矩阵a,矩阵a中每一行和每一列都表示某个客户端与任何其他客户端之间的欧几里得距离;

15、对矩阵a进行奇异值分解,得到降序排列的多个奇异值,并基于如下公式计算奇异值的能量比例,得到分簇数量

16、

17、其中,i和j表示客户端,是对角线降序排列的奇异值矩阵,ε是奇异数值的能量比例,分母部分表示所有奇异值的和,分子部分所选个奇异值的总和;

18、基于客户端之间的欧几里得距离、基于k-means++聚类选取个客户端作为聚类中心,得到聚类中心集合;

19、对于其他客户端,基于客户端之前的欧几里得距离、将客户端分配至个簇中。

20、作为优选,基于本地模型参数计算各客户端之间的欧几里得距离时,计算公式如下:

21、d=||wi-wj||2

22、其中,d表示客户端i和客户端j之间的欧几里得距离。

23、作为优选,客户端基于本地数据集、通过sgd算法对预训练后本地模型进行迭代训练,每轮训练过程中,通过差分隐私方法在本地模型梯度中添加噪声,对应的,计算公式如下:

24、

25、其中,表示最小批量的大小,l表示迭代的次数,表示所添加噪声的大小,表示客户端l在第l次随机梯度下降时的权重参数。

26、作为优选,服务器基于簇内所有客户端的本地模型参数、通过fedavg算法进行簇内聚合计算,得到簇内全局模型。

27、作为优选,基于测试集对所有簇内全局模型进行交叉验证,执行如下操作:

28、基于交叉熵损失函数构建簇内全局模型的损失函数;

29、以测试集为输入、基于损失函数计算每个簇内全局模型的损失值;

30、选取损失值最小的簇内全局模型作为最优簇内全局模型,其他簇内全局模型作为非最优簇内全局模型。

31、作为优选,服务器对所有非最优簇内全局模型进行簇间聚合计算时,对非最优簇内全局模型进行归一本文档来自技高网...

【技术保护点】

1.一种具有差分隐私的自适应聚类联邦学习方法,其特征在于,应用于包括服务器和多个客户端的联邦学习系统,所述方法包括如下步骤:

2.根据权利要求1所述一种具有差分隐私的自适应聚类联邦学习方法,其特征在于,基于本地模型参数相似性、服务器对客户端进行自适应分簇时,基于本地模型参数计算各客户端之间的欧几里得距离,基于欧几里得距离、通过K-means++聚类方法对客户端进行自适应分簇,得到个簇,并记录每个客户端对应的簇。

3.根据权利要求2所述的具有差分隐私的自适应聚类联邦学习方法,其特征在于,基于本地模型参数计算各客户端之间的欧几里得距离,基于欧几里得距离、通过K-means++聚类方法对客户端进行自适应分簇,包括如下步骤:

4.根据权利要求3所述的具有差分隐私的自适应聚类联邦学习方法,其特征在于,基于本地模型参数计算各客户端之间的欧几里得距离时,计算公式如下:

5.根据权利要求1所述一种具有差分隐私的自适应聚类联邦学习方法,其特征在于,客户端基于本地数据集、通过SGD算法对预训练后本地模型进行迭代训练,每轮训练过程中,通过差分隐私方法在本地模型梯度中添加噪声,对应的,计算公式如下:

6.根据权利要求1所述一种具有差分隐私的自适应聚类联邦学习方法,其特征在于,服务器基于簇内所有客户端的本地模型参数、通过FedAvg算法进行簇内聚合计算,得到簇内全局模型。

7.根据权利要求1所述一种具有差分隐私的自适应聚类联邦学习方法,其特征在于,基于测试集对所有簇内全局模型进行交叉验证,执行如下操作:

8.根据权利要求1所述一种具有差分隐私的自适应聚类联邦学习方法,其特征在于,服务器对所有非最优簇内全局模型进行簇间聚合计算时,对非最优簇内全局模型进行归一化操作,并对归一化后所有非最优簇内全局模型进行加权和操作,计算公式如下:

...

【技术特征摘要】

1.一种具有差分隐私的自适应聚类联邦学习方法,其特征在于,应用于包括服务器和多个客户端的联邦学习系统,所述方法包括如下步骤:

2.根据权利要求1所述一种具有差分隐私的自适应聚类联邦学习方法,其特征在于,基于本地模型参数相似性、服务器对客户端进行自适应分簇时,基于本地模型参数计算各客户端之间的欧几里得距离,基于欧几里得距离、通过k-means++聚类方法对客户端进行自适应分簇,得到个簇,并记录每个客户端对应的簇。

3.根据权利要求2所述的具有差分隐私的自适应聚类联邦学习方法,其特征在于,基于本地模型参数计算各客户端之间的欧几里得距离,基于欧几里得距离、通过k-means++聚类方法对客户端进行自适应分簇,包括如下步骤:

4.根据权利要求3所述的具有差分隐私的自适应聚类联邦学习方法,其特征在于,基于本地模型参数计算各客户端之间的欧几里得距离时,计算公式如下:

【专利技术属性】
技术研发人员:禹继国周润田董安明李明霞丁青艳曹志龙许清钰王桂娟张丽
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1