一种基于贡献感知的聚类联邦学习方法技术

技术编号:38912173 阅读:8 留言:0更新日期:2023-09-25 09:28
本发明专利技术公开了一种基于贡献感知的聚类联邦学习方法,包括如下步骤:步骤1.参数服务器初始化;步骤2.客户端更新本地模型的参数;步骤3.客户端根据更新参数在本地数据集上训练n轮次,本地的梯度上传至参数服务器;步骤4.判断是否需要贡献评估,若需要贡献评估,则进入步骤5,否则进入步骤6;步骤5.服务器对客户端上传的参数计算近似沙普利值,并将沙普利值作为每个客户端贡献的量化指标;步骤6.服务器判断联邦系统是否完成训练,若完成训练,则进入步骤7输出最终预测模型;步骤7.联邦训练结束,输出最终预测模型。该方法可以在不违背联邦学习数据安全范式下进行贡献评估和协作训练,提高联邦系统的准确率和激励优质客户端。高联邦系统的准确率和激励优质客户端。高联邦系统的准确率和激励优质客户端。

【技术实现步骤摘要】
一种基于贡献感知的聚类联邦学习方法


[0001]本专利技术涉及联邦学习领域,涉及一种基于贡献感知的聚类联邦学习方法,尤其是高度保护数据隐私的贡献评估方法。

技术介绍

[0002]随着人工智能的快速发展以及许多领域的应用,重视数据安全与隐私已经成为了世界性的趋势,如欧盟提出的《通用数据保护条例》(GDPR)。不同的组织处于保护自身利益和隐私的目的,不愿贡献数据,形成了大大小小的数据孤岛。
[0003]联邦学习提供了一种有效的解决方案,打破了原有的数据壁垒,它在满足隐私保护相关标准的条件下协同训练得到最终的全局模型。作为一种特殊的分布式机器学习框架,联邦学习对比集中学习在模型训练和推理的方法并无本质差别,而在数据集的所有权和隐私性等方面有着不同的假设和要求,其训练数据不出本地即可协作训练的特性。但联邦学习也面临重大挑战,当参与者的训练集数据是非独立同分布(Non

IID)或低质量数据时,就会大大降低全局模型的性能。
[0004]目前联邦学习解决上述挑战的手段主要是个性化联邦。然而个性化联邦是对客户端或系统的优化,无法根本上解决数据异构带来的问题。联邦学习的性能表现取决于是否拥有优秀的数据源。联邦学习如何激励高质量数据的参与者加入训练成为了重要问题。然而,由于联邦学习本地数据的隐私要求,无法直接获取参与者的任何源数据,这是实施后续激励机制的重要阻碍。沙普利值是合作博弈论中广泛采用的解决方案,用于衡量每个参与者对整体合作的贡献程度。但沙普利值本身是指数级的计算成本,随着参与者数量的增加,计算成本会难以承受。针对上述问题,一种既能高效评估参与者数据质量,又能保证数据安全要求的评估方法,具有重要研究意义。

技术实现思路

[0005]本专利技术目的在于高数据安全要求下,如何高效地评估联邦系统内多方参与者的贡献,设计激励机制保证联邦系统的公平性和稳定性,而提出一种基于贡献感知的聚类联邦学习方法。
[0006]本专利技术在沙普利值的基础上,将企业、组织(客户端)作为联邦学习的参与方,在保证客户端数据安全的条件下,依据客户端上传的参数进行贡献评估,并设计激励机制保证联邦系统的公平性。
[0007]本专利技术提供了一种基于贡献感知的聚类联邦学习方法,该方法包括如下步骤:
[0008]步骤1.参数服务器初始化全局模型的权重;
[0009]步骤2.服务器分发参数至各个客户端,客户端更新本地模型的参数,若当前通信轮次进行了贡献评估,通过贡献评估区分出不同贡献水平的客户端;
[0010]步骤3.客户端根据更新参数在本地数据集上训练n轮次,并将本地的梯度上传至参数服务器;
[0011]步骤4.参数服务器接收客户端完成训练后所上传的参数后,依据损失函数变化率判断是否需要贡献评估,若需要贡献评估,则进入步骤5,否则进入步骤6;
[0012]步骤5.服务器对客户端上传的参数计算近似沙普利值,并将沙普利值作为每个客户端贡献的量化指标;
[0013]步骤6.服务器依据通信轮次判断联邦系统是否完成训练,若完成训练,则进入步骤7输出最终预测模型;若未完成训练,则由服务器使用FedAvg算法聚合客户端参数,获得更新的全局模型;
[0014]步骤7.联邦训练结束,输出最终预测模型。
[0015]进一步地说,所述的方法目标是最小化全局损失函数使得各个客户端的模型性能达到极值。
[0016]进一步地说,所述的方法是优化沙普利值计算过程,不改变规范其理想属性的同时将原有指数级的计算复杂度向线性优化,提供可量化参与者贡献的计算方式。
[0017]进一步地说,所述的方法设计激励机制,有效清除对联邦系统负作用的客户端,对正常客户端采用分级的方式,给予高质量客户端更多补偿。
[0018]本专利技术的有益效果:
[0019]效果一:提出了一种基于贡献感知的聚类联邦学习(CA

CFL)方法。
[0020]效果二:在不违背联邦学习的安全范式前提下,优化了沙普利值的计算效率,量化评估了客户端对联邦系统整体的贡献。
[0021]效果三:CA

CFL惩罚低贡献客户端退出,降低其负面影响,提高了模型的准确率。
[0022]效果四:使用了聚类的方法,应用于联邦学习客户端级别,保障了高质量客户端的训练收益,激励客户端提供更优的数据。
附图说明
[0023]图1为本专利技术提出的于贡献感知的聚类联邦学习方法的系统架构图。
[0024]图2是联邦客户端余弦相似度聚类的示意图。
[0025]图3是CA

CFL方法的训练流程图。
具体实施方式
[0026]下面结合案例,参阅图1,图1为本专利技术提出的基于贡献感知的聚类联邦学习方法的系统架构。我们可在公共图像数据集(EMNIST、FashionMNIST、Cifar

10)进行评估,并选择合适的模型作为其初始化的模型。以Cifar

10数据集为例,使用VGG网络作为全局模型,网络分为两部分:一部分主要由卷积层和汇聚层组成,第二部分由全连接层组成。具体模型由五个VGG块和三个全连接层组成,且客户端和服务器的模型结构相同。
[0027]CA

CFL的贡献评估其对应具体伪代码实施步骤如下:
[0028][0029]以下对本专利技术做更进一步的说明,补充了实例。本专利技术实例是通过上述方案最小化损失函数,其表达式为:在本实例中,存在不同数据质量的客户端,具体为三类:1、非独立同分布(Non

IID):其样本标签分布与其它客户端的分布不同,本方法使用的随机方法呈狄利克雷分布的方式生成;2、标签污染:客户端含有一定比例的错误数据标签;3、均匀分布:客户端各个标签分布相对均匀。三类不同数据质量的客户端仿真模拟低质量客户端、遭受恶意攻击中毒的客户端、高质量客户端。
[0030]具体实施步骤如下:
[0031]步骤1.应用本方法在初始化阶段,参数服务器初始化全局模型的权重,同时分发
模型至客户端。此外,服务器启用一个验证数据集,为贡献评估提供标准。
[0032]需要说明的是,本实施例中所提到的全局模型以及本地模型为参数服务器用于联邦学习所初始化的模型。
[0033]步骤2.每个客户端收到服务器的最新参数后,更新客户端本地模型,在本地数据集上并行地训练模型。若当前通信轮次进行了贡献评估,则可依据损失函数相对变化率判断是否执行客户端级别的聚类调整,若变化率小于阈值时,则区分出不同贡献水平的客户端;否则,不进行客户端编排。损失函数相对变化率如下所示:
[0034][0035]其中,表示当前通信轮次的模型在验证集计算所得的损失函数,ξ表示损失函数相对变化率。当ξ小于一定阈值时,则进行客户端聚类算法。贡献评估其对应具体伪代码实施步骤如下:
[0036][0037][0038]其中计算余弦距离的公式如下:
...

【技术保护点】

【技术特征摘要】
1.一种基于贡献感知的聚类联邦学习方法,其特征在于,该方法包括如下步骤:步骤1.参数服务器初始化全局模型的权重;步骤2.服务器分发参数至各个客户端,客户端更新本地模型的参数,若当前通信轮次进行了贡献评估,通过贡献评估区分出不同贡献水平的客户端;步骤3.客户端根据更新参数在本地数据集上训练n轮次,并将本地的梯度上传至参数服务器;步骤4.参数服务器接收客户端完成训练后所上传的参数后,判断是否需要贡献评估,若需要进行贡献评估则进入步骤5执行客户端贡献评估,否则进入步骤6;步骤5.服务器对客户端上传的参数计算近似沙普利值,并将沙普利值作为每个客户端贡献的量化指标;步骤6.服务器会根据通信轮数是否达到迭代次数来判断训练是否结束,若完成训练,则进入步骤7输出最终预测模型;若未完成训练,则由服务器使用FedAvg算法聚合客户端参数,获得更新的全局模型;步骤7.联邦训练结束,输出最终预测模型。2.根据权利要求1所述的一种基于贡献感知的聚类联邦学习方法,其特征在于,所述服务器分发至客户端的是其所在簇内全局模型的参数,客户端上传至服务器的是梯度。3.根据权利要求2所述的一种基于贡献感知的聚类联邦学习方...

【专利技术属性】
技术研发人员:李尤慧子俞海涛殷昱煜李玉梁婷婷万健
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1