一种联邦学习数据质量评估方法及系统技术方案

技术编号：40198173 阅读：12 留言：0更新日期：2024-01-27 00:02

一种联邦学习客户端的数据质量评估方法，包括：步骤S1：根据多个客户端当前轮训练更新后的本地模型参数和对应的样本数据量获得更新后的全局模型参数；步骤S2：根据当前轮更新前与更新后的客户端的本地模型参数计算各个客户端的本地参数梯度，步骤S3：根据更新前与更新后的全局模型参数计算服务端的全局参数梯度；步骤S4：计算服务端的全局参数梯度与各个客户端的本地参数梯度之间的动土距离，根据动土距离确定各个客户端的数据质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及联邦学习，具体涉及一种联邦学习数据质量评估方法及系统。

技术介绍

1、联邦学习是一种创新的分布式学习框架，专注于保护隐私，并通过交换本地训练的模型参数来促进多个客户端之间的协作模型训练。然而，标签噪声的存在可能对机器学习模型的性能产生负面影响，这些噪声可能源于客户训练数据中的非专家错误和主观偏见等因素。因此，减轻客户训练数据中的标签噪声以提高机器学习模型的性能和鲁棒性显得十分重要。

2、目前在联邦学习中评估数据质量面临挑战，主要表现在两种评估框架中：客户端自评估和服务器端评估。两种评估框架的局限性如下：1)客户端自评估：这种方法依赖于客户提交贡献的诚实性，例如提交本地模型的损失结果。然而，在现实场景中确保客户的诚实是不现实的，且难以执行。客户可能不诚实地报告自己的损失，导致无法准确评估数据质量；2)服务器端评估：这种方法通过评估验证集上的模型性能来评估客户端质量。例如，夏普利策略(夏普利策略是一种博弈论中的概念，通常用于分配价值或贡献给多个参与者或玩家。在这里提到的夏普利策略计算每个客户端的平均边际贡献，这意味着它试图确定在一个多方参与的情况下，每个客户端对整体结果的贡献。它是一种用于合作博弈的方法，用于确定如何分配收益或成本)计算每个客户端的平均边际贡献，但需要额外的计算能力来考虑各种客户端排列。同时，获得无噪声和独立同分布验证数据集(独立同分布是一个统计学和机器学习中的概念，用于描述一组随机变量的特性。当数据集中的样本是独立同分布的时候，这意味着每个样本是从相同的概率分布中独立地抽取的，并且它们之间

3、因此，当前联邦学习中的数据质量评估存在非诚实性自我评估和依赖验证的服务器端评估之间的困境。

技术实现思路

1、基于上述问题，本专利技术提供一种联邦学习数据质量评估系统，能够为保护隐私的分布式学习框架提供更可靠、准确的数据质量评估手段，从而提高联邦学习模型的性能和鲁棒性，该方法包括：

2、步骤s1：根据多个客户端当前轮训练更新后的本地模型参数和对应的样本数据量获得更新后的全局模型参数；

3、步骤s2：根据当前轮更新前与更新后的客户端的本地模型参数计算各个客户端的本地参数梯度；

4、步骤s3：根据更新前与更新后的全局模型参数计算服务端的全局参数梯度；以及

5、步骤s4：计算服务端的全局参数梯度与各个客户端的本地参数梯度之间的动土距离，根据动土距离确定各个客户端的数据质量。

6、根据本专利技术的实施例所述的方法，所述步骤s1包括：

7、步骤s11：获取服务端的当前的全局模型参数作为更新前的本地模型参数覆盖客户端的本地模型参数；

8、步骤s12：获得客户端根据本地训练数据更新后的本地模型参数和对应的样本数据量；

9、步骤s13：服务端根据各个客户端更新后的本地模型参数和对应的样本数据量获得更新后的全局模型参数。

10、根据本专利技术的实施例所述的方法，其中步骤s2中根据下列公式计算客户端的本地参数梯度：

11、

12、其中，表示多个客户端的本地参数梯度，n表示客户端的序号，θ(t)表示更新前的本地模型参数，表示更新后的本地模型参数，t表示训练轮次，η表示学习率。

13、根据本专利技术的实施例所述的方法，其中步骤s3中根据下列公式计算全局梯度参数：

14、

15、其中表示全局参数梯度，|dn|表示客户端n的训练数据量，|d|表示所有客户端的本地训练数据量之和，n表示客户端个数。

16、根据本专利技术的实施例所述的方法，其中，在步骤s4中，使用下述公式计算全局参数梯度与各客户端的本地参数梯度之间的动土距离，

17、

18、其中，表示的联合分布，γ表示联合分布，d(x,y)表示γ中随机采样的每对数据点(x,y)之间的距离。

19、根据本专利技术的实施例所述的方法，其中，在步骤s4中，还包括使用下述公式对动土距离进行归一化，

20、

21、其中，表示计算两个向量和之间的动土距离；min(d)表示在所有可能的向量对之间，找到最小的动土距离；max(d)表示在所有可能的向量对之间，找到最大的动土距离；表示最终的归一化动土距离的结果。

22、本专利技术还提供一种用于联邦学习模型的训练方法，包括步骤：

23、s20：将服务端的全局模型参数传送给各个客户端；

24、s30：根据本专利技术上述任一实施例所述的的方法确定各个客户端的本地模型参数的数据质量；

25、s40：根据各个客户端的数据质量选择用于参与后续联邦学习的客户端；

26、s50：利用所述选择的客户端进行联邦学习训练直到全局模型收敛。

27、根据本专利技术的实施例所述的训练方法，所述步骤s40进一步包括：根据数据质量得分生成用于客户端筛选的概率分布，以所述概率分布选择参与后续联邦学习的客户端。

28、本专利技术还提供一种联邦学习系统，包括：

29、服务端，以及与其进行模型参数交换的多个客户端，其中所述服务端根据本专利技术上述任一实施例所述的方法选择参与后续联邦学习的客户端，以及与所选择的客户端协作进行联邦学习直至全局模型收敛。

30、根据本专利技术的实施例所述的系统，所述服务端还包括：

31、模型分发模块，用于分发所述服务端的全局模型参数并覆盖客户端本地模型参数；

32、模型聚合模块，用于获取所述服务端根据所述多个客户端更新的本地模型参数和对应的样本数据量计算的全局模型参数；

33、梯度计算模块，包括本地参数梯度计算单元和全局参数计算单元，本地参数计算单元基于新一轮本地模型参数与初始化的本地模型参数计算所述多个客户端的本地参数梯度，全局参数梯度计算单元基于新一轮全局模型参数与初始化的全局模型参数计算全局参数梯度；

34、数据质量评估模块，用于计算全局参数梯度与各客户端的本地参数梯度之间的动土距离确定各个客户端的数据质量；以及

35、客户端筛选模块，用于根据数据质量得分生成用于客户端筛选的概率分布，以所述概率分布选择下一轮参与联邦学习的客户端。

36、本专利技术提供一种计算机可读存储介质，其中存储有一个或者多个计算机程序，所述计算机程序在被执行时用于实现本专利技术上述任一实施例所述的方法。

37、本专利技术提供一种计算系统，包括：

38、存储装置、以及一个或者多个处理器；

39、其中，所述存储装置用于存储一个或者多个计算机程序，所述计算机程序在被所述处理器执行时用于实现本专利技术上述任一实施例所述的方法。

40、专利技术效果

41、1.本专利技术针对不同客户端数据质量的差异性，为每个客户端分配不同的参与机会，从而有效地提高了联邦学习模型的精本文档来自技高网...

【技术保护点】

1.一种联邦学习数据质量评估方法，包括：

2.根据权利要求1所述的方法，所述步骤S1包括：

3.根据权利要求1所述的方法，其中步骤S2中根据下列公式计算客户端的本地参数梯度：

4.根据权利要求3所述的方法，其中步骤S3中根据下列公式计算全局梯度参数：

5.根据权利要求4所述的方法，其中，在步骤S4中，使用下述公式计算全局参数梯度与各客户端的本地参数梯度之间的动土距离，

6.根据权利要求5所述的方法，其中，在步骤S4中，还包括使用下述公式对动土距离进行归一化，

7.一种用于联邦学习模型的训练方法，包括步骤：

8.根据权利要求7所述的训练方法，所述步骤S40进一步包括：根据数据质量得分生成用于客户端筛选的概率分布，以所述概率分布选择参与后续联邦学习的客户端。

9.一种联邦学习系统，包括：

10.根据权利要求9所述的系统，所述服务端还包括：

11.一种计算机可读存储介质，其中存储有一个或者多个计算机程序，所述计算机程序在被执行时用于实现如权利要求1-8任意一项所述的方法。

12.一种计算系统，包括：

...

【技术特征摘要】

1.一种联邦学习数据质量评估方法，包括：

2.根据权利要求1所述的方法，所述步骤s1包括：

3.根据权利要求1所述的方法，其中步骤s2中根据下列公式计算客户端的本地参数梯度：

4.根据权利要求3所述的方法，其中步骤s3中根据下列公式计算全局梯度参数：

5.根据权利要求4所述的方法，其中，在步骤s4中，使用下述公式计算全局参数梯度与各客户端的本地参数梯度之间的动土距离，

6.根据权利要求5所述的方法，其中，在步骤s4中，还包括使用下述公式对动土距离进行归一化...

【专利技术属性】
技术研发人员：陈益强，曾碧霄，杨晓东，于汉超，张迎伟，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人