一种重视稀缺数据类别的联邦学习客户端选择方法技术

技术编号：40042854 阅读：5 留言：0更新日期：2024-01-16 20:00

一种重视稀缺数据类别的联邦学习客户端选择方法，包括：1)服务器进入联邦学习任务准备过程，发布联邦学习任务和奖励，并等待客户端申请加入联邦学习任务；2)服务器定义并参数化数据评估函数，并依据客户端提供的本地数据信息，对所有申请加入联邦学习任务的客户端的数据价值进行评估，对其数据价值基于评估结果进行打分；3)在确定各客户端得分后，对所有客户端按照得分进行排序，并从得分最高的客户端开始选择加入联邦学习任务，并确定选定客户端的支付报酬；4)服务器根据客户端选择结果开始联邦学习任务。通过迭代地在客户端和服务器之间传递模型参数，实现模型的训练和更新。本发明专利技术提出的提出了一种重视稀缺数据类别的联邦学习客户端选择方法，能够在保证隐私的前提下更好的评估联邦学习中客户端数据的价值，有利于客户端定价和选择。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信号安全，尤其涉及一种重视稀缺数据类别的联邦学习客户端选择方法。

技术介绍

1、近年来，物联网的出现和智能设备数量的迅速增长产生了大量的数据，这些数据有利于提高数据驱动的机器学习模型的性能。但随之而来的隐私问题限制了将数据集中到服务器进行训练的传统机器学习模型的应用。此时，联邦学习作为一种旨在保护用户隐私的分布式计算训练方式应运而生。

2、联邦学习利用个体设备的大量数据和一定的计算能力，将云端服务器作为协调者，每个客户端(即智能设备)利用本地的数据训练模型并向云端服务器上传模型更新信息，不进行训练数据的传输，保证了数据隐私不被泄露。服务器只收集并聚合客户端的模型参数，组成全局模型。然而，单个客户端的数据分布具有很强的个性化，即单个客户端数据训练的模型与全局模型很可能大有不同，导致该方法在训练精度、收敛速度等重要性能方面与传统机器学习方法的较大差距。等人发现，与传统训练方法相比，联邦学习的数据组成方式会在cifar-10数据集上的分类中造成55％的准确性下降。

3、因此，数据的选择问题已成为提升联邦学习算法性能的重要瓶颈问题。传统联邦学习训练方式通常会对客户端进行随机选择，带来严重的模型精度和收敛速度问题。现有的解决方法普遍在训练中评估客户端上传的模型或梯度来指导客户端选择，一则前期需要大量客户端参与，造成大量无效数据的购买；二则评估方法本身消耗大量计算资源且耗时较长，难以实际应用。因此，联邦学习需要一种在训练前对客户端进行价值评估和选择的方法，解决数据不具代表性、分类倾斜等非独立同分布(n-

技术实现思路

1、为了克服现有联邦学习训练前客户端选择方法的不足，本专利技术提出一种重视稀缺数据类别的联邦学习客户端选择方法。

2、本专利技术解决其技术问题所采用的技术方案是：

3、一种重视稀缺数据类别的联邦学习客户端选择方法，所述方法包括以下步骤：

4、步骤1、服务器进入联邦学习任务准备过程，发布联邦学习任务和奖励，并等待客户端申请加入联邦学习任务。

5、步骤2、服务器定义并参数化数据评估函数，并依据客户端提供的本地数据信息，对所有申请加入联邦学习任务的客户端的数据价值进行评估，对其数据价值基于评估结果进行打分。

6、步骤3、在确定各客户端得分后，对所有客户端按照得分进行排序，并从得分最高的客户端开始选择加入联邦学习任务，并确定选定客户端的支付报酬。

7、步骤4、服务器根据客户端选择结果开始联邦学习任务。通过迭代地在客户端和服务器之间传递模型参数，实现模型的训练和更新。

8、进一步，所述步骤1)中服务器进入联邦学习任务准备过程具体包括：

9、步骤101，服务器发布任务要求，任务要求包括客户端需要具备的数据样本类别、数据样本数量、和硬件要求，以及预期参与的联邦学习任务客户端数量和参与联邦学习任务的客户端可以获得的模型奖励和报酬。

10、步骤102，愿意参加训练任务的客户端提交参加申请，并向联邦学习发起者提供拥有的数据数量，数据样本类别和硬件。

11、再进一步，步骤2)中的服务器定义并参数化数据评估函数具体包括以下过程；

12、步骤201，服务器定义两个评估数据价值的指标，1是数据数量；2是数据稀缺性。并利用客户端提供的数据信息，计算本次联邦学习任务中服务器可选择的数据样本总数量n和每个数据类别的样本总数量nc；计算公式如下：

13、

14、

15、其中，e、ne和分别表示申请加入联邦学习任务的客户端总量、客户端拥有的样本总量和客户端拥有的数据类别c的样本数量。

16、步骤202，服务器首先对数据数量和数据价值之间的非线性关系进行建模：

17、

18、

19、

20、客户端e的数据量系数由客户端e的每个类c的类数据量系数累加得到。中，r(e，c)代表数据积分上限，是客户端e中类c数量与类c在每个客户端的平均数量(即所有客户端类c的总量nc除以客户端数量)的比值若大于1，则取r(e，c)的值为1。随着数据量的增多，增加单位数据量的数据对总评估指标的影响具有边际递减性，因此被积分函数选取递减函数(1-x)3。

21、步骤203，服务器建立数据稀缺性模型并整合到数据数量评估模型中，公式如下：

22、

23、

24、

25、其中，u为参与本次联邦学习任务的客户端平均数据数量。

26、得到最终数据评估模型后，对所有客户端的数据使用该模型进行评估，的值就是服务器对客户端数据价值的打分。

27、步骤3)中的得分最高的客户端开始选择加入联邦学习任务具体包括以下过程：

28、步骤301，对所有客户端的数据按照如权利要求3中数据评估模型进行评估打分，以数据评估模型的打分作为依据对所有客户端进行倒叙排序。

29、步骤302，选择得分最高的前k个客户端通知其加入联邦学习任务，k为联邦学习任务计划的选择客户端的数量，并确定客户端并通知其可以得到的报酬。

30、所述步骤4)中步骤4)中的实现模型的训练和更新具体包括以下过程：

31、步骤401，服务器根据客户端选择结果开始联邦学习任务。首先服务器上初始化一个全局模型，初始化的全局模型分发被选定的客户端参与方，收到全局模型的客户端使用自己的本地数据集来训练全局模型，训练过程是本地进行的，不需要将原始数据传输到中心服务器，客户端将训练的梯度信息发送回服务器，并使用fedavg方法聚合模型。上述步骤在多个轮次中重复进行，直到满足停止条件，如模型性能收敛或达到预定的轮次。

32、步骤402，在联邦学习任务停止后，服务器将最终模型分享给参与任务的客户端，并将报酬支付给客户端，联邦学习任务结束。

33、本专利技术的工作原理是(分析本专利技术的优点产生的原因)：本专利技术不仅考虑到单个客户端本地数据样本分布，还将服务器可选择的整体数据市场分布作为客户端选择的指导因素，使服务器更倾向于选择整体数据市场分布中稀有的数据样本，使加入联邦学习任务的客户端分布集合更加均衡。提高了全局模型的精度，使其更好的完成图像分类，信号识别等任务。

34、本专利技术的有益效果主要表现在：提出了一种重视稀缺数据类别的联邦学习客户端选择方法，能够在保证隐私的前提下更好的评估联邦学习中客户端数据的价值，有利于客户端定价和选择。

本文档来自技高网...

【技术保护点】

1.一种基于重视稀缺类别的联邦学习训练前客户端选择方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于重视稀缺类别的联邦学习训练前客户端选择方法，其特征在于：步骤1)中服务器进入联邦学习任务准备过程具体包括：

3.如权利要求1所述的一种基于重视稀缺类别的联邦学习训练前客户端选择方法，其特征在于：步骤2)中的服务器定义并参数化数据评估函数具体包括：

4.如权利要求1所述的一种基于重视稀缺类别的联邦学习训练前客户端选择方法，其特征在于：步骤3)中的得分最高的客户端开始选择加入联邦学习任务具体包括：

5.如权利要求1所述的一种基于重视稀缺类别的联邦学习训练前客户端选择方法，其特征在于：步骤4)中的实现模型的训练和更新具体包括：

【技术特征摘要】

1.一种基于重视稀缺类别的联邦学习训练前客户端选择方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于重视稀缺类别的联邦学习训练前客户端选择方法，其特征在于：步骤1)中服务器进入联邦学习任务准备过程具体包括：

3.如权利要求1所述的一种基于重视稀缺类别的联邦学习训练前客户端选择方法，其特征在于：步骤2)中的...

【专利技术属性】
技术研发人员：洪榛，徐畅，冯王磊，温震宇，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人