数据异质和系统异质条件下的联邦学习方法及设备技术方案

技术编号:39260317 阅读:16 留言:0更新日期:2023-10-30 12:12
本申请实施例公开了数据异质和系统异质条件下的联邦学习方法及设备,用于缓解客户端数据异质性和系统异质性对联邦学习效果的影响。本申请实施例方法包括:计算进行N轮联邦学习后每个客户端的数据异质性指标;基于前N轮联邦学习中每个客户端的被采样情况,确定每个客户端对应的最小未被采样轮数间隔;基于每个客户端对应的最小未被采样轮数间隔,确定进行N轮联邦学习后每个客户端的系统异质性指标;基于进行N轮联邦学习后每个客户端的数据异质性指标以及每个客户端的系统异质性指标,确定进行N轮联邦学习后每个客户端的综合异质性指标;根据进行N轮联邦学习后每个客户端的综合异质性指标,从多个客户端中确定参与第N+1轮联邦学习的客户端。联邦学习的客户端。联邦学习的客户端。

【技术实现步骤摘要】
数据异质和系统异质条件下的联邦学习方法及设备


[0001]本申请实施例涉及联邦学习领域,尤其涉及数据异质和系统异质条件下的联邦学习方法及设备。

技术介绍

[0002]在信息技术高速发展的今天,在海量数据上经过机器学习算法训练的模型被应用于各行各业。然而随着人们隐私意识的提升和相关法律的推行,直接获取用户数据用于训练模型或将不再可行。而联邦学习作为一种具有隐私保护能力的分布式机器学习范式应运而生。它不再要求用户上传数据,而只交换加密后的模型参数,这样既可以利用用户的数据和算力协同训练一个模型,又保护了用户数据的隐私。但是,在实际应用场景中,联邦学习存在数据异质性和系统异质性的挑战。数据异质性和系统异质性不可避免地加剧了服务器聚合模型时的偏差,使得全局模型偏向于某些客户端,大大降低了其他客户端的模型准确率。
[0003]一般的,现有技术方案可以通过一下两种方式缓解异质性:1、在聚合阶段缓解异质性,即对采样到的客户端的更新方向进行重新加权;2、在本地训练阶段缓解异质性。其中,第一种方式容易使全局模型发散,而第二种方式会阻碍客户端训练出对自己效果好的模型。
[0004]因此,亟需一种不影响全局模型训练效果的联邦学习方法。

技术实现思路

[0005]本申请实施例提供了数据异质和系统异质条件下的联邦学习方法及设备,用于在不影响全局模型训练效果的情况下,缓解异质性。
[0006]本申请实施例第一方面提供一种数据异质和系统异质条件下的联邦学习方法,包括:
[0007]计算进行N轮联邦学习后每个客户端的数据异质性指标;
[0008]基于前N轮联邦学习中每个客户端的被采样情况,确定每个客户端对应的最小未被采样轮数间隔;
[0009]基于所述每个客户端对应的最小未被采样轮数间隔,确定进行N轮联邦学习后所述每个客户端的系统异质性指标;
[0010]基于进行N轮联邦学习后所述每个客户端的数据异质性指标以及每个客户端的系统异质性指标,确定进行N轮联邦学习后所述每个客户端的综合异质性指标;
[0011]根据进行N轮联邦学习后所述每个客户端的综合异质性指标,从多个客户端中确定参与第N+1轮全局模型聚合的客户端。
[0012]在一种具体实现方式中,所述计算进行N轮联邦学习后每个客户端的数据异质性指标,包括:
[0013]将前N轮联邦学习中每轮联邦学习所述每个客户端的本地梯度、以及服务器的全
局梯度之间的相似度,确定为所述每个客户端在前N轮联邦学习中每轮联邦学习的数据贡献度;
[0014]将前N轮联邦学习中每轮联邦学习所述每个客户端的数据贡献度以及聚合权重之积,确定为前N轮联邦学习中每轮联邦学习所述每个客户端的相似度权重;
[0015]将所述每个客户端在前N轮联邦学习中每轮联邦学习的相似度权重之和,确定为进行N轮联邦学习后所述每个客户端的累积相似度权重;
[0016]将进行N轮联邦学习后所述每个客户端的累积相似度权重与所述每个客户端的预期权重之间的差异程度,确定为进行N轮联邦学习后所述每个客户端的数据异质性指标。
[0017]在一种具体实现方式中,所述将进行N轮联邦学习后所述每个客户端的累积相似度权重与所述每个客户端的预期权重之间的差异程度,确定为进行N轮联邦学习后所述每个客户端的数据异质性指标,包括:
[0018]对所述每个客户端进行N轮联邦学习后的累积相似度权重进行归一化处理,获得所述每个客户端进行N轮联邦学习后的归一化累积相似度权重;
[0019]根据所述每个客户端进行N轮联邦学习后的归一化累积相似度权重与所述每个客户端的预期权重之商,确定进行N轮联邦学习后所述每个客户端的数据异质性指标。
[0020]在一种具体实现方式中,所述方法还包括:
[0021]获取所述每个客户端的本地样本数量;
[0022]将所述每个客户端的本地样本数量之和,确定为样本总量;
[0023]将所述每个客户端的本地样本数量与所述样本总量之商,确定为所述每个客户端的预期权重。
[0024]在一种具体实现方式中,所述基于前N轮联邦学习中每个客户端的被采样情况,确定每个客户端对应的最小未被采样轮数间隔,包括:
[0025]获取所述每个客户端在前N轮联邦学习的最后被采样轮次;
[0026]将N+1与所述每个客户端在前N轮联邦学习的最后被采样轮次之间的差,确定为所述每个客户端对应的最小未被采样轮数间隔。
[0027]在一种具体实现方式中,所述获取所述每个客户端在前N轮联邦学习的最后被采样轮次,包括:
[0028]获取所述每个客户端在第N

W+1至第N轮联邦学习的最后被采样轮次,所述W为预设滑窗长度。
[0029]在一种具体实现方式中,所述根据进行N轮联邦学习后所述每个客户端的综合异质性指标,从多个客户端中确定参与第N+1轮联邦学习的客户端,包括:
[0030]构建待采样客户端序列,所述待采样客户端序列中每个客户端按照对应的综合异质性指标从大到小排列;
[0031]根据所述待采样客户端序列中的客户端数量与预设采样率之积,确定为待采样参与方数量M;
[0032]从所述待采样客户端序列抽取前M个客户端参与第N+1轮联邦学习。
[0033]本申请实施例第二方面提供一种计算机设备,包括:
[0034]计算单元,用于计算进行N轮联邦学习后每个客户端的数据异质性指标;
[0035]确定单元,用于基于前N轮联邦学习中每个客户端的被采样情况,确定每个客户端
对应的最小未被采样轮数间隔;
[0036]所述确定单元,还用于基于所述每个客户端对应的最小未被采样轮数间隔,确定进行N轮联邦学习后所述每个客户端的系统异质性指标;
[0037]所述确定单元,还用于基于进行N轮联邦学习后所述每个客户端的数据异质性指标以及每个客户端的系统异质性指标,确定进行N轮联邦学习后所述每个客户端的综合异质性指标;
[0038]所述确定单元,还用于根据进行N轮联邦学习后所述每个客户端的综合异质性指标,从多个客户端中确定参与第N+1轮联邦学习的客户端。
[0039]在一种具体实现方式中,所述计算单元,具体用于将前N轮联邦学习中每轮联邦学习所述每个客户端的本地梯度、以及服务器的全局梯度之间的相似度,确定为所述每个客户端在前N轮联邦学习中每轮联邦学习的数据贡献度;
[0040]将前N轮联邦学习中每轮联邦学习所述每个客户端的数据贡献度以及聚合权重之积,确定为前N轮联邦学习中每轮联邦学习所述每个客户端的相似度权重;
[0041]将所述每个客户端在前N轮联邦学习中每轮联邦学习的相似度权重之和,确定为进行N轮联邦学习后所述每个客户端的累积相似度权重;
[0042]将进行N轮联邦学习后所述每个客户端的累积相似度权重与所述每个客户端的预期权重之间的差异程度,确定为进行N轮联邦学习后所述每个客户端的数据异质性指标。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据异质和系统异质条件下的联邦学习方法,其特征在于,包括:计算进行N轮联邦学习后每个客户端的数据异质性指标;基于前N轮联邦学习中每个客户端的被采样情况,确定每个客户端对应的最小未被采样轮数间隔;基于所述每个客户端对应的最小未被采样轮数间隔,确定进行N轮联邦学习后所述每个客户端的系统异质性指标;基于进行N轮联邦学习后所述每个客户端的数据异质性指标以及每个客户端的系统异质性指标,确定进行N轮联邦学习后所述每个客户端的综合异质性指标;根据进行N轮联邦学习后所述每个客户端的综合异质性指标,从多个客户端中确定参与第N+1轮全局模型聚合的客户端。2.根据权利要求1所述的方法,其特征在于,所述计算进行N轮联邦学习后每个客户端的数据异质性指标,包括:将前N轮联邦学习中每轮联邦学习所述每个客户端的本地梯度、以及服务器的全局梯度之间的相似度,确定为所述每个客户端在前N轮联邦学习中每轮联邦学习的数据贡献度;将前N轮联邦学习中每轮联邦学习所述每个客户端的数据贡献度以及聚合权重之积,确定为前N轮联邦学习中每轮联邦学习所述每个客户端的相似度权重;将所述每个客户端在前N轮联邦学习中每轮联邦学习的相似度权重之和,确定为进行N轮联邦学习后所述每个客户端的累积相似度权重;将进行N轮联邦学习后所述每个客户端的累积相似度权重与所述每个客户端的预期权重之间的差异程度,确定为进行N轮联邦学习后所述每个客户端的数据异质性指标。3.根据权利要求2所述的方法,其特征在于,所述将进行N轮联邦学习后所述每个客户端的累积相似度权重与所述每个客户端的预期权重之间的差异程度,确定为进行N轮联邦学习后所述每个客户端的数据异质性指标,包括:对所述每个客户端进行N轮联邦学习后的累积相似度权重进行归一化处理,获得所述每个客户端进行N轮联邦学习后的归一化累积相似度权重;根据所述每个客户端进行N轮联邦学习后的归一化累积相似度权重与所述每个客户端的预期权重之商,确定进行N轮联邦学习后所述每个客户端的数据异质性指标。4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:获取所述每个客户端的本地样本数量;将所述每个客户端的本地样本数量之和,确定为样本总量;将所述每个客户端的本地样本数量与所述样本总量之商,确定为所述每个客户端的预期权重。5.根据权...

【专利技术属性】
技术研发人员:丁宁李南王颂张贵峰张晓光李韵杨宇轩张爱东
申请(专利权)人:香港中文大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1