当前位置: 首页 > 专利查询>河南大学专利>正文

一种聚类联邦学习方法及装置制造方法及图纸

技术编号:35193301 阅读:43 留言:0更新日期:2022-10-12 18:17
本发明专利技术提供一种聚类联邦学习方法及装置。该方法包括:步骤1:获取客户端的本地数据分布的特征向量;所述特征向量是在客户端上使用Deep Sets模型对本地数据分布进行特征提取得到的;步骤2:使用K

【技术实现步骤摘要】
一种聚类联邦学习方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种聚类联邦学习方法及装置。

技术介绍

[0002]联邦学习是一个新兴的人工智能技术,因其能有效帮助多个机构在满足用户隐私保护、数据安全的要求下,进行数据使用和机器学习建模,逐渐得到越来越多的应用。
[0003]在联邦学习过程中,由于参与训练的各客户端的数据虽独立分布但不服从同一采样方法(Non

IID),因此联邦学习的一大挑战就是由于数据分布的异构造成模型精度的严重下降。

技术实现思路

[0004]为了解决由于数据分布的异构导致的模型精度下降的问题,本专利技术提供一种聚类联邦学习方法及装置。
[0005]一方面,本专利技术提供一种聚类联邦学习方法,包括:
[0006]步骤1:获取客户端的本地数据分布的特征向量;所述特征向量是在客户端上使用Deep Sets模型对本地数据分布进行特征提取得到的;
[0007]步骤2:使用K

Means聚类算法对所有客户端的本地数据分布的特征向量进行聚类,以便将数据分布相似的客户端分入至相同组;
[0008]步骤3:为每个分组设定对应的聚簇标识,不同分组对应不同的聚簇标识,相同组内的客户端具有相同的聚簇标识;
[0009]步骤4:根据客户端的聚簇标识对客户端进行调度,使得具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型。
[0010]进一步地,步骤4中,具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型的过程中使用差分隐私方式保护客户端上的本地数据。
[0011]进一步地,步骤2中,所述K

Means聚类算法采用欧几里得距离作为任意两个客户端的本地数据分布的特征向量之间的距离。
[0012]另一方面,本专利技术提供一种聚类联邦学习装置,包括:客户端和服务器端;在所述客户端上,设置有特征提取模块;在所述服务器端上,设置有聚类模块和调度模块;
[0013]所述特征提取模块,用于使用Deep Sets模型对本地数据分布进行特征提取得到本地数据分布的特征向量;
[0014]所述聚类模块,用于使用K

Means聚类算法对所有客户端的本地数据分布的特征向量进行聚类,以便将数据分布相似的客户端分入至相同组;以及为每个分组设定对应的聚簇标识,不同分组对应不同的聚簇标识,相同组内的客户端具有相同的聚簇标识;
[0015]所述调度模块,用于根据客户端的聚簇标识对客户端进行调度,使得具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型。
[0016]进一步地,在所述调度模块中,具有相同聚簇标识的客户端采用联邦学习算法共
同训练一个模型的过程中使用差分隐私方式保护客户端上的本地数据。
[0017]进一步地,在所述聚类模块中,所述K

Means聚类算法采用欧几里得距离作为任意两个客户端的本地数据分布的特征向量之间的距离。
[0018]本专利技术的有益效果:
[0019]本专利技术通过使用Deep Sets模型对不同客户端的本地数据分布进行特征提取,然后采用聚类算法将具有相同数据分布的客户端分入到相同组中,使得组内客户端节点的数据分布是独立同分布的,然后调度具有相同数据分布的客户端节点采用FedAvg算法对模型进行训练,克服了数据分布异构造成的模型精度的下降问题;同时,在多个客户端采用FedAvg算法对模型进行训练的过程中,利用了差分隐私的方式对数据进行加密,从而能够保证客户端数据的隐私安全。此外,在中心服务器节点中对多个客户端节点进行聚类操作,可以降低客户端节点的计算负载。
附图说明
[0020]图1是本专利技术实施例提供的一种聚类联邦学习方法的流程示意图;
[0021]图2是本专利技术实施例提供的应用场景模型图;
[0022]图3是本专利技术实施例提供的一种聚类联邦学习装置的结构示意图;
[0023]图4为本专利技术实施例提供的不同算法在Synthetic数据集上的实验结果:上图为k取2,3,4时的loss值,下图为k取2,3,4时的accuracy值;
[0024]图5为本专利技术实施例提供的不同算法在CIFAR

10数据集上的实验结果,上图为loss值的结果对比,下图为accuracy值的结果对比;
[0025]图6为本专利技术实施例提供的不同算法在FEMNIST数据集上的实验结果,上图为loss值的结果对比,下图为accuracy值的结果对比。
具体实施方式
[0026]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]实施例1
[0028]如图1所示,本专利技术实施例提供一种聚类联邦学习方法(简称FedDK),该方法的应用场景如图2所示,图2中,一个参与者对应一个客户端,所述方法包括以下步骤:
[0029]S101:获取客户端的本地数据分布的特征向量;所述特征向量是在客户端上使用Deep Sets模型对本地数据分布进行特征提取得到的;
[0030]具体地,Deep Sets模型采用编码器—解码器架构的卷积神经网络,以集合数据为输入,具有数据转置不变性,不会由于输入数据顺序的不同而产生不同的结果。其中,编码器独立作用于输入集合的每一个元素上,产生对应该元素的一个特征向量;解码器聚合这些已编码的特征向量,通过池化操作(例如累加、平均等),最终生成对应该集合数据的特征向量。
[0031]S102:使用K

Means聚类算法对所有客户端的本地数据分布的特征向量进行聚类,
以便将数据分布相似的客户端分入至相同组;
[0032]具体地,本步骤主要包括以下子步骤:
[0033]S1021:随机选择k个客户端的本地数据分布的特征向量作为k个初始的聚簇中心;其中,初始的聚簇中心可表示为φ={μ
c
|1≤c≤k},μ
c
={μ
c,l
|1≤l≤q};μ
c
表示第c个聚簇中心,即第c个客户端的本地数据分布的特征向量;μ
c,l
表示μ
c
的第l个样本特征,即特征向量中的第l个元素。
[0034]S1022:采用欧几里得距离作为任意两个客户端的本地数据分布的特征向量之间的距离计算公式如下:
[0035][0036]其中,R
i
和R
j
分别表示客户端i和客户端j的本地数据分布的特征向量;和分别代表R
i
和R
j
中的第l个元素,每一个本地数据分布的特征向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种聚类联邦学习方法,其特征在于,包括:步骤1:获取客户端的本地数据分布的特征向量;所述特征向量是在客户端上使用Deep Sets模型对本地数据分布进行特征提取得到的;步骤2:使用K

Means聚类算法对所有客户端的本地数据分布的特征向量进行聚类,以便将数据分布相似的客户端分入至相同组;步骤3:为每个分组设定对应的聚簇标识,不同分组对应不同的聚簇标识,相同组内的客户端具有相同的聚簇标识;步骤4:根据客户端的聚簇标识对客户端进行调度,使得具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型。2.根据权利要求1所述的一种聚类联邦学习方法,其特征在于,步骤4中,具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型的过程中使用差分隐私方式保护客户端上的本地数据。3.根据权利要求1所述的一种聚类联邦学习方法,其特征在于,步骤2中,所述K

Means聚类算法采用欧几里得距离作为任意两个客户端的本地数据分布的特征向量之间的距离。4.一种聚类联邦学习装置,包括:客户端和服务器端;其特征在...

【专利技术属性】
技术研发人员:刘颜红常黎明徐恕贞何欣
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1