基于数据分布相似性模糊聚类的联邦学习方法及系统技术方案

技术编号:38392614 阅读:10 留言:0更新日期:2023-08-05 17:45
本发明专利技术提供一种基于数据分布相似性模糊聚类的联邦学习方法及系统,属于联邦学习技术领域,广播所有集群模型;计算在各个集群模型的损失值,根据损失值,选择N个集群作为客户的关联集群,并且评估集群的重要性,其中N值为根据集群数量和客户数量事先确定好的一个参数;初始化客户端模型,进行本地训练;根据客户样本量和客户与集群的关联程度更新集群模型聚合权重,得到更新之后的集群模型。本发明专利技术通过将一个用户关联到多个集群,有效改善了由于多种数据混合分布的问题,可以让网络模型更好的收敛和泛化,并且拥有更优异的个性化能力。并且拥有更优异的个性化能力。并且拥有更优异的个性化能力。

【技术实现步骤摘要】
基于数据分布相似性模糊聚类的联邦学习方法及系统


[0001]本专利技术涉及联邦学习
,具体涉及一种基于数据分布相似性模糊聚类的联邦学习方法及系统。

技术介绍

[0002]大数据时代的到来给人们的生活带来诸多便利,各行各业的数据可以联合起来产生无穷的价值,以数据为基石的人工智能机器学习技术蓬勃发展。由于数据通常分布在如手机、个人电脑等边缘计算设备,传统的机器学习方法是将分散在各个边缘计算设备的数据集中起来,进行统一的预处理、建模和训练。隐私数据的流通和共享受到严格的限制,因此产生“数据孤岛”的问题。
[0003]为解决这个问题,有关学者提出联邦学习技术。联邦学习是一种既能保护本地数据不被泄露又能协同多个边缘设备训练出高性能模型的机器学习框架,并且满足政府法规,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,实现AI合作。
[0004]目前,现有技术中一种最具代表性的硬聚类联邦学习方法,将具有相似数据分布的客户进行聚集形成若干集群以训练高性能的全局模型,包括:首先指定聚类的集群个数K,也就是事先划分好,将所有用户分为K个集群,同一个的集群中的客户端一般认为具有更加相似的数据分布,让这些用户一起训练,能更加充分地利用数据知识。在训练迭代开始前,常常将T个客户端初步训练后的参数发送给服务器,然后由中心服务器运行K

means算法将T个客户端聚类。对每一个类单独运行传统联邦学习算法(如FedAvg),训练多轮之后求解出最终的集群中客户端的最终模型参数。该方法的适用范围广泛,训练效率较高,是目前具有代表性的硬聚类联邦学方法。
[0005]上述现有技术中的联邦学习硬聚类方法存在如下缺点:
[0006]1.硬聚类联邦学习不能有效地利用不同集群之间的相似性,尽管参与联邦学习训练的客户可能具有非独立同分布数据分布,但两个不同的分布仍然可能表现出一些相似性。
[0007]2.真实场景中的客户数据分布更加复杂,客户数据存在混合多种分布的可能性,简单地将客户与单一集群进行关联会造成客户数据的低效利用从而影响集群模型的收敛和泛化。

技术实现思路

[0008]本专利技术的目的在于提供一种利用客户与集群间的关联性,允许参与客户的本地更新信息在每轮迭代中被多个集群同时学习,并通过加权融合集群模型为客户提供个性化模型的基于数据分布相似性模糊聚类的联邦学习方法及系统,以解决上述
技术介绍
中存在的至少一项技术问题。
[0009]为了实现上述目的,本专利技术采取了如下技术方案:
[0010]一方面,本专利技术提供一种基于数据分布相似性模糊聚类的联邦学习方法,包括:
[0011]广播所有集群模型;
[0012]计算在各个集群模型的损失值,根据损失值,选择N个集群作为客户的关联集群,并且评估集群的重要性,其中N值为根据集群数量和客户数量事先确定好的一个参数;
[0013]初始化客户端模型,进行本地训练;
[0014]根据客户样本量和客户与集群的关联程度更新集群模型聚合权重,得到更新之后的集群模型。
[0015]优选的,广播所有集群模型,包括:对于一个联邦学习的系统,如果是首轮训练,则初始化所有的集群模型,将这些初始模型分别下发给所有的客户;如果处于后续轮数的训练,则将上一步更新之后的集群模型下发给客户。
[0016]优选的,计算在各个集群的损失值,根据损失值,选择N个集群作为客户的关联集群,并且评估集群的重要性,其中N值为根据集群数量和客户数量事先确定好的一个参数,包括:
[0017]每个用户k会收到广播的集群模型cluster_weight
c
,用户保留收到的所有集群模型;
[0018]用户使用自己的私有数据D分别计算在所有集群模型上的损失值,随后将所有集群模型上的损失值按照从小到大的顺序排列:
[0019]其中,loss为用户使用自己的私有数据D计算在集群模型cluster_weight
c
上的损失值;选定最小的N个损失值所对应的N个集群,客户的身份集合为这N个集群;
[0020]这N个集群作为用户的关联集群,表明这N个集群与客户的关联程度最大,对应的集群模型的性能表现也会更好;损失值越小,集群对于客户的重要性也就越高;在确定了客户的身份集合之后,评估集群重要性之后,客户进行本地训练。
[0021]优选的,初始化客户端模型,进行本地训练,包括:根据集群重要性,用户对自己所属的N个集群对应的集群模型进行加权融合,得到一个新的网络模型;将得到的新的网络模型作为客户的初始模型,在本地进行反复迭代训练。
[0022]优选的,向中心服务器上传客户身份,即自己属于哪些集群以及更新之后的模型参数,包括:每个客户都会拥有自己的所属身份集合,将自己的身份集合上传到中心服务器;客户再将在本地训练完成的网络模型上传到服务器。
[0023]优选的,根据客户样本量和客户与集群的关联程度更新集群模型聚合权重,包括:根据收到的客户身份集合,确定每个集群中的客户群体并对其中的客户模型聚合成新的集群模型;根据客户样本量和客户与集群的关联程度来聚合新的集群模型;聚合好的集群模型作为集群的新模型。
[0024]第二方面,本专利技术提供一种基于数据分布相似性模糊聚类的联邦学习系统,包括:
[0025]广播模块,用于广播所有集群模型;
[0026]计算评估模块,用于计算在各个集群模型的损失值,根据损失值,选择N个集群作为客户的关联集群,并且评估集群的重要性,其中N值为根据集群数量和客户数量事先确定好的一个参数;
[0027]训练模块,用于初始化客户端模型,进行本地训练;
[0028]更新模块,用于根据客户样本量和客户与集群的关联程度更新集群模型聚合权
重,得到更新之后的集群模型。
[0029]第三方面,本专利技术提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的基于数据分布相似性模糊聚类的联邦学习方法。
[0030]第四方面,本专利技术提供一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的基于数据分布相似性模糊聚类的联邦学习方法。
[0031]第五方面,本专利技术提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的基于数据分布相似性模糊聚类的联邦学习方法的指令。
[0032]本专利技术有益效果:通过将一个用户关联到多个集群,有效改善了由于多种数据混合分布的问题,可以让网络模型更好的收敛和泛化,并且拥有更优异的个性化能力。
[0033]本专利技术附加方面的优点,将在下述的描述部分中更加明显的给出,或通过本专利技术的实践了解到。
附图说明
[0034]为了更清楚地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据分布相似性模糊聚类的联邦学习方法,其特征在于,包括:广播所有集群模型;计算在各个集群模型的损失值,根据损失值,选择N个集群作为客户的关联集群,并且评估集群的重要性,其中N值为根据集群数量和客户数量事先确定好的一个参数;初始化客户端模型,进行本地训练;根据客户样本量和客户与集群的关联程度更新集群模型聚合权重,得到更新之后的集群模型。2.根据权利要求1所述的基于数据分布相似性模糊聚类的联邦学习方法,其特征在于,广播所有集群模型,包括:对于一个联邦学习的系统,如果是首轮训练,则初始化所有的集群模型,将这些初始模型分别下发给所有的客户;如果处于后续轮数的训练,则将上一步更新之后的集群模型下发给客户。3.根据权利要求1所述的基于数据分布相似性模糊聚类的联邦学习方法,其特征在于,计算在各个集群的损失值,根据损失值,选择N个集群作为客户的关联集群,并且评估集群的重要性,其中N值为根据集群数量和客户数量事先确定好的一个参数,包括:每个用户k会收到广播的集群模型cluster_weight
c
,用户保留收到的所有集群模型;用户使用自己的私有数据D分别计算在所有集群模型上的损失值,随后将所有集群模型上的损失值按照从小到大的顺序排列:其中,loss为用户使用自己的私有数据D计算在集群模型cluster_weight
c
上的损失值;选定最小的N个损失值所对应的N个集群,客户的身份集合为这N个集群;这N个集群作为用户的关联集群,表明这N个集群与客户的关联程度最大,对应的集群模型的性能表现也会更好;损失值越小,集群对于客户的重要性也就越高;在确定了客户的身份集合之后,评估集群重要性之后,客户进行本地训练。4.根据权利要求1所述的基于数据分布相似性模糊聚类的联邦学习方法,其特征在于,初始化客户端模型,进行本地训练,包括:根据集群重要性,用户对自己所属的N个集群对应的集群模型进行加权融合,得到一个新的网络模型;将得到的新的网络模型作为客户的初始模型,在本地进行反复迭代训练。5.根据...

【专利技术属性】
技术研发人员:陈乃月蔡露鑫金兵伟李浥东孙永奇丁春涛
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1