一种不依赖梯度的聚类联邦学习方法及系统技术方案

技术编号：36268993 阅读：64 留言：0更新日期：2023-01-07 10:09

本发明专利技术公开了一种不依赖梯度的聚类联邦学习方法及系统，本发明专利技术方法包括：客户端分别计算数据分布信息及相互的交集相似度并构造交集相似度向量；服务器收集交集相似度向量并构建相似度矩阵，对客户端进行聚类并执行模型训练，在服务器检测到模型的精度下降且确定恶意簇后，选择客户端来组成验证委员会并进行验证并投票将恶意模型排除、保留良性模型。本发明专利技术中服务器不需要依靠客户端的梯度信息进行聚类而是根据客户端的数据分布之间的交集相似度来进行聚类，避免了客户端的梯度信息泄露问题，保护了客户端的梯度安全，增强了聚类联邦学习过程中的安全性、可靠性、并且提高了训练精度。练精度。练精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种不依赖梯度的聚类联邦学习方法及系统

[0001]本专利技术涉及人工智能的聚类联邦学习
，具体涉及一种不依赖梯度的聚类联邦学习方法及系统。

技术介绍

[0002]虽然随着信息化的发展，信息越来越丰富，但是信息本质上是以孤岛的形式存在的，因为他们高度敏感。一个很典型的应用领域为医疗领域。医疗行业的数据十分敏感，因为可能涉及病人的重要隐私，这些数据通常由不同的医院保留。而各个医院拥有的数据的侧重点可能是不同的(比如有的医院擅长治疗心脏病，有的医院擅长治疗肾脏等)，即存在数据非独立同分布问题。近年来，联邦学习在解决模型训练和数据隐私保护之间的冲突方面引起了人们的关注。而传统的联邦学习并不能很好地解决各客户端之间数据的非独立同分布问题。针对上述问题，现有技术提出了聚类联邦学习，使用梯度来衡量客户端之间数据分布的相似性，并为其分簇，以解决非独立同分布问题。但是，最近的研究表明，客户的隐私信息甚至原始训练数据都可以通过梯度来恢复，且梯度维度往往会随着模型复杂性的增加而爆炸。同时，现有的聚类联邦学习方案无法将具有多样性数据的客户端分组到多个簇中，导致无法充分利用一些客户拥有的多样性数据。此外，与联邦学习相比，聚类联邦学习中的簇结构为恶意客户端提供了合谋聚集在一个簇中并通过在本地发起模型中毒攻击来毒化聚合的簇模型的机会，从而导致模型训练失败。因此，如何在聚类联邦学习中保护客户端的隐私，充分利用客户端数据的多样性和可用性，将对行业的发展有着至关重要的影响。与此同时，如何提高对恶意模型的检测效率，降低检测开销，提高训练过程中的安...

【技术保护点】

【技术特征摘要】
1.一种不依赖梯度的聚类联邦学习方法，其特征在于，包括：S1，客户端分别计算自己的标签样本的数据分布信息，获得自己与其他客户端的数据分布信息之间的交集相似度并构造交集相似度向量；S2，服务器收集各个客户端的交集相似度向量并构建相似度矩阵；S3，服务器基于相似度矩阵使用保证多样性的聚类方法对客户端进行聚类，并执行模型训练步骤，且在服务器检测到模型的精度下降时，跳转下一步；S4，服务器检测恶意簇，且在确定恶意簇后，选择拥有与恶意簇中的客户端最相似数据分布、且不在恶意簇中的客户端来组成验证委员会；S6，利用验证委员会的成员为恶意簇中成员的模型进行验证并投票决定为良性模型和恶意模型，将恶意模型排除、保留良性模型。2.根据权利要求1所述的不依赖梯度的聚类联邦学习方法，其特征在于，步骤S1中客户端分别计算自己的标签样本的数据分布信息的函数表达式为：上式中，以及分别表示第1、2以及第i个客户端的单一标签的数据分布信息，且有任意第i个客户端的单一标签的数据分布信息的计算函数表达式为：其中，表示第i个客户端的第i个索引的数据数量，idx
i
表示标签i的索引，Q
max
表示一个预先定义的任意标签数量的最大值，且任意一个标签的数量都不可以超过这个最大值，X
i
表示第i个客户端构建的数据分布信息，j为第i个客户端的第j个索引的序号。3.根据权利要求2所述的不依赖梯度的聚类联邦学习方法，其特征在于，步骤S1中构造的交集相似度向量的函数表达式为：上式中，ISM
i
为第i个客户端的交集相似度向量，ISM
i
[1]～ISM
i
[j]表示第i个客户端对第1～j个客户端的数据分布相似度，|X
i
∩X
j
|表示第i个客户端与第j个客户端之间的数据分布的交集，X
i
表示第i个客户端构建的数据分布信息，X
j
表示第j个客户端构建的数据分布信息。4.根据权利要求3所述的不依赖梯度的聚类联邦学习方法，其特征在于，步骤S2中构建的相似度矩阵的函数表达式为：上式中，M
sim
为相似度矩阵，任意第i行表示第i个客户端对第1～n个...

【专利技术属性】
技术研发人员：徐旸，张益邦，谭运林，张程，谢鲲，唐卓，李肯立，张尧学，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人