一种基于伪标签的聚类联邦学习方法技术

技术编号:45645165 阅读:10 留言:0更新日期:2025-06-27 18:50
本发明专利技术提供了一种基于伪标签的聚类联邦学习方法,首先各个客户端使用其自己的本地数据集进行训练,得到各自收敛的本地模型,然后对一个公开的公共数据集进行预测,生成伪标签,接着根据伪标签数据集,计算客户端之间的相似度矩阵,该相似度矩阵基于伪标签和不确定性评分,在得到相似度矩阵后,采用模糊分层聚类算法对客户端进行聚类,聚类完成后客户端被分配到若干个集群中,且每个集群内的客户端具有相似的数据分布和伪标签,最后基于这些集群,进行集群内个性化模型训练。本发明专利技术方案有效防止了数据泄露,提高了聚类效率,减少了计算开销,提高了模型的性能和泛化能力。

【技术实现步骤摘要】

本专利技术涉及联邦学习,尤其涉及一种基于伪标签的聚类联邦学习方法


技术介绍

1、随着公民对数据的日益严格保护以及相关个人隐私法的颁布,数据孤岛问题愈发严重。幸运的是,联邦学习(federated learning,fl)的诞生为这一难题提供了解决方案,联邦学习通过中央服务器从分散在大量不同客户端的数据中训练一个高质量的共享全局模型,从而打破了数据孤岛的局面。最初,联邦学习由google提出,并在2019年的google i/o开发者大会上作为一项在gboard应用中广泛使用的技术亮相。与传统的推荐系统不同,gboard模型的训练很大程度上依赖于移动设备本身,这意味着在不侵犯用户隐私的情况下就能完成推荐过程。近年来,联邦学习已经广泛应用于金融、医疗保健、社交网络等多个领域。

2、然而,尽管联邦学习能够有效地保护数据隐私,它仍面临一些挑战,尤其是在复杂的应用环境中。广泛分布的设备会生成大量非独立同分布(non-iid)数据,这可能导致某些客户端的全局模型表现不佳,甚至其性能低于本地模型。因此,传统的统一全局模型并不适用于所有客户端,尤其是当客户端本文档来自技高网...

【技术保护点】

1.一种基于伪标签的聚类联邦学习方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述步骤S1进一步包括:

3.根据权利要求1所述的方法,其特征在于,所述步骤S2进一步包括:

4.根据权利要求3所述的方法,其特征在于,所述步骤S21中样本级相似度的计算方式为:其中,表示公共数据集的样本数量,通过累加并平均每个样本的贡献值,获得样本级相似度sj(i,k)表示样本对于两个客户端ci和ck的相似性贡献,样本级相似度贡献sj(i,k)的计算如下:

5.根据权利要求3所述的方法,其特征在于,所述步骤S21中标签分布相...

【技术特征摘要】

1.一种基于伪标签的聚类联邦学习方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述步骤s1进一步包括:

3.根据权利要求1所述的方法,其特征在于,所述步骤s2进一步包括:

4.根据权利要求3所述的方法,其特征在于,所述步骤s21中样本级相似度的计算方式为:其中,表示公共数据集的样本数量,通过累加并平均每个样本的贡献值,获得样本级相似度sj(i,k)表示样本对于两个客户端ci和ck的相似性贡献,样本级相似度贡献sj(i,k)的计算如下:

5.根据权利要求3所述的方法,其特征在于,所述步骤s21中标签分布相似度的计算方式为:其中,djs(pi,pk)是客户端ci和ck的jensen-shannon散度,衡量其标签分布的差异,表示客户端ci在所有样本上的伪标签分布,代表类别k在客户端ci上的比例,表示客户端ck在所有样本上的伪标签分布,代表...

【专利技术属性】
技术研发人员:李慧李杰尚智谦廖丹张明吴波李广新
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1