一种面向数据不均衡的联邦聚合方法及装置制造方法及图纸

技术编号:37996881 阅读:16 留言:0更新日期:2023-06-30 10:10
本发明专利技术涉及联邦学习技术领域,具体提供了一种面向数据不均衡的联邦聚合方法及装置,具有如下步骤:S1、构建数据质量向量,由梯度因子、分布因子、数量因子组成;S2、以数据质量向量作为聚类特征,对参与方进行聚类分析,实现参与方分组;S3、基于分组聚合梯度的方式,完成全局梯度计算。与现有技术相比,本发明专利技术构建了一个数据质量描述向量,权衡了数据不均衡情况下各个参与方数据的数量、质量、模型贡献,多角度衡量数据集之间的差异,且基于此向量的聚类分析可以大大提升通讯效率。分析可以大大提升通讯效率。分析可以大大提升通讯效率。

【技术实现步骤摘要】
一种面向数据不均衡的联邦聚合方法及装置


[0001]本专利技术涉及联邦学习
,具体提供一种面向数据不均衡的联邦聚合方法及装置。

技术介绍

[0002]随着人工智能的发展及应用,数据的价值日益体现。在实践中,如何在利用数据时保护好用户隐私是数据应用中的一大挑战,在此背景下联邦学习应运而生,联邦学习利用模型梯度传递训练信息,保证了用户数据不出本地的情况下完成训练任务,达到保护数据隐私的目的。
[0003]在数据积累过程中,由于使用习惯、任务差异等因素导致数据拥有方的数据类别差异化严重,各方数据质量参差不齐。目前最为广泛使用的联邦聚合算法为联邦平均算法,它以参与方拥有的数据集数量作为参与方梯度的权重,实现梯度聚合,在面向数据不均衡数据集时,往往表现不佳。
[0004]其面临的主要问题包括:
[0005]1.缺乏对数据分布、数据质量的评估、量化建模,在实践中,仅从数量计算权重,无法解决多分类中分布差异导致的模型震荡。
[0006]2.无法解决数据存在非独立同分布的问题,这使得传统的联邦聚合算法难以把握模型更新方向,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向数据不均衡的联邦聚合方法,其特征在于,具有如下步骤:S1、构建数据质量向量,由梯度因子、分布因子、数量因子组成;S2、以数据质量向量作为聚类特征,对参与方进行聚类分析,实现参与方分组;S3、基于分组聚合梯度的方式,完成全局梯度计算。2.根据权利要求1所述的一种面向数据不均衡的联邦聚合方法,其特征在于,在步骤S1中,进一步包括:S101、参与方从中央服务器获取t-1轮训练的模型全局梯度并更新本地模型参数S102、参与方基于本地数据进行第t轮模型训练,得到本地模型各个神经元的梯度同时取上一轮全局梯度值以神经网络中各个网络层为基本单元划分梯度,计算和梯度偏移;S103、参与方统计各自数据集的数据量,并进行归一化;S104、各个参与方计算自己数据集与均匀分布的KL散度,作为均衡参与方参与训练时数据集的分布差异,记为S105、构建数据质量向量,记为3.根据权利要求2所述的一种面向数据不均衡的联邦聚合方法,其特征在于,在步骤S102中,计算和梯度偏移,作为数据质量向量的一个因子,记为衡量当前数据集对于模型的优化方向影响,其中梯度偏移的度量准则选择向量内积,各个值位于[0,1]之间;选用3层全连接神经网络,按网络层为基本单元划分后的梯度如下所示共包含3个向量,每个向量表示了对应网络层的梯度信息:表示第一层全连接各个神经元的梯度,是一个向量;表示第一层全连接本地训练后各个神经元的梯度,是一个向量;其中符号表示内积运算,偏移结果的结果示例为:[0.2,0.5,0.8],网络的每一层结构,对应一个值。4.根据权利要求3所述的一种面向数据不均衡的联邦聚合方法,其特征在于,在步骤S103中,参与方统计各自数据集的数据量,并进行归一化,记为作为数据质量向量的第二因子,其中其计算公式如下:其中n表示参与方个数,i表示第i个参与方,D
i
表示参与方的数据拥有量。
5.根据权利要求4所述的一种面向数据不均衡的联邦聚合方法,其特征在于,在...

【专利技术属性】
技术研发人员:伊文超朱利霞何彬彬潘心冰李旭东
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1