基于联邦学习框架的非独立同分布数据处理方法技术

技术编号:37079473 阅读:12 留言:0更新日期:2023-03-29 19:55
本发明专利技术公开了一种基于联邦学习框架的非独立同分布数据处理方法,其步骤为:在客户端上基于Wasserstein距离构建了相似度计算方法并聚合数据分布相近的客户端,在服务器上构建了集成模型计算方法,对由所有客户端模型平均加权得到的全局模型进行微调,在模型参数传递过程中分别通过参数掩码技术和注意力机制技术来最小化整体系统的通信成本和计算成本。本发明专利技术在对非独立同分布数据处理的过程中有效消除了由非独立同分布数据导致的模型偏差问题,增强了模型的性能表现,也显著降低了整体系统的通信开销与能量损耗。系统的通信开销与能量损耗。系统的通信开销与能量损耗。

【技术实现步骤摘要】
基于联邦学习框架的非独立同分布数据处理方法


[0001]本专利技术属于通信
,更进一步涉及分布式与隐私保护
中的一种基于联邦学习框架的非独立同分布数据处理方法。本专利技术可用于传感器设备、独立数据中心机构和边缘服务器协同工作的环境中,在保证用户隐私的前提下基于联邦学习框架对非独立同分布数据进行处理,为分析和学习多个私有数据拥有者的数据信息提供重要依据和保障。

技术介绍

[0002]随着移动互联网、云计算、物联网等信息技术的高速发展,世界进入大数据时代。数据作为数字经济时代的新型生产要素,其重要意义已被社会各界认可。受到大数据融合应用和隐私保护的双重需求驱动,隐私保护计算应用而生,成为目前国内外推动数据可信流通的重要技术。隐私计算可以构建数据可用不可见,可用不可存,可控可计量的安全流通范式。联邦学习是隐私计算中一种重要的技术,指的是由两个或两个以上参与方共同参与,在保证各数据方的原始数据不出本地域的前提下,协作构建并使用机器学习模型的人工智能技术。联邦学习体现了集中数据收集和最小化的原则,可以减轻传统集中式机器学习和数据挖掘方法带来的系统和统计层面上的隐私风险和通信效率开销。
[0003]电子科技大学在其申请的专利文献“一种面向非独立同分布数据的分层用户训练管理系统及方法”(申请号CN 202110959654.7,申请公布号CN 113672684 A)中提供了一种基于分层用户训练管理系统的非独立同分布数据处理方法。该方法的实现步骤包括如下:第一步,在保护用户标签的前提下通过计算节点数据分布和全局分布的相似性对用户进行评分;第二步,全局参数服务器根据用户评分进行合理的分组处理,使组间数据分布近似均匀,解决非独立同分布问题;第三步,根据用户的需求设置并行度增长曲线,使训练从串行向并行转化,在保证模型收敛速度和精度的情况下保证模型的并行度,节省训练时间。该专利技术虽然将全同步算法与序列联邦学习算法相结合,可以显著减少通信负载并节省计算资源。但是,该方法仍然存在的不足之处是:在计算节点数据和全局数据分布的相似性时,可能存在噪音从而导致分组错误,模型精度受到限制甚至带来危害。
[0004]河南大学在其申请的专利文献“一种聚类联邦学习方法及装置”(申请号CN202210809648.8,申请公布号CN 115169582 A)中提供了一种在联邦学习训练过程中基于聚类思想的非独立同分布数据处理方法。该方法的实现步骤包括如下:第一步,获取客户端的本地数据分布的特征向量,其中所述特征向量是在客户端上使用Deep Sets模型对本地数据分布进行特征提取得到的;第二步,使用K

Means聚类算法对所有客户端的本地数据分布的特征向量进行聚类,以便将数据分布相似的客户端分入至相同组;第三步,为每个分组设定对应的聚簇标识,不同分组对应不同的聚簇标识,相同组内的客户端具有相同的聚簇标识;第四步,根据客户端的聚簇标识对客户端进行调度,使得具有相同聚簇标识的客户端采用联邦学习算法共同训练一个模型。该专利技术能够解决由于数据分布的异构导致的模型精度下降的问题,并可以降低客户端节点的计算负载。但是,该方法仍然存在的不足之处
是:对于训练完成后的联邦学习模型而言,只缓解了客户端上异构数据带来的负面影响,不能很好的解决中心服务器节点上的模型漂移问题。
[0005]河北工业大学在其申请的专利文献“一种非独立同分布的工业大数据联合建模方法”(申请号CN202210250580.4,申请公布号CN114676765 A)中提供了一种面向大批量工业大数据的非独立同分布数据处理方法。该方法的步骤包括如下:第一步,各局部工厂将本地非独立同分布数据集上传至中心工厂;第二步,中心工厂进行全局模型更新,计算各局部工厂的训练权重和训练概率,选择有利于全局模型优化的局部工厂下发全局模型参数;第三步,被选中的局部工厂进行本地更新,在发生偏移的局部工厂模型中选择接近当前最优全局模型的局部模型参数上传给中心工厂;第四步,重复优化全局模型步骤和上传局部模型参数步骤,直至模型训练结束。该专利技术通过联合建模方法能够对工业领域中大量存在的非独立同分布数据进行高效的学习。但是,该方法仍然存在的不足之处是:对大批量工业大数据进行联合训练会带来不可忽视的通信延迟与系统开销,进而导致计算效率底下、局部节点的计算负载高的问题。

技术实现思路

[0006]本专利技术的目的是针对上述现有技术的不足,提出一种基于联邦学习框架的非独立同分布数据处理方法,用于解决现有联邦学习技术在处理非独立同分布数据时对本地客户端造成的局部更新偏差问题,中央服务器在全局模型聚合时由于不同客户端差异所引入的模型聚合偏差问题,以及联邦学习整体系统在模型参数传递过程中的上下行通信损耗和时间开销问题。
[0007]实现本专利技术目的的思路是:在基于中央服务器和客户端的环境中提出一种基于联邦学习框架的非独立同分布数据处理方法。每个客户端通过训练其私有数据来更新模型的预测层参数并发送给中央服务器,中央服务器接收所有客户端模型的预测层参数并打包发送给每个客户端,每个客户端都基于总体的预测层参数计算出与其最相似的客户端的预测层参数,加权得到合成参数,使得每个客户端模型可以从合成参数中学习以改善局部更新偏差问题,再进一步中央服务器对所有客户端模型的整体参数加权得到集成模型,使得服务器上由每个客户端模型聚合得到的全局模型可以从集成模型中学习到更多的泛化信息以解决模型聚合偏差问题,最后,在所有模型的参数传递过程中通过参数掩码压缩参数并基于注意力机制为每个客户端赋予不同的加权系数,有效降低了通信和计算成本,由于在整体训练过程仅仅传递了梯度信息,因此也很好保护了用户数据的隐私。
[0008]为实现上述目的,本专利技术具体实现步骤包括如下:
[0009]步骤1,每个客户端基于Wasserstein距离聚合相近客户端得到其合成参数:
[0010]步骤1.1,每个客户端利用列表存储模型的预测层参数,再上传给服务器端,服务器端接收全体客户端模型的预测层参数;
[0011]步骤1.2,服务器端打包所有的预测层参数,再发送给每个客户端;
[0012]步骤1.3,每个客户端接收到所有客户端的预测层参数,根据Wasserstein距离公式,计算每个客户端与其他客户端的预测层参数之间的Wasserstein距离;
[0013]步骤1.4,将每个客户端与其他客户端的所有Wasserstein距离按照从小到大排序,选择排序中前M个客户端来组成该客户端的相近客户端,其中M大于或等于5;
[0014]步骤1.5,计算每个客户端的合成参数;
[0015]步骤2,基于合成参数计算每个客户端的损失:
[0016]步骤2.1,利用类重要性公式,计算每个客户端私有数据与全体训练数据集中每个类别数据样本的比率因子,所述的全体训练数据集是指所有客户端上私有数据的汇总;
[0017]步骤2.2,计算每个客户端的合成参数与当前客户端模型参数的相对熵距离,再通过随机梯度下降算法训练当前客户端模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习框架的非独立同分布数据处理方法,其特征在于,针对非独立同分布数据,基于联邦学习框架分别在客户端、服务器,以及模型参数的传递过程中进行相应的处理;该方法的具体步骤包括如下:步骤1,每个客户端基于Wasserstein距离聚合相近客户端得到其合成参数:步骤1.1,每个客户端利用列表存储模型的预测层参数,再上传给服务器端,服务器端接收全体客户端模型的预测层参数;步骤1.2,服务器端打包所有的预测层参数,再发送给每个客户端;步骤1.3,每个客户端接收到所有客户端的预测层参数,根据Wasserstein距离公式,计算每个客户端与其他客户端的预测层参数之间的Wasserstein距离;步骤1.4,将每个客户端与其他客户端的所有Wasserstein距离按照从小到大排序,选择排序中前M个客户端组成该客户端的相近客户端,其中M大于或等于5;步骤1.5,计算每个客户端的合成参数;步骤2,基于合成参数计算每个客户端的损失:步骤2.1,利用类重要性公式,计算每个客户端私有数据与全体训练数据集中每个类别数据样本的比率因子,所述的全体训练数据集是指所有客户端上私有数据的汇总;步骤2.2,计算每个客户端的合成参数与当前客户端模型参数的相对熵距离,再通过随机梯度下降算法训练当前客户端模型;步骤3,利用构建的服务器端集成模型对全局模型进行微调:步骤3.1,服务器对接收所有客户端的模型参数,通过加权计算方法得到服务器端集成模型;步骤3.2,服务器端根据每个客户端的模型参数,通过比率计算方法,分别计算每个客户端的集成比率;步骤3.3,由全体训练数据集中针对每个类别的数据样本采样100个数据样本,随机打乱所有采样后的数据样本次序后再将其全部打包合并成辅助数据集;步骤3.4,在服务器端分别对集成模型和通过平均相加再相乘所有客户端模型得到的全局模型之间计算相对熵距离损失,先将集成模型和全局模型的参数除于其各自对应的平方和,再使用相对熵距离公式计算集成模型参数和全局模型参数之间的距离数值;步骤3.5,通过随机梯度下降算法更新全局模型对应的参数值;步骤4,通过参数掩码和注意力机制优化模型参数的传递过程:步骤4.1,每个客户端设置与当前客户端模型参数大小相等的参数掩码矩阵,并将该参数掩码矩阵的初始元素值均设置为1;步骤4.2,将当前客户端模型与参数掩码矩阵相乘得到新的参数矩阵,利用当前客户端私有数据重新训练该新的参数矩阵,使用随机梯度下降算法更新该新的参数矩阵,每个客户端上传训练后的参数矩阵到服务器;步骤4.3,服务器端接收到所有经过参数掩码压缩后的客户端模型参数,再通过注意力机制计算方法为每个客户端的模型参数赋予不同的加权比率。2.根据权利要求1所述的基于联邦学习框架的非独立同分布数据处理方法,其特征在于,步骤1.3中所述的Wasserstein距离公式如下:
其中,d
i,j
代表第i个客户端与第j个客户端预测层参数之间的Wasserstein距离,∑代表求和符号,c代表客户端的类别标签序号,代表客户端的类别标签总数,代表第i个客户端模型对全体训练数据集中第c类标签的数据样本经过训练后得到的预测层参数的均值,代表第j个客户端模型对全体训练数据集中第c类标签的数据样本经过训练后得到的预测层参数的...

【专利技术属性】
技术研发人员:王利娟王欢
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1