基于聚类联邦学习算法的数据隐私保护方法及系统技术方案

技术编号:39597593 阅读:9 留言:0更新日期:2023-12-03 19:56
本发明专利技术提供一种基于聚类联邦学习算法的数据隐私保护方法及系统,该方法包括:

【技术实现步骤摘要】
基于聚类联邦学习算法的数据隐私保护方法及系统


[0001]本专利技术涉及数据隐私保护
,尤其涉及一种基于聚类联邦学习算法的非独立同分布数据的隐私保护方法及系统


技术介绍

[0002]联邦学习是一种分布式的机器学习方法,允许在多个设备或服务器之间共享模型更新而不共享原始数据

它是一种保护隐私的方式,因为训练过程中将局部模型参数上传至中央服务器而不是原始数据

联邦学习中的数据传输和共享可能存在安全和隐私风险

攻击者可能尝试截获和分析模型参数

推理结果或其他交换的信息,从而导致隐私泄露

此外,恶意参与方可能试图通过监视数据和模型来获取敏感信息

确保联邦学习系统的安全性和隐私性仍然是一个复杂的问题

以下是一些可能导致隐私泄露的原因:
[0003]1)
不完全可信的参与方:在联邦学习中,参与方可能是不同的设备

个人或组织

如果有参与方不是完全可信的,他们可能会试图通过监视或记录数据来获取敏感信息

这可能导致隐私泄露

[0004]2)
模型推理攻击:当参与方接收到更新的全局模型时,他们需要根据自己的本地数据进行模型推理

这些推理过程可能受到侧信道攻击,攻击者可以通过分析模型的输出来获取有关输入数据的信息,从而导致隐私泄露

[0005]3)
共享模型参数:在联邦学习中,参与方通过共享模型参数来更新全局模型

如果这些模型参数在传输或共享过程中被拦截,攻击者可能能够通过分析模型参数来获取一些敏感信息

[0006]4)
数据重建:尽管在联邦学习中不会共享原始数据,但攻击者可能通过分析多个局部模型的更新或推理结果来重建原始数据

这种数据重建攻击可能导致隐私泄露

[0007]由于参与方的数据通常是分布式和非独立同分布的,联邦学习可能面临数据偏差的问题

这意味着在某些参与方的数据分布上训练的模型在其他参与方上的泛化性能可能下降

数据偏差会导致模型在全局范围内的性能受到限制

联邦学习中存在非独立同分布
(Non

IID)
数据的原因可以归结为以下几个方面:
[0008]1)
分布式数据来源:联邦学习涉及多个参与方,这些参与方可以是不同的设备

个人或组织

每个参与方收集的数据通常反映了其自身的使用模式

偏好和特征,因此这些数据在分布上可能存在差异

[0009]2)
数据的本地特征:参与方的本地数据可能具有不同的特征分布

例如,如果联邦学习应用于医疗领域,每个医疗机构可能关注不同的疾病类型或患者人群,导致其本地数据的特征分布不同

[0010]3)
数据采样方式:在联邦学习中,参与方通常会从本地数据中进行采样以构建训练集

不同参与方的采样方式可能不同,导致数据的非独立性

例如,某些参与方可能倾向于选择特定类型的样本,而其他参与方则有不同的采样策略

[0011]4)
数据标记和质量差异:参与方在进行数据标记和数据清洗时可能存在差异


如,不同参与方可能使用不同的标签规范或标注方法,或者在数据清洗过程中应用不同的策略

这些差异可能导致数据集之间的标记和质量差异,进而影响模型的训练和泛化能力

[0012]由于这些原因,联邦学习中的数据通常是非独立同分布的

这使得在模型聚合和更新过程中需要采取特定的策略和算法来处理这些差异,以确保全局模型能够充分利用各参与方的数据,并在不同数据分布上取得良好的性能


技术实现思路

[0013]鉴于此,本专利技术的目的在于提供一种基于聚类联邦学习算法的数据隐私保护方法及系统,以解决联邦学习安全和隐私风险方面的隐患,及其数据偏差和非独立同分布问题

[0014]为实现上述专利技术目的,本专利技术第一方面提供一种基于聚类联邦学习算法的数据隐私保护方法,所述方法应用于隐私保护系统,所述隐私保护系统包括若干个客户端和中央服务器,所述客户端与中央服务器信号相连,所述方法包括以下步骤:
[0015]S101、
将数据分发至各个客户端;
[0016]S102、
每个客户端利用分发到的数据,合成与真实数据具有相似分布的合成数据,将合成数据添加到当前客户端的原始数据中得到混合数据集;
[0017]S103、
基于混合数据集构建相似性矩阵,相似性矩阵的每一项都表示混合数据集对子之间的相似性;
[0018]S104、
中央服务器根据相似性矩阵对客户端进行聚类,将拥有相似分布的客户端划分到相同簇中;
[0019]S105、
每个簇作为局部模型进行参数更新,中央服务器根据局部模型参数更新对全局模型参数进行更新;
[0020]S106、
重复执行步骤
S105
,直至满足设定的性能指标

训练时长或次数

[0021]进一步的,步骤
S102
中,每个客户端利用分配到的数据,使用生成式对抗网络
(GAN)
算法,进行合成数据的合成

[0022]进一步的,步骤
S103
中,在每个混合数据集上使用截断奇异值分解来获取一个可计算处理的向量集用以表示数据特征,基于向量集中的特征向量,利用余弦公式计算得到向量间的夹角,并由此构建相似性矩阵

[0023]进一步的,所述步骤
S105
具体包括以下步骤:
[0024]S201、
每个簇中的客户端利用本地数据进行训练,每个簇计算本簇内所有客户端的参数更新作为当前簇的更新,将更新内容上传到中央服务器;
[0025]S202、
中央服务器接收所有簇上传的局部模型更新消息,根据聚合规则得到当前迭代轮次的全局模型更新,将更新后的全局模型参数广播到所有簇中的客户端

[0026]本专利技术第二方面提供一种基于聚类联邦学习算法的数据隐私保护系统,所述系统包括数据分发模块

若干个客户端和中央服务器,所述客户端与中央服务器信号相连,
[0027]所述数据分发模块用于将数据分发到各个客户端;
[0028]所述客户端用于利用分发到的数据,合成与真实数据具有相似分布的合成数据,将合成数据添加到当前客户端的原始数据中得到混合数据集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于聚类联邦学习算法的数据隐私保护方法,其特征在于,所述方法应用于隐私保护系统,所述隐私保护系统包括若干个客户端和中央服务器,所述客户端与中央服务器信号相连,所述方法包括以下步骤:
S101、
将数据分发至各个客户端;
S102、
每个客户端利用分发到的数据,合成与真实数据具有相似分布的合成数据,将合成数据添加到当前客户端的原始数据中得到混合数据集;
S103、
基于混合数据集构建相似性矩阵,相似性矩阵的每一项都表示混合数据集对子之间的相似性;
S104、
中央服务器根据相似性矩阵对客户端进行聚类,将拥有相似分布的客户端划分到相同簇中;
S105、
每个簇作为局部模型进行参数更新,中央服务器根据局部模型参数更新对全局模型参数进行更新;
S106、
重复执行步骤
S105
,直至满足设定的性能指标

训练时长或次数
。2.
根据权利要求1所述的一种基于聚类联邦学习算法的数据隐私保护方法,其特征在于,步骤
S102
中,每个客户端利用分配到的数据,使用生成式对抗网络
(GAN)
算法,进行合成数据的合成
。3.
根据权利要求1所述的一种基于聚类联邦学习算法的数据隐私保护方法,其特征在于,步骤
S103
中,在每个混合数据集上使用截断奇异值分解来获取一个可计算处理的向量集用以表示数据特征,基于向量集中的特征向量,利用余弦公式计算得到向量间的夹角,并由此构建相似性矩阵
。4.
根据权利要求1所述的一种基于聚类联邦学习算法的数据隐私保护方法,其特征在于,所述步骤
S105
具体包括以下步骤:
S201、
每个簇中的客户端利用本地数据进行训练,每个簇计算本簇内所有客户端的参数更新作为当前簇的更新,将更新内容上传...

【专利技术属性】
技术研发人员:龙海侠王晓雪黄佳
申请(专利权)人:海南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1