【技术实现步骤摘要】
基于差分隐私的自适应Top
‑
k扰动混洗联邦学习方法及系统
[0001]本专利技术属于数据隐私保护
,特别涉及一种基于差分隐私的自适应Top
‑
k扰动混洗联邦学习方法及系统。
技术介绍
[0002]如今,移动智能设备每天都会产生海量的私有个人数据,如何安全有效的在机器学习中使用这些私有数据并且不泄露用户的隐私信息已经成为了一个亟待解决的问题。与机器学习不同的是,联邦学习不需要与其它设备共享自己的私有数据,只需要上传自己的模型参数到服务端进行模型聚合更新,在数据不集中的情况下实现了个人数据的有效利用,且在单词预测、流行病预测、自动驾驶等实际应用场景中表现出比机器学习更好的模型性能。然而,一些研究表明客户端上传的模型参数也可以泄露用户的隐私信息。现有通过引入差分隐私来保护客户端上传的模型参数。经过最近几年的探索和研究,现有的基于差分隐私的联邦学习工作主要分为中心化联邦学习模型(DP
‑
FL)和本地化联邦学习模型(LDP
‑
FL)两类。中心化联邦学习模型中,客户端默认服务端的数据收集器是可信的,并由服务端的数据收集器统一对模型参数执行随机扰动,这种方式使模型拥有较高的准确率;但是,如何确保数据收集器是可信的却还是一个待解决的问题。本地化联邦学习模型中,本地客户端自行完成对模型参数的扰动从而确保模型的安全,不需要担心服务端的分析器是否可信;这种模型方式虽然安全,但是过多的噪声被添加在模型中,导致了模型准确率降低,也影响了模型的通信效率。
[ ...
【技术保护点】
【技术特征摘要】
1.一种基于差分隐私的自适应Top
‑
k扰动混洗联邦学习方法,用于多个参与方对业务模型的联合训练,其特征在于,所述多个参与方至少包含:设置在服务器上的分析器和混洗器,和设置在客户端的若干数据方,且联合训练中各训练轮次内的若干数据方由分析器在客户端随机挑选,联合训练过程包含如下内容:分析器初始化业务模型权重和Top
‑
k,并将业务模型初始化的权重参数及预设的Top
‑
k比率发送至当前训练轮次中由分析器挑选的各数据方;各数据方利用接收到的模型权重参数更新本地局部模型,并利用本地私人数据集对更新后的本地局部模型进行训练,且在训练过程中对本地局部模型的Top
‑
k维度的模型参数进行随机化扰动,并将随机化扰动后的本地局部模型权重参数发送至混洗器,其中,随机化扰动后的本地局部模型权重参数包含:模型每一层维度的权重数据、Top
‑
k维度索引数据集和非Top
‑
k维度索引数据集;针对接收到的权重参数,混洗器对Top
‑
k维度的模型权重参数进行隐私扰动,对非Top
‑
k维度的模型权重参数执行高斯分布扰动,对扰动后的权重参数进行混洗后发送至分析器;分析器聚合接收到的模型权重参数并生成全局模型权重和新的Top
‑
k,并将全局模型权重和新的Top
‑
k广播至下一轮参与训练的数据方。2.根据权利要求1所述的基于差分隐私的自适应Top
‑
k扰动混洗联邦学习方法,其特征在于,数据方在训练过程中对本地局部模型的Top
‑
k维度的模型参数进行随机化扰动中,利用本地随机化扰动机制对模型中的Top
‑
k维度参数进行扰动操作,其中,本地随机化扰动机制在每次迭代过程中动态调整Top
‑
k大小。3.根据权利要求2所述的基于差分隐私的自适应Top
‑
k扰动混洗联邦学习方法,其特征在于,本地随机化扰动机制表示为:其中,tw
d
表示局部向量维度,tk
r
[n
l
]、d[n
l
]、∈
l
、∈
lt
分别表示第n
l
层模型维度的采样率、第n
l
层模型维度数量、模型总隐私预算、模型数量平分之后的隐私预算。4.根据权利要求1所述的基于差分隐私的自适应Top
‑
k扰动混洗联邦学习方法,其特征在于,针对接收到的权重参数,混洗器首先对Top
‑
k维度索引数据集和非Top
‑
k维度索引数据集进行混洗,然后,分别对混洗后的Top
‑
k维度索引数据集和非Top
‑
k维度索引数据集对应维度的模型权重参数进行扰动处理。5.根据权利要求4所述的基...
【专利技术属性】
技术研发人员:杜学绘,杨钱涛,王娜,任志宇,王文娟,曹利峰,刘敖迪,单棣斌,
申请(专利权)人:中国人民解放军战略支援部队信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。