基于差分隐私的自适应Top-k扰动混洗联邦学习方法及系统技术方案

技术编号:37777302 阅读:9 留言:0更新日期:2023-06-09 09:07
本发明专利技术属于数据隐私保护技术领域,特别涉及一种基于差分隐私的自适应Top

【技术实现步骤摘要】
基于差分隐私的自适应Top

k扰动混洗联邦学习方法及系统


[0001]本专利技术属于数据隐私保护
,特别涉及一种基于差分隐私的自适应Top

k扰动混洗联邦学习方法及系统。

技术介绍

[0002]如今,移动智能设备每天都会产生海量的私有个人数据,如何安全有效的在机器学习中使用这些私有数据并且不泄露用户的隐私信息已经成为了一个亟待解决的问题。与机器学习不同的是,联邦学习不需要与其它设备共享自己的私有数据,只需要上传自己的模型参数到服务端进行模型聚合更新,在数据不集中的情况下实现了个人数据的有效利用,且在单词预测、流行病预测、自动驾驶等实际应用场景中表现出比机器学习更好的模型性能。然而,一些研究表明客户端上传的模型参数也可以泄露用户的隐私信息。现有通过引入差分隐私来保护客户端上传的模型参数。经过最近几年的探索和研究,现有的基于差分隐私的联邦学习工作主要分为中心化联邦学习模型(DP

FL)和本地化联邦学习模型(LDP

FL)两类。中心化联邦学习模型中,客户端默认服务端的数据收集器是可信的,并由服务端的数据收集器统一对模型参数执行随机扰动,这种方式使模型拥有较高的准确率;但是,如何确保数据收集器是可信的却还是一个待解决的问题。本地化联邦学习模型中,本地客户端自行完成对模型参数的扰动从而确保模型的安全,不需要担心服务端的分析器是否可信;这种模型方式虽然安全,但是过多的噪声被添加在模型中,导致了模型准确率降低,也影响了模型的通信效率。
[0003]目前利用混洗模型在客户端和服务端之间增加一个半诚实的混洗器,通过对客户端上传的消息进行混洗排列操作,使客户端只能获得乱序的消息,不仅弱化了客户端对服务端的信任程度,也保证了客户端消息的安全性。随着对混洗模型研究的深入,混洗模型在模型效率和模型安全性上取得了更多的成果,但现有的混洗模型研究还存在如下问题。首先,参与每一次模型训练的设备都是成千上万的,这导致每一次训练产生的模型参数数量是巨大的,然而现有的一部分研究却是对所有模型参数进行扰动,一旦服务端完成所有扰动模型参数的聚合操作,这将导致聚合之后的隐私预算值∈激增,进而影响模型的安全性。其次,也有一部分研究是以固定范围的方式对客户端的模型参数进行扰动,但是在模型全局训练期间,客户端自身模型参数将会产生动态的变化,这种方式不但导致这部分参数因过度添加扰动而失去本身的重要性,也因不适应模型参数在全局训练中的动态变化而影响模型的效率。

技术实现思路

[0004]为此,本专利技术提供一种基于差分隐私的自适应Top

k扰动混洗联邦学习方法及系统,通过动态调整Top

k的大小来改变影响客户端和混洗器对Top

k模型参数的扰动,在提升模型效率的同时,能够降低隐私预算值,便于联邦学习中隐私数据保护。
[0005]按照本专利技术所提供的设计方案,提供一种基于差分隐私的自适应Top

k扰动混洗
联邦学习方法,用于多个参与方对业务模型的联合训练,所述多个参与方至少包含:设置在服务器上的分析器和混洗器,和设置在客户端的若干数据方,且联合训练中各训练轮次内的若干数据方由分析器在客户端随机挑选,联合训练过程包含如下内容:
[0006]分析器初始化业务模型权重和Top

k,并将业务模型初始化的权重参数及预设的Top

k比率发送至当前训练轮次中由分析器挑选的各数据方;
[0007]各数据方利用接收到的模型权重参数更新本地局部模型,并利用本地私人数据集对更新后的本地局部模型进行训练,且在训练过程中对本地局部模型的Top

k维度的模型参数进行随机化扰动,并将随机化扰动后的本地局部模型权重参数发送至混洗器,其中,随机化扰动后的本地局部模型权重参数包含:模型每一层维度的权重数据、Top

k维度索引数据集和非Top

k维度索引数据集;
[0008]针对接收到的权重参数,混洗器对Top

k维度的模型权重参数进行隐私扰动,对非Top

k维度的模型权重参数执行高斯分布扰动,对扰动后的权重参数进行混洗后发送至分析器;
[0009]分析器聚合接收到的模型权重参数并生成全局模型权重和新的Top

k,并将全局模型权重和新的Top

k广播至下一轮参与训练的数据方。
[0010]作为本专利技术中基于差分隐私的自适应Top

k扰动混洗联邦学习方法,进一步地,数据方在训练过程中对本地局部模型的Top

k维度的模型参数进行随机化扰动中,利用本地随机化扰动机制对模型中的Top

k维度参数进行扰动操作,其中,本地随机化扰动机制在每次迭代过程中动态调整Top

k大小。
[0011]作为本专利技术中基于差分隐私的自适应Top

k扰动混洗联邦学习方法,进一步地,本地随机化扰动机制表示为:
[0012]tw
d
=(tk
r
[1]·
d[1]+...+tk
r
[n
l

d[n
l
]),其中,tw
d
表示局部向量维度,tk
r
[n
l
]、d[n
l
]、∈
l
、∈
lt
分别表示第n
l
层模型维度的采样率、第n
l
层模型维度数量、模型总隐私预算、模型数量平分之后的隐私预算。
[0013]作为本专利技术中基于差分隐私的自适应Top

k扰动混洗联邦学习方法,进一步地,针对接收到的权重参数,混洗器首先对Top

k维度索引数据集和非Top

k维度索引数据集进行混洗,然后,分别对混洗后的Top

k维度索引数据集和非Top

k维度索引数据集对应维度的模型权重参数进行扰动处理。
[0014]作为本专利技术基于差分隐私的自适应Top

k扰动混洗联邦学习方法,进一步地,混洗器中对Top

k维度的模型权重参数的隐私扰动处理中,依据模型权重比例大小来降低同样隐私预算中产生的扰动值,对Top

k维度的模型权重参数中的Top

k扰动界限进行放大。
[0015]作为本专利技术基于差分隐私的自适应Top

k扰动混洗联邦学习方法,进一步地,混洗器在隐私扰动和高斯分布扰动处理中,并对隐私扰动和高斯分布扰动的参数总数量进行隐私放大,使扰动后的参数数量始终等于每个数据方反馈的模型参数数量,使模型权重参数转化为固定安全状态。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于差分隐私的自适应Top

k扰动混洗联邦学习方法,用于多个参与方对业务模型的联合训练,其特征在于,所述多个参与方至少包含:设置在服务器上的分析器和混洗器,和设置在客户端的若干数据方,且联合训练中各训练轮次内的若干数据方由分析器在客户端随机挑选,联合训练过程包含如下内容:分析器初始化业务模型权重和Top

k,并将业务模型初始化的权重参数及预设的Top

k比率发送至当前训练轮次中由分析器挑选的各数据方;各数据方利用接收到的模型权重参数更新本地局部模型,并利用本地私人数据集对更新后的本地局部模型进行训练,且在训练过程中对本地局部模型的Top

k维度的模型参数进行随机化扰动,并将随机化扰动后的本地局部模型权重参数发送至混洗器,其中,随机化扰动后的本地局部模型权重参数包含:模型每一层维度的权重数据、Top

k维度索引数据集和非Top

k维度索引数据集;针对接收到的权重参数,混洗器对Top

k维度的模型权重参数进行隐私扰动,对非Top

k维度的模型权重参数执行高斯分布扰动,对扰动后的权重参数进行混洗后发送至分析器;分析器聚合接收到的模型权重参数并生成全局模型权重和新的Top

k,并将全局模型权重和新的Top

k广播至下一轮参与训练的数据方。2.根据权利要求1所述的基于差分隐私的自适应Top

k扰动混洗联邦学习方法,其特征在于,数据方在训练过程中对本地局部模型的Top

k维度的模型参数进行随机化扰动中,利用本地随机化扰动机制对模型中的Top

k维度参数进行扰动操作,其中,本地随机化扰动机制在每次迭代过程中动态调整Top

k大小。3.根据权利要求2所述的基于差分隐私的自适应Top

k扰动混洗联邦学习方法,其特征在于,本地随机化扰动机制表示为:其中,tw
d
表示局部向量维度,tk
r
[n
l
]、d[n
l
]、∈
l
、∈
lt
分别表示第n
l
层模型维度的采样率、第n
l
层模型维度数量、模型总隐私预算、模型数量平分之后的隐私预算。4.根据权利要求1所述的基于差分隐私的自适应Top

k扰动混洗联邦学习方法,其特征在于,针对接收到的权重参数,混洗器首先对Top

k维度索引数据集和非Top

k维度索引数据集进行混洗,然后,分别对混洗后的Top

k维度索引数据集和非Top

k维度索引数据集对应维度的模型权重参数进行扰动处理。5.根据权利要求4所述的基...

【专利技术属性】
技术研发人员:杜学绘杨钱涛王娜任志宇王文娟曹利峰刘敖迪单棣斌
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1