当前位置: 首页 > 专利查询>广州大学专利>正文

基于联邦学习的自适应隐私预算分配的梯度压缩框架制造技术

技术编号:36022824 阅读:13 留言:0更新日期:2022-12-21 10:19
本发明专利技术公开了一种基于联邦学习的自适应隐私预算分配的梯度压缩框架,包括:基于Top

【技术实现步骤摘要】
基于联邦学习的自适应隐私预算分配的梯度压缩框架


[0001]本专利技术涉及深度学习领域,具体包括一种基于联邦学习的自适应隐私预算分配的梯度压缩框架。

技术介绍

[0002]在传统的集中式深度学习框架中,用户将他们包含敏感信息的数据发送给机器学习公司(一个不受信任的第三方)。一旦数据发送到第三方,用户无法删除也无法控制他们自己的数据,这些不可信的第三方可能会利用他们的数据进行一些违法的事情,因此他们的数据可能会有隐私泄露的风险。2015年,Shokri等人提出了一个多参与方的隐私保护协作式深度学习模型。在这个模型中,每个参与者可以独立地在本地训练他们的模型,然后有选择地将他们本地模型的一些模型参数分享给中心服务器。通过这种方式,一方面可以保护参与者的敏感数据不被泄露,另一方面,参与者分享的参数可以用来提高他们训练的模型的准确性。谷歌在Shokri的工作基础上首次提出了联邦学习的概念,旨在建立高质量的分布式学习框架。在联邦学习中,数据参与者不需要彼此共享原始数据,也不需要依赖单个可信实体(中心服务器)来进行机器学习模型的分布式训练。Konecny等人为了解决联邦学习的通信代价问题,提出了一个具有良好通信效率的联邦学习模型。考虑到现实中中的移动设备数据是分布式的,McMahan等人[8]基于提出了联邦平均算法。Liu提出了一个两阶段的框架FedSel,根据梯度参数在每次迭代中的贡献,私有地选择Top

k维度进行上传和加噪,以缓解基于本地差分隐私的联邦学习中的隐私和通信问题。Zhao考虑到了联邦学习中不可靠的参与者,提出了一个名为SecProbe的新方案,它允许参与者分享模型参数,并通过利用指数机制来处理不可靠的参与者。
[0003]对于联邦学习中的隐私保护,有许多安全模型或隐私保护技术可以提供可靠的隐私保证。如安全多方计算(SMC)、同态加密、差分隐私等。作为一种安全协议,安全多方计算主要用于安全聚合,可以防止恶意的服务器攻击。例如,Danner等人提出了一个使用树形拓扑结构的安全和协议。另一个基于安全多方计算的研究是SecureML,参与者将他们的私人数据分布在两个不相冲突的服务器中,然后两个服务器使用安全多方计算的技术来训练一个使用参与者加密的联邦数据的全局模型。Bonawitz等人为FL提出了一种安全的多方聚合方法,参与者需要对他们的本地更新进行加密,服务器再根据加密的参数进行聚合。另一种隐私保护技术是同态加密,主要用于对上传的梯度参数进行加密。然后该技术并不适合所有客户端,因为服务器必须依靠一个不合谋的外部参与者来进行加密或解密。安全聚合和同态加密这两种方法都涉及大量的计算开销,对于联邦学习框架而言,消耗的总成本过于昂贵。此外,Zhu等人表明,使用梯度压缩和稀疏化可以帮助防御来自本地更新的隐私泄漏。然而,这些方法需要很高的压缩率以达到理想的防御性能,这会损害模型的准确性。
[0004]考虑到差分隐私在深度学习模型中的广泛适用性,差分隐私也可以很好地用于联邦学习的隐私保护。差分隐私是近年来重要的数据隐私保护技术,它是一种为防止信息泄露添加人工噪声的方法,差分隐私可以抵御背景知识的攻击,并可以根据隐私保护的需要
调整隐私保护的程度,还可以为联邦学习模型的隐私保护提供保障。Abadi等人提出了DP

SGD算法,该算法对客户端上传的梯度添加了噪声,以防止外部攻击者窃取模型参数进而获得客户端的原始敏感数据。Geyer等人从用户的角度出发,提出了一个用户级差分隐私联邦学习框架,该框架为不同的用户提供不同的隐私保护,在隐私损失和模型性能之间进行权衡。Wei等人提出了NbAFL方案,针对全局数据在一定的高斯噪声扰动水平下,适当调整其方差,使其满足全局DP的要求。
[0005]目前该领域的研究方向主要是在联邦学习中的隐私性、实用性和通信效率之间取得一个平衡,如何在这三者之前取得较好的平衡是该领域的重点。故我们的方案也是在该研究方向上寻找研究点,并翻阅了相关文献进行研究。Liu等人提出了FedSel方案,考虑到上传的参数数量与噪声成正比,该方案对客户端上传的参数进行Top

k的筛选,并采用梯度积累技术来稳定学习过程噪声的影响。除此之外,在选择Top

k的维度进行上传时,作者还使用了差分隐私的指数机制私有地选择k维以保证选择维度时的隐私性。在客户端上传参数到服务器之前,首先私有性地选择梯度值最大的前k维参数,而不是上传所有参数。然后再对所选的k维参数添加差分隐私噪声,随后将压缩的噪声梯度向量上传到服务器,服务器将所有参与训练的客户端上传的参数进行聚合,随后进行下一轮迭代。然而,该方案在选择k维参数进行上传时,使用了不同的隐私保护机制,导致该方案的计算代价较高,并且还一定程度地破坏了模型的精度。Sun等人提出了一种新颖的联邦学习本地差分隐私机制设计,该方案考虑了不同深度学习模型层的参数范围的差异,它通过适应深度神经网络不同层的不同范围,使本地参数的更新具有差分私有性。此外,该机制通过参数混洗的聚合机制以放大隐私,即在较少的隐私预算,较高的隐私保护水平下,仍然能保证模型精确度很高。虽然该方案能在隐私性和模型实用性上取得很好的平衡,但是却忽略了通信效率这一方面。一方面,受到差分隐私机制的影响,神经网络的收敛速度会相对变慢,进而导致迭代的次数增长,这提高了通信代价。另一方面,由于客户端将其本地参数全部上传到服务器,这不可避免地会降低通信效率。
[0006]联邦学习的现有技术很难在隐私性、模型实用性和通信效率三者之间取得较好的平衡。一方面,使用相关隐私保护技术对客户端的隐私进行保护,由于神经网络的梯度参数是添加了噪声的,这不可避免地对模型训练的效果产生负面影响。除此之外,由于模型参数是高维的,在神经网络中其维度往往高达数万甚至数百万。然而,模型整体噪声量的大小与模型参数的维度成正比。假设对模型参数中的每一维都添加噪声的话,模型的噪声量会呈指数级的增长,最终会导致模型准确性较低,即模型的实用性较差。因此,对每一维参数添加噪声会造成模型整体噪声量过大,导致模型准确性过低等一系列问题。对于模型的通信成本而言,由于网络中上行链路的速度要远比下行链路的速度慢,如果对每一维的模型参数进行上传的话,会导致模型的通信效率下降。另外,由于联邦学习是基于多用户多参数的分布式训练,这意味着在联邦学习中,服务器从大量客户端中接受的参数量是巨大的,如果所有用户都上传庞大的模型参数到服务器,会造成通信瓶颈的问题。故其通信问题是当前研究最具挑战性的问题。
[0007]除此之外,如果要对每一个参数添加噪声的话,会造成隐私预算消耗过多的问题。因此,研究如何在保持良好模型精确性的同时,最大化地减少隐私预算的消耗,是目前基于差分隐私的联邦学习框架面临的最大问题。目前的大部分方法都是基于统一的、固定的隐
私参数设置,并且由于迭代中大量的隐私损失的累积,使得模型常常表现不佳。上述的分析表明,基于差分隐私的联邦学习的一个挑战就是如何恰当地权衡模型的隐私性、准确性和通信效率,确保在尽可能保本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的自适应隐私预算分配的梯度压缩框架,其特征在于,包括:基于Top

k的梯度降维压缩模块、基于本地差分隐私的隐私保护模块、通信轮次的参数聚合模块、自适应的隐私预算分配模块;客户端将自己训练得到的梯度参数上传到服务器前,通过所述基于Top

k的梯度降维压缩模块对当前的梯度参数进行压缩,随后,通过所述基于本地差分隐私的隐私保护模块对所述梯度参数进行扰动,随后将压缩和扰动后的梯度参数上传到服务器,服务器将客户端上传的梯度参数进行聚合;最后,通过所述自适应的隐私预算分配模块在不同轮次的训练中根据需要的噪声量分配隐私预算。2.根据权利要求1所述的基于联邦学习的自适应隐私预算分配的梯度压缩框架,其特征在于,所述基于Top

k的梯度降维压缩模块在客户端完成本地迭代训练后,计算本地模型的梯度d维模型参数的对应梯度为其中t为通信轮次。3.根据权利要求2所述的基于联邦学习的自适应隐私预算分配的梯度压缩框架,其特征在于,所述基于Top

k的梯度降维压缩模块在模型参数的d维中选择梯度绝对值最大的前K个维度上传,其中K<d;根据每一维度的绝对值大小对本地模型梯度进行排序:其中,排序算法sort按降序方法排序,表示经过排序后的梯度,梯度的大小根据维度依次递减;排序后从排序好的d维梯度参数中选取前K个维度作为压缩后的模型:其中,TopK表示的是梯度压缩方案,表示经过压缩后的梯度。4.根据权利要求1所述的基于联邦学习的自适应隐私预算分配的梯度压缩框架,其特征在于,所述基于本地差分隐私的隐私保护模块通过对客户端上传的梯度参数添加差分隐私噪声,实现严格的隐私保障,具体地,对于模型的梯度参数G,扰动算法通过随机化G的每一个维度,并返回一个扰动后的梯度参数G
*
;扰动机制对G中的每一维度的梯度参数g,做如下...

【专利技术属性】
技术研发人员:陈淑红杨家维王国军揭智勇彭滔冯光辉
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1