基于安全洗牌的联邦学习方法及系统技术方案

技术编号:36807096 阅读:14 留言:0更新日期:2023-03-09 00:21
本发明专利技术涉及一种基于安全洗牌的联邦学习方法及系统,包括以下步骤:S1.服务器下发训练模型到各个客户端;S2.客户端接收到服务器下发的训练模型后,利用本地的训练数据对训练模型进行训练,得到模型参数信息;S3.客户端对得到的模型参数信息进行扰动;对扰动后的模型参数信息利用公钥进行加密;S4.客户端将加密后的模型参数信息上传至安全洗牌器,安全洗牌器对客户端上传的数据进行混洗操作,再将所述混洗后的数据上传至服务器;S5.服务器对安全洗牌器上传的数据利用私钥进行解密,然后进行模型聚合,基于模型聚合的结果更新训练模型;S6.重复执行步骤S1~S5直至训练模型收敛,服务器向各客户端公布训练收敛的训练模型。向各客户端公布训练收敛的训练模型。向各客户端公布训练收敛的训练模型。

【技术实现步骤摘要】
基于安全洗牌的联邦学习方法及系统


[0001]本专利技术涉及联邦学习
,更具体地,涉及一种基于安全洗牌的联邦学习方法及系统。

技术介绍

[0002]当前,大数据产业发展迅速,大数据也成为了国家战略来部署。然而,国内经济社会大数据领域比较离散,政府部门之间、企业之间、政府与企业之间由于存在利益冲突、隐私难以保障等多重因素,逐渐形成了数据孤岛,阻碍了大数据产业发展。随着我国对数据的监管与使用越来越严格,以及对个人信息数据、科学数据、医疗数据等多种数据的保护,从而加剧了数据孤岛的出现。为了解决数据孤岛的问题,谷歌提出了联邦学习的概念,希望去解决数据孤岛和数据融合的问题,这是由多个参与方之间不直接分享数据,仅在中间过程交互训练参数的方式,共同学习一个全局模型。尽管联邦学习避免了将数据直接暴露给其他参与方,但依然存在隐私泄露的风险,联邦学习需要在中间训练过程交换大量参数,服务器利用客户端上传的模型参数可能会得到该客户的数据分布特征等隐私信息,例如,攻击者可以利用用户上传的权重推理出用户的原始数据。另外服务器将模型下发给每一个客户端后,恶意客户端或者外部使用者可能会从该训练好的模型中窃取其他参与者的隐私信息。因此,如何避免联邦学习模型在训练和发布的过程中,避免攻击者获取参与者的隐私数据,成为了一个急需解决的问题。
[0003]面对联邦学习中参与方的隐私安全的挑战,Geyer等人设计了一种基于中心化差分隐私的联邦学习方案,其隐私保护对象为单条记录,防御对象是外部使用者。用户上传模型参数到中心聚合器,由中心聚合器对客户端聚合后的权重添加噪声,再下发模型,进行下一轮更新,此过程需要依赖于一个完全可信的中心聚合器。Wang等人设计了一种基于本地化差分隐私的联邦学习方案,其防御对象是中心服务器和外部使用者,客户端在上传参数前添加噪声,再将噪声数据上传到中心聚合器。这个过程不需要依赖于一个可信的第三方聚合器,它的隐私性更强,但是由于引入了大量的噪声数据,导致模型的可用性和准确率较差。

技术实现思路

[0004]本专利技术的专利技术目的在于提供一种基于安全洗牌的联邦学习方法,该方法通过在客户端对得到的模型参数信息进行扰动及加密,在安全洗牌器进行混洗,最后在服务器侧对所述数据进行解密及训练模型聚合更新,整个联邦学习的过程不需依赖一个可信的中心聚合器,且通过混洗操作将客户端和相应数据之间的关联关系进行打乱,达到隐私放大的效果,添加少量的噪声即可达到更强的隐私性,提高最终聚合训练模型的准确率和可用性。
[0005]为实现以上专利技术目的,采用的技术方案是:
[0006]基于安全洗牌的联邦学习方法,包括以下步骤:
[0007]S1.服务器下发训练模型到各个客户端;
[0008]S2.客户端接收到服务器下发的训练模型后,利用本地的训练数据对训练模型进行训练,得到模型参数信息;
[0009]S3.客户端对得到的模型参数信息进行扰动;采用非对称加密的方式,对扰动后的模型参数信息利用公钥进行加密;
[0010]S4.客户端将加密后的模型参数信息上传至安全洗牌器,安全洗牌器对客户端上传的数据进行混洗操作,再将所述混洗后的数据上传至服务器;
[0011]S5.服务器对安全洗牌器上传的数据利用私钥进行解密,然后进行模型聚合,基于模型聚合的结果更新训练模型;
[0012]S6.重复执行步骤S1~S5直至训练模型收敛,服务器向各客户端公布训练收敛的训练模型。
[0013]优选地,所述步骤S1中,服务器下发的训练模型表示为θ
t
,t表示训练轮次,t的初始值为1。
[0014]优选地,所述步骤S2中,客户端对得到的模型参数信息进行排序,找到前K个重要的维度;步骤S3对前K个重要维度的模型参数信息进行扰动。
[0015]优选地,所述步骤S3中,客户端对得到的模型参数信息进行扰动,具体包括:
[0016]向模型参数信息添加满足差分隐私机制的laplace噪声,令R()为扰动函数,扰动添加的laplace噪声需满足以下条件:
[0017]Pr[R(w
i
)=y]≤e
ε
Pr[R(w

i
)=y][0018]其中,Pr[R(w
i
)=y]表示求取R(w
i
)被泄露的概率,ε为隐私保护预算;w
i
表示第i个客户端得到的模型参数信息,w

i
表示为w
i
的相邻数据集,R(w
i
)表示w
i
添加laplace噪声进行扰动后得到的模型参数信息。
[0019]优选地,所述步骤S3中,采用非对称加密的方式,对扰动后的模型参数信息利用公钥进行加密,具体表示为:
[0020]C
i
=Enc(pk,R(w
i
))
[0021]其中,pk表示公钥,Enc()表示加密函数,C
i
为R(w
i
)加密后得到的数据。
[0022]优选地,所述步骤S4中,安全洗牌器对客户端上传的数据进行混洗操作,具体包括:
[0023]设共有n个客户端,n个客户端上传的数据为(1,C1),(2,C2),...,(n,C
n
),i∈[1,n];
[0024]对n个客户端上传的数据进行混洗操作,使其满足泊松分布,具体如下:
[0025]Y
π
=S(C1,C2,...,C
n
)
[0026]其中S()表示混洗函数,Y
π
表示为(C1,C2,

,C
n
)经过混洗操作后满足泊松分布。
[0027]优选地,所述步骤S5中,服务器对安全洗牌器上传的数据利用私钥进行解密,具体包括:
[0028]R(w
i
)=Dec(sk,C
i
)
[0029]其中sk为私钥,Dec()为解密函数,R(w
i
)表示为解密后得到的数据。
[0030]优选地,所述步骤S5中,进行模型聚合具体包括:
[0031][0032]优选地,所述步骤S5中,基于模型聚合的结果更新训练模型,具体包括:
[0033]θ
t+1
=θ
t
+Z。
[0034]同时,本专利技术还提供了一种基于安全洗牌的联邦学习系统,其具体的方案如下:包括客户端、服务器和安全洗牌器,所述联邦学习系统进行联邦学习时,执行以上所述基于安全洗牌的联邦学习方法的方法步骤。
[0035]与现有技术相比,本专利技术的有益效果是:
[0036](1)本专利技术提供的联邦学习方法通过设置安全洗牌器,将各个客户端与服务器进行隔离,整个联邦学习的过程不需依赖一个可信的中心聚合器,提高联邦学习各参与方数据的隐私性。
[0037](本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于安全洗牌的联邦学习方法,其特征在于:包括以下步骤:S1.服务器下发训练模型到各个客户端;S2.客户端接收到服务器下发的训练模型后,利用本地的训练数据对训练模型进行训练,得到模型参数信息;S3.客户端对得到的模型参数信息进行扰动;采用非对称加密的方式,对扰动后的模型参数信息利用公钥进行加密;S4.客户端将加密后的模型参数信息上传至安全洗牌器,安全洗牌器对客户端上传的数据进行混洗操作,再将所述混洗后的数据上传至服务器;S5.服务器对安全洗牌器上传的数据利用私钥进行解密,然后进行模型聚合,基于模型聚合的结果更新训练模型;S6.重复执行步骤S1~S5直至训练模型收敛,服务器向各客户端公布训练收敛的训练模型。2.根据权利要求1所述的基于安全洗牌的联邦学习方法,其特征在于:所述步骤S1中,服务器下发的训练模型表示为θ
t
,t表示训练轮次,t的初始值为1。3.根据权利要求1所述的基于安全洗牌的联邦学习方法,其特征在于:所述步骤S2中,客户端对得到的模型参数信息进行排序,找到前K个重要的维度;步骤S3对前K个重要维度的模型参数信息进行扰动。4.根据权利要求1所述的基于安全洗牌的联邦学习方法,其特征在于:所述步骤S3中,客户端对得到的模型参数信息进行扰动,具体包括:向模型参数信息添加满足差分隐私机制的laplace噪声,令R()为扰动函数,扰动添加的laplace噪声需满足以下条件:Pr[R(w
i
)=y]≤e
ε
Pr[R(w

i
)=y]其中,Pr[R(w
i
)=y]表示求取R(w
i
)被泄露的概率,ε为隐私保护预算;w
i
表示第i个客户端得到的模型参数信息,w'
i
表示为w
i
的相邻数据集,R(w
i
)表示w
i
添加laplace噪声进行扰动后得到的模型参数信息。5.根据权利要求4所...

【专利技术属性】
技术研发人员:熊广成
申请(专利权)人:广州优刻谷科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1