当前位置: 首页 > 专利查询>北京大学专利>正文

基于差分隐私的联邦学习训练方法、装置、系统及设备制造方法及图纸

技术编号:37322303 阅读:20 留言:0更新日期:2023-04-21 23:02
本发明专利技术提供一种基于差分隐私的联邦学习训练方法、装置、系统及设备,包括:客户端基于服务器发送的模型参数、预设超参数和本地数据对本地模型进行训练,获取第一梯度值;获取部分第一梯度值的索引信息,并对部分第一梯度值进行自适应裁剪,获取第二梯度值;对第二梯度值进行扰动加噪处理,将加噪后的第二梯度值与索引信息进行加密处理,获取密文;将密文发送给洗牌器,洗牌器混洗后发送给服务器,服务器对密文解密和中值填充聚合还原第一梯度值,对全局模型的模型参数进行更新。实现客户端消息匿名化,有效防止梯度攻击,并产生隐私放大效应,降低本地隐私预算及降低添加的噪声,增强数据的效用性,增强模型的准确性,降低了联邦学习的通信量。学习的通信量。学习的通信量。

【技术实现步骤摘要】
基于差分隐私的联邦学习训练方法、装置、系统及设备


[0001]本专利技术涉及人工智能
,尤其涉及一种基于差分隐私的联邦学习训练方法、装置、系统及设备。

技术介绍

[0002]机器学习(Machine Learning,ML)与深度学习(Deep Learning,DL)是当前十分流行的人工智能算法技术,这两个技术相关的模型训练往往需要大量的数据支持。这些数据通常来自众多大型机构,例如银行、医院或公司等,而这些机构间的数据交流,由于政策、隐私协议或数据格式等通常存在一定的屏障,因此打破数据孤岛的联邦学习(Federated Learning,FL)技术应运而生。联邦学习利用参与的各客户端在本地训练模型,通过将本地梯度更新上传到服务器进行聚合,来训练获得全局模型,而无需共享各客户端的隐私或敏感数据。
[0003]尽管联邦学习的训练过程保证了参与训练的数据本身并不会从客户端泄露,但是,一些研究表明仅使用联邦学习架构来进行隐私保护的方式已经不再安全,因为模型梯度信息本身也会泄露参与训练的用户隐私数据。因此,提出拥有隐私保护能力的联邦学习方案有着迫切的需求。
[0004]差分隐私(Differential Privacy,DP)是近20年发展起来的一种强大的隐私模型,与早期隐私模型相比,能够提供更好的隐私保证水平。其中,本地差分隐私(Local Differential Privacy,LDP)是由各客户端完成对本地数据的编码和扰动,随后将其发送给服务器并由服务器完成对扰动后数据的学习,从而实现细粒度更高的记录级别的差分隐私保证。所以,即使服务器遭受破坏,由于数据扰动的存在,用户的隐私仍然能够得到保障。
[0005]尽管本地差分隐私技术已经有了众多研究,但目前,本地差分隐私仍面临两大主要挑战:数据的效用性和协议的安全性。由于差分隐私加噪的方式必然带来数据与真实值的偏移,而联邦学习训练梯度是否准确直接决定着整体模型的准确度。

技术实现思路

[0006]本专利技术提供一种基于差分隐私的联邦学习训练方法、装置、系统及设备,用以解决现有的本地差分隐私技术中数据与真实值偏移导致模型准确度较低的缺陷,实现在保证数据隐私保护的同时提高模型的准确度。
[0007]本专利技术提供一种基于差分隐私的联邦学习训练方法,应用于客户端,包括:
[0008]基于模型参数、预设超参数和本地数据对本地模型进行训练,获取第一梯度值,其中,所述模型参数、所述预设超参数为服务器发送的;
[0009]获取部分所述第一梯度值的索引信息,并对部分所述第一梯度值进行自适应裁剪,获取第二梯度值;
[0010]对所述第二梯度值进行扰动加噪处理,将加噪后的所述第二梯度值与所述索引信息进行加密处理,获取密文;
[0011]将所述密文发送给洗牌器,其中,所述密文用于经所述洗牌器对各所述客户端的所述密文进行混洗操作后发送给所述服务器,所述服务器对混洗后的所述密文进行解密和中值填充聚合处理后还原所述第一梯度值,并基于所述第一梯度值对全局模型的所述模型参数进行更新。
[0012]根据本专利技术提供的一种基于差分隐私的联邦学习训练方法,所述预设超参数包括预设的Top

k参数,所述Top

k参数用于利用Top

k机制对所述第一梯度值进行采样,选取部分所述第一梯度值,并获取部分所述第一梯度值的所述索引信息。
[0013]根据本专利技术提供的一种基于差分隐私的联邦学习训练方法,所述对所述第二梯度值进行扰动加噪处理,将加噪后的所述第二梯度值与所述索引信息进行加密处理,获取密文的步骤包括:
[0014]利用转换函数对所述第二梯度值进行转换,获取预设转换范围的第三梯度值;
[0015]将所述第三梯度值进行扰动加噪处理,将加噪后的所述第三梯度值与所述索引信息进行加密处理,获取所述密文。
[0016]本专利技术提供另一种基于差分隐私的联邦学习训练方法,应用于洗牌器,包括:
[0017]接收客户端发送的密文并进行混洗操作;
[0018]将经过混洗操作后的所述密文发送给服务器,以使所述服务器对完成全局的模型参数进行更新;
[0019]其中,所述密文为所述客户端对第二梯度值进行扰动加噪处理,并将加噪处理后的所述第二梯度值和索引信息进行加密处理而成的;所述第二梯度值为所述客户端对部分第一梯度值进行自适应裁剪获取的;所述第一梯度值为所述客户端基于所述模型参数、预设超参数和本地数据对本地模型进行训练获取的,其中,所述模型参数、所述预设超参数为所述服务器发送的;所述索引信息为所述客户端获取的部分所述第一梯度值的索引信息。
[0020]本专利技术还提供另一种基于差分隐私的联邦学习训练方法,应用于服务器,包括:
[0021]接收洗牌器发送的经过混洗操作后的各客户端的密文;
[0022]对每个所述密文进行解密,获取第二梯度值和索引信息;
[0023]利用中值填充聚合算法并结合所述索引信息将所述第二梯度值还原为第一梯度值;
[0024]基于所述第一梯度值对全局模型的模型参数进行更新;
[0025]其中,所述密文为所述客户端对所述第二梯度值进行扰动加噪处理,并将加噪处理后的所述第二梯度值和索引信息进行加密处理而成的;所述第二梯度值为所述客户端对部分所述第一梯度值进行自适应裁剪获取的;所述第一梯度值为所述客户端基于所述模型参数、预设超参数和本地数据对本地模型进行训练获取的,其中,所述模型参数、所述预设超参数为所述服务器发送的;所述索引信息为所述客户端获取的部分所述第一梯度值的索引信息。
[0026]本专利技术还提供一种基于差分隐私的联邦学习训练系统,包括:服务器、洗牌器及至少一个客户端,所述服务器与所述客户端分别与所述洗牌器通信连接;
[0027]所述客户端用于基于模型参数、预设超参数和本地数据对本地模型进行训练,获取第一梯度值,其中,所述模型参数、所述预设超参数为所述服务器发送的;获取部分所述第一梯度值的索引信息,并对部分所述第一梯度值进行自适应裁剪,获取第二梯度值;对所
述第二梯度值进行扰动加噪处理,并将加噪处理后的所述第二梯度值和所述索引信息进行加密处理,获取密文;将所述密文发送给洗牌器;
[0028]所述洗牌器用于接收所述客户端发送的密文并进行混洗操作;将经过混洗操作后的所述密文发送给所述服务器;
[0029]所述服务器用于对接收到的所述密文进行解密,获取所述第二梯度值和所述索引信息;利用中值填充聚合算法并结合所述索引信息将所述第二梯度值还原为所述第一梯度值;基于所述第一梯度值对全局模型的所述模型参数进行更新。
[0030]本专利技术还提供一种基于差分隐私的联邦学习训练装置,包括:
[0031]第一获取模块,用于基于模型参数、预设超参数和本地数据对本地模型进行训练,获取第一梯度值,其中,所述模型参数、所述预设超参数为服务器发送的;
[0032]第二获取模块,用于获取部分所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于差分隐私的联邦学习训练方法,其特征在于,应用于客户端,包括:基于模型参数、预设超参数和本地数据对本地模型进行训练,获取第一梯度值,其中,所述模型参数、所述预设超参数为服务器发送的;获取部分所述第一梯度值的索引信息,并对部分所述第一梯度值进行自适应裁剪,获取第二梯度值;对所述第二梯度值进行扰动加噪处理,将加噪处理后的所述第二梯度值与所述索引信息进行加密处理,获取密文;将所述密文发送给洗牌器,其中,所述密文用于经所述洗牌器进行混洗操作后发送给所述服务器,所述服务器对混洗后的所述密文进行解密和中值填充聚合处理还原所述第一梯度值,并基于所述第一梯度值对全局模型的所述模型参数进行更新。2.根据权利要求1所述的基于差分隐私的联邦学习训练方法,其特征在于,所述预设超参数包括预设的Top

k参数,所述Top

k参数用于利用Top

k机制对所述第一梯度值进行采样,选取部分所述第一梯度值,并获取部分所述第一梯度值的所述索引信息。3.根据权利要求1所述的基于差分隐私的联邦学习训练方法,其特征在于,所述对所述第二梯度值进行扰动加噪处理,将加噪后的所述第二梯度值与所述索引信息进行加密处理,获取密文的步骤包括:利用转换函数对所述第二梯度值进行转换,获取预设转换范围的第三梯度值;将所述第三梯度值进行扰动加噪处理,将加噪后的所述第三梯度值与所述索引信息进行加密处理,获取所述密文。4.一种基于差分隐私的联邦学习训练方法,其特征在于,应用于洗牌器,包括:接收客户端发送的密文并进行混洗操作;将经过混洗操作后的所述密文发送给服务器,以使所述服务器对全局模型的模型参数进行更新;其中,所述密文为所述客户端对第二梯度值进行扰动加噪处理,并将加噪处理后的所述第二梯度值和索引信息进行加密处理而成的;所述第二梯度值为所述客户端对部分第一梯度值进行自适应裁剪获取的;所述第一梯度值为所述客户端基于所述模型参数、预设超参数和本地数据对本地模型进行训练获取的,其中,所述模型参数、所述预设超参数为所述服务器发送的;所述索引信息为所述客户端获取的部分所述第一梯度值的索引信息。5.一种基于差分隐私的联邦学习训练方法,其特征在于,应用于服务器,包括:接收洗牌器发送的经过混洗操作后的客户端的密文;对所述密文进行解密,获取第二梯度值和索引信息;利用中值填充聚合算法并结合所述索引信息将所述第二梯度值还原为第一梯度值;基于所述第一梯度值对全局模型的模型参数进行更新;其中,所述密文为所述客户端对所述第二梯度值进行扰动加噪处理,并将加噪处理后的所述第二梯度值和索引信息进行加密处理而成的;所述第二梯度值为所述客户端对部分所述第一梯度值进行自适应裁剪获取的;所述第一梯度值为所述客户端基于所述模型参数、预设超参数和本地数据对本地模型进行训练获取的,其中,所述模型参数、所述预设超参数为所述服务器发送的;所述索引信息为所述客户端获取的部分所述第一梯度值的索引信息。
...

【专利技术属性】
技术研发人员:刘一戈曹永知王捍贫
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1