一种在隐私保护下的去中心化联邦机器学习方法技术

技术编号:25446116 阅读:253 留言:0更新日期:2020-08-28 22:32
本发明专利技术公开了一种在隐私保护下的去中心化联邦学习方法,包括系统初始化步骤,请求模型与本地并行训练步骤,模型参数加密与模型发送步骤,模型接收与恢复步骤,系统更新步骤。通过使用随机选取参与者作为参数聚合者的策略实现去中心化,解决了现有联邦学习易受DoS攻击、参数服务器单点故障等缺点;结合PVSS可验证秘密分发协议保护参与者模型参数免受模型反演攻击、数据成员推理攻击。同时保证了在每一次训练任务由不同的参与者来进行参数聚合,当出现不信任的聚合者或者其遭受攻击时,可自行恢复正常,增加了联邦学习的鲁棒性;本发明专利技术在实现以上功能的同时,保证了联邦学习的性能,有效地改善了联邦学习的安全训练环境,具有广泛地应用前景。

【技术实现步骤摘要】
一种在隐私保护下的去中心化联邦机器学习方法
本专利技术属于机器学习与信息安全交叉领域,特别是涉及一种在隐私保护下的中心化的联邦学习方法。
技术介绍
机器学习技术在诸如人脸、语音识别,还有自然语言处理等人工智能应用场景中取得了非凡的成就,但是,如何保证机器学习在安全的环境下运作仍是一个待解决的问题。机器学习的实质就是用大量的数据对算法模型进行训练,从其中得到一个能够对新的输入数据进行准确预测的算法模型(以下简称模型)。机器学习所用的数据集包含用户大量的隐私数据,如个人图片、医保记录、输入法记录等等。然而,进行机器学习需要强大的算力支持,个人计算机算力的局限性导致了人们不得不将自己的数据集上传到诸如BigML,AmazonMachineLearning,MicrosoftAzureMachineLearning等中心化的云计算平台进行训练,但是这些由第三方控制的云计算平台极易泄露用户的数据和已经训练好的模型。为了保护用户的信息以免泄露,Google公司学者提出联邦学习(Federatedlearning,FL)。谷歌输入法(Gboard)是一个利用联邦学习的具体应用。Gboard对用户的键盘输入词条记录进行训练,得到训练参数后上传到中心化的参数服务器。参数服务器进行聚合,最后,用户获取最新的模型并使用。此过程服务器不需要收集用户的输入词条记录,只需要进行参数交换即可。但是即便如此,联邦学习过程还是需要在安全的通讯通道中进行,并且,使用安全多方计算(MPC)的形式实现参数服务器配置代价非常昂贵。另外,联邦学习实质上是一种分布式机器学习(DistributedMachineLearning,DML),因此,分布式机器学习所存在的问题联邦学习也会存在。因为需要中心化的服务器配置,联邦学习的参数服务器不但会遭受拒绝服务攻击(Denied-of-Service,DoS),而且训练所得的模型与数据集也不能幸免。攻击者可以通过模型反演攻击(ModelInversionattack)来推理用户或者服务器所存模型;还可以通过成员关系推理攻击(MembershipInferenceattack)来推断用户的模型与数据集获得信息。虽然模型反演攻击对决策树模型不适用,但是Fredrikson等学者提出了用置信度来反推决策树模型。Shokri等学者提出利用他们专利技术的“影子训练法”来推断出用户的敏感数据。这些因中心化服务器配置而泄露的数据中,不仅是一些文本记录,Fredrikson等学者可以用他们的技术恢复用户的图像。在这样的背景下,差分隐私保护技术(DifferentialPrivacy,DP)被提出应用于机器学习的隐私保护。但是如果存在后门程序,那么差分隐私技术就会丧失其保护作用。此外,当一些辅助的信息被攻击者获得的时,也会导致数据外泄。更重要的是,在现实生活中数据之间是有紧密联系的,在这种情况下,仅仅是通过设置差分隐私的粒度并不能有效保护隐私。除了上述问题,现阶段许多联邦学习的实现形式并未切实考虑到用户之间存在的攻击行为,这种相互不信任的情况会导致攻击者通过网络对其他人的设备进行攻击,最终导致各参与者数据泄漏。因此,联邦学习作为一种新颖的隐私保护的机器学习实现形式,其本身存在许多问题亟待解决。
技术实现思路
针对现有技术的上述缺陷或改进需求,本专利技术提供了一种在隐私保护技术下的去中心化联邦学习方法。其利用基于点对点网络(Peer-to-Peer,P2P)的HydRand共识机制实现去中心化机制,保证了在每一次的训练任务中由不同的参与者来进行参数聚合,而不是固定的参数服务器。当出现不信任的聚合者或者其遭受DoS攻击时,系统有自行恢复正常的能力,增加了联邦学习的鲁棒性。所述的去中心化机制包括参数聚合者的选举机制与拜占庭容错机制。此外,本专利技术应用公共可验证的秘密分发(PubliclyVerifiableSecretSharing,PVSS)机制保护了在联邦学习过程中的模型参数,有效地保护了机器学习的模型参数,并且提高了学习过程中的安全性,使得用户可以在不安全的通讯环境中进行参数交换。所述的PVSS机制包括三种加密方式,并且具有同态加密特性,在不解密密文的状态下可对数据进行操作,显著增强了加密数据的直接可操作性。为了实现上述目的,提供了一种在隐私保护下的去中心化联邦学习方法,适用于在联邦学习或者分布式机器学习形式中提供参数隐私保护,具体包括以下步骤:系统初始化步骤,请求模型与本地并行训练步骤,模型参数加密与模型发送步骤,模型接收与恢复步骤,系统更新步骤,其中:(1)系统初始化步骤:(1.1)联邦学习的参与者Pi注册用于加密和解密的密钥对<ski,pki>,所述的密钥对中ski为其私钥,由参与者Pi从一个模q的环中选择获得,q是素数,q越大安全性越高。由基于q的运算生成;pki为其公钥,h是素数,q阶环的生成元。所述参与者相互交换其公钥用于加密信息,而其私钥用于解密信息;参与者们承认系统指定的初始随机值R1,R1将用于选举参数聚合者;(1.2)参与者运行PVSS协议,根据PVSS协议的规定,每个参与者Pi在中选择一个初始秘密值并做出承诺Com(sli)用于验证加密的正确性,将秘密值sli按照总参与者数量n切分成n个秘密分片sij,其中sij表示参与者Pi分给参与者Pj的分片。然后用其他参与者Pj的公钥对秘密分片进行加密并相应分发。在此步骤中,每个参与者都收到了其他参与者用它们的公钥加密的n-1个分片;PVSS是一种基于AdiShamir提出的(m,n)秘密共享模式(secretsharing,SS)的可验证秘密共享模式,其中m是一个阈值,如果秘密分片的数量达到m则可恢复秘密,否则不能恢复。本专利技术设置不诚实的参与者最多有f个,PVSS协议的阈值为f+1,n为参与者的总人数,本专利技术设置总人数为n=3f+1,同时,这种配置也使得本专利技术具有拜占庭容错特征;参与者Pi通过PVSS协议生成:秘密值sli、用于验证的承诺值Com(sli)、分发给其他n-1个参与者的秘密值分片si→j。其中,si→j表示参与者Pi的切开的秘密值中应该给参与者Pj的秘密分片;Com(sli)是一个生成承诺值的函数,参与者Pi的秘密值sli传入之后会被切分成n个sij分片,Com(sli)为每一个参与者Pj生成一个承诺值g是的另一个生成元,h和g相互独立;按照上述所定义,所有的参与者在正确的操作下产生如下数据:式(1)表示所有的参与者在正确的操作下产生的数据:秘密值sli、承诺值Com(sli)、n个秘密值分片si→j,si→j表示参与者Pj的切开的秘密值中应该给参与者Pj的秘密分片。每个参与者都发送给其他n-1个参与者它的秘密分片,同样地,每个参与者都会收到其他n-1个参与者发送过来的秘密分片。(1.3)判断参与者是否诚实。每个参与者在收集了其他参与者的秘密分片后,利用PVSS协议的验证功能DLEQ(g,υj,pkj,si→j)对加密的正确性进行检验,需要验证的是中的sij是否和中本文档来自技高网
...

【技术保护点】
1.一种在隐私保护下的去中心化联邦学习方法,其特征在于,该方法包括系统初始化步骤,请求模型与本地并行训练步骤,模型参数加密与模型发送步骤,模型接收与恢复步骤,系统更新步骤,其中:/n(1)系统初始化步骤:/n(1.1)联邦学习的参与者P

【技术特征摘要】
1.一种在隐私保护下的去中心化联邦学习方法,其特征在于,该方法包括系统初始化步骤,请求模型与本地并行训练步骤,模型参数加密与模型发送步骤,模型接收与恢复步骤,系统更新步骤,其中:
(1)系统初始化步骤:
(1.1)联邦学习的参与者Pi注册用于加密和解密的密钥对<ski,pki>,所述的密钥对中ski为其私钥,由参与者Pi从一个模q的环中选择获得,q是素数,由基于q的运算生成;pki为其公钥,h是素数,q阶环的生成元。所述参与者相互交换其公钥用于加密信息,而其私钥用于解密信息;参与者们承认系统指定的初始随机值R1,R1将用于选举参数聚合者;
(1.2)参与者运行PVSS协议,每个参与者Pi在中选择一个初始秘密值并做出承诺Com(sli),将秘密值sli按照总参与者数量n切分成n个秘密分片。然后用其他参与者的公钥分别对秘密分片进行加密,并相应分发。在此步骤中,每个参与者都收到了其他参与者发来的已加密的n-1个分片;其中,PVSS协议中,设置不诚实的参与者最多有f个,总参与者数量n=3f+1,PVSS协议的阈值为f+1。
(1.3)判断参与者是否诚实。每个参与者在收集了其他参与者分发的秘密分片后,利用PVSS协议的验证功能对加密的正确性进行检验。如果某个分片没有被正确加密,HydRand共识机制则向外界发出此分片不合法、加密者不诚实。该加密者将被HydRand共识机制禁止在f+1轮内被选为聚合者;
(1.4)HydRand共识机制根据初始随机值R0选举出第一位参数聚合者l0,若聚合者在规定的时间内未执行相应步骤则被视为不诚实,系统将发出重构指令,重置系统参数,重新选举参数聚合者。
(2)参与者请求模型与本地并行训练步骤:用于从参数聚合者处获取模型,参与者在其本地设备利用其敏感数据输入模型并训练可得到该参与者的模型参数。
(3)模型参数加密与模型发送步骤:用于加密所述子步骤(2)中产生的本地模型参数Wfi,完成加密后发送给参数聚合者。具体包括下述子步骤:
(3.1)每个参与者利用其秘密值sli生成一个秘密
(3.2)参与者Pi利用生成的秘密对其本地最终模型参数Wfi进行加密生成密文
(3.3)各参与者向步骤(1.4)所选举出来的参数聚合者直接发送(3.2)中的
(4)模型接收与恢复步骤:参数聚合者接受其他参与者的加密模型,发出恢复模型指令,具体子步骤如下:
(4...

【专利技术属性】
技术研发人员:陈泯融陈锦华曾国强翁健翁嘉思初萍
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1