当前位置: 首页 > 专利查询>南京大学专利>正文

一种联邦学习中数据操纵攻击的安全防御方法技术

技术编号:25042649 阅读:30 留言:0更新日期:2020-07-29 05:33
本发明专利技术公开一种联邦学习中数据操纵攻击的安全防御方法,包括以下几个步骤:步骤1,中心服务器接收用户上传的本地模型参数,计算每个用户上传的本轮本地模型参数的相似程度及每个用户对应的融合系数;所述本地模型参数为用户采用私有训练数据训练一轮后的本地模型参数;步骤2,中心服务器接收到本地用户一个周期的本地模型参数后,根据融合系数计算每个用户的本地模型参数的加权平均值得到全局模型参数,所述一个周期为预设的本地模型参数更新轮数;步骤3,将全局模型参数下发至对应的用户,用户收到全局模型参数后更新本地模型参数。

【技术实现步骤摘要】
一种联邦学习中数据操纵攻击的安全防御方法
本专利技术涉及一种联邦学习的安全训练框架实现方法,更具体的说是涉及一种防御联邦学习中数据操纵攻击的安全训练框架的实现方法。
技术介绍
联邦学习是一种新兴的深度学习框架。在传统的集中式深度学习中,中心服务器需要收集大量的用户数据用于训练神经网络模型(简称模型),但是由于数据传输的网络通信开销较大、用户数据归属权以及用户数据隐私性等问题,用于进行深度学习的用户数据往往难以获取。而联邦学习采取了另一种训练神经网络模型的方式:在一轮训练中,每一个用户利用其私有数据训练本地模型,然后将本地模型的参数上传至中心服务器,由中心服务器将所有用户的参数进行融合生成全局模型的参数,再将全局模型的参数下发至用户,用户根据全局模型参数对本地模型进行更新,如此循环若干轮训练直至全局模型收敛,训练结束。基于这种技术,联邦学习能够在用户的私有训练数据不离开本地的前提下实现多个用户共同进行深度学习,完成指定的学习任务,如:图像分类、文本预测等,解决了传统的集中式深度学习中用户数据难以获取的问题。但是,在联邦学习中也存在着一些安全隐患。由于参与联邦学习的用户并非全都是正常用户,一些恶意用户能够通过发动数据操纵攻击威胁到用户数据隐私以及影响神经网络模型的训练结果,对参与联邦学习的正常用户的数据安全性和模型可用性造成巨大的危害。数据操纵攻击是指恶意用户通过训练恶意的神经网络模型对上传至中心服务器的本地模型参数进行伪造、篡改而实现的一种攻击方式。其中,生成式对抗网络攻击和模型投毒攻击是两种代表性的数据操纵攻击。在生成式对抗网络攻击中,恶意用户通过在本地训练生成式对抗网络进而窃取其他用户数据隐私,获得其他用户的私有训练数据,威胁到正常用户的数据安全。生成式对抗网络是一种深度神经网络模型,由一个生成模型和一个判别模型构成。生成模型的目标是生成能够以假乱真的训练数据,而判别模型的目标则是能够正确的对训练数据进行分类,区分出伪造的训练数据和真实的训练数据。生成式对抗网络的训练过程就是生成模型和判别模型的博弈过程。而在联邦学习中,恶意用户为了窃取其他正常用户的训练数据,需要通过生成模型不断生成伪造的训练数据,并将其对作为正常的训练数据来训练本地模型,进而对其他参与联邦学习的正常用户的训练过程造成干扰,在联邦学习的过程中,恶意用户和正常用户不断博弈,使得恶意用户的生成模型能够产生的数据越来越接近于正常用户的正常训练数据,从而达到获取其他用户私有训练数据的目标。在模型投毒攻击中,恶意用户能够影响神经网络模型的训练结果,威胁到模型安全和可用性。以图像分类任务为例,恶意用户的目标是使得全局模型的分类结果出现预期的错误,如:将猫的图片分类为狗,将鞋子的图片分类为衬衫等。恶意用户通过伪造训练数据,篡改正常训练数据的标签(如将猫的图片的标签改为狗),利用伪造的训练数据来训练本地模型,然后将本地模型参数上传至中心服务器,致使全局模型的分类结果受到影响。在联邦学习的过程中,恶意用户通过不断上传恶意的本地模型参数对全局模型施加影响,最终导致全局模型分类结果出现恶意用户预期的错误。生成式对抗网络攻击和模型投毒攻击会对参与联邦学习的正常用户造成巨大的威胁。目前,针对联邦学习中存在的安全问题也有一些相关的研究,现有技术中主要考虑的是抵御恶意的中心服务器对于联邦学习过程产生的危害,主要的技术包括利用差分隐私、同态加密等算法来保护用户的本地模型参数,减小其中的信息泄露。然而,现有的研究工作中缺乏如何防御对来自参与联邦学习用户造成的威胁的分析。由于数据操纵攻击的威胁来自参与联邦学习的用户内部,恶意用户能够藏匿于正常用户之中,其攻击方式更为隐蔽,攻击手法也更加难以进行检测和排查,已有的针对联邦学习中安全问题的防御技术难以有效的对抗上述两种数据操纵攻击,这也给参与联邦学习的用户带来了巨大的安全隐患。因此,针对联邦学习中的数据操纵攻击需要设计一种高效、可靠的防御方案,实现联邦学习的安全训练。
技术实现思路
专利技术目的:针对现有技术中存在的问题与不足,提供了一种高效的在防御联邦学习中数据操纵攻击的安全训练框架的实现方法,能够有效防御恶意用户发动的数据操纵攻击,减小恶意用户对正常的联邦学习过程的影响,保障参与联邦学习的正常用户的数据安全和模型安全。技术方案:联邦学习中数据操纵攻击的安全防御方法,其特征在于,包括以下几个步骤:步骤1,中心服务器接收用户上传的本地模型参数,计算每个用户上传的本轮本地模型参数的相似程度及每个用户对应的融合系数;所述本地模型参数为用户采用私有训练数据训练一轮后的本地模型参数;步骤2,中心服务器接收到本地用户一个训练周期的本地模型参数后,根据融合系数计算每个用户的本地模型参数的加权平均值得到全局模型参数,所述一个训练周期为预设的本地模型参数更新轮数;步骤3,将全局模型参数下发至对应的用户,用户收到全局模型参数后更新本地模型参数。作为优选,所述步骤1中,中心服务器接收用户i上传的本地模型参数所述本地模型参数为用户i利用私有训练数据进行第t轮训练一次本地模型的本地模型参数。作为优选,所述步骤1具体包括:步骤101,接收所述正常用户和恶意用户上传的本地模型参数(i=1,2,…,n);步骤102,选择每一位用户本地模型参数中绝对值较大的参数的索引计算索引的并集然后选择索引st对应每一个用户部分本地模型参数步骤103,计算步骤102所得的所有用户的部分本地模型参数的中位数步骤104,计算每一个用户的部分本地模型参数与步骤103计算的中位数对应的相似度步骤105,利用均值漂移算法计算步骤104所得的相似度的中心点步骤106,计算步骤104所得的每个用户对应的相似度与步骤105所得的中心点之间的聚集度步骤107,利用步骤106所得的聚集度计算融合系数作为优选,所述步骤2和步骤3分别为:步骤2,判断t是否为τ的倍数,若是,转到步骤3;否则,转到步骤1;所述t为用户实际训练轮数,τ为一个训练周期内包含的本地模型参数训练轮数;;步骤3,计算全局模型参数并将全局模型参数下发至每一个用户。作为优选,在步骤1中,每一轮训练之后本地模型参数计算公式为其中,i=1,2,…,n,η为神经网络模型学习率,g为梯度函数。作为优选,在步骤104中,采用余弦相似度计算部分本地模型参数与中位数对应的相似度向量X=(x1,x2)与向量Y=(;1,;2)的余弦相似度的计算公式为:所述向量向量其中,为上一个训练周期的全局模型参数,即将上一个训练周期的全局模型参数作为向量X和Y起点,将部分本地模型参数和其中位数分别作为向量X和Y的终点,计算两个向量的余弦相似度。作为优选,在步骤105中,所述均值漂移算法的输入数据为步骤104所得的每一个用户的相似度算法初始阶段每一个数据点以自身为中心点对于每一个数据点,具体迭代步骤如下:步骤1051,对于给定的每一个中心点ci,搜索其在指定半径r范围内的邻近点集合本文档来自技高网
...

【技术保护点】
1.一种联邦学习中数据操纵攻击的安全防御方法,其特征在于,包括以下几个步骤:/n步骤1,中心服务器接收用户上传的本地模型参数,计算每个用户上传的本轮本地模型参数的相似程度及每个用户对应的融合系数;所述本地模型参数为用户采用私有训练数据训练一轮后的本地模型参数;/n步骤2,中心服务器接收到本地用户一个训练周期的本地模型参数后,根据融合系数计算每个用户的本地模型参数的加权平均值得到全局模型参数,所述一个训练周期为预设的本地模型参数更新轮数;/n步骤3,将全局模型参数下发至对应的用户,用户收到全局模型参数后更新本地模型参数。/n

【技术特征摘要】
1.一种联邦学习中数据操纵攻击的安全防御方法,其特征在于,包括以下几个步骤:
步骤1,中心服务器接收用户上传的本地模型参数,计算每个用户上传的本轮本地模型参数的相似程度及每个用户对应的融合系数;所述本地模型参数为用户采用私有训练数据训练一轮后的本地模型参数;
步骤2,中心服务器接收到本地用户一个训练周期的本地模型参数后,根据融合系数计算每个用户的本地模型参数的加权平均值得到全局模型参数,所述一个训练周期为预设的本地模型参数更新轮数;
步骤3,将全局模型参数下发至对应的用户,用户收到全局模型参数后更新本地模型参数。


2.根据权利要求1所述的联邦学习中数据操纵攻击的安全防御方法,其特征在于:所述步骤1中,中心服务器接收用户i上传的本地模型参数所述本地模型参数为用户i利用私有训练数据进行第t轮训练后的本地模型参数。


3.根据权利要求1所述的联邦学习中数据操纵攻击的安全防御方法,其特征在于,所述步骤1具体包括:
步骤101,接收所述正常用户和恶意用户上传的本地模型参数(i=1,2,…,n);
步骤102,选择每一个用户本地模型参数中绝对值较大的参数的索引计算索引的并集然后选择索引st对应每一个用户部分本地模型参数
步骤103,计算步骤102所得的所有用户的部分本地模型参数的中位数
步骤104,计算每一个用户的部分本地模型参数与步骤103计算的中位数对应的相似度
步骤105,利用均值漂移算法计算步骤104所得的相似度的中心点
步骤106,计算步骤104所得的每个用户对应的相似度与步骤105所得的中心点之间的聚集度
步骤107,利用步骤106所得的聚集度计算融合系数


4.根据权利要求3所述的联邦学习中数据操纵攻击的安全防御方法,其特征在于,所述步骤2和步骤3分别为:
步骤2,判断t是否为τ的倍数,若是,转到步骤3;否则,转到步骤1;所述t为用户实际训练轮数,τ为一个训练周期内包含的本地...

【专利技术属性】
技术研发人员:毛云龙袁新雨赵心阳仲盛
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1