一种基于联邦学习的隐私保护方法、存储介质及系统技术方案

技术编号：27006563 阅读：20 留言：0更新日期：2021-01-08 17:10

本发明专利技术公开了一种基于联邦学习的隐私保护方法、存储介质及系统，方法包括步骤：采用参数加密算法对全局模型进行加密处理，得到密文模型；利用本地数据在所述密文模型上进行训练，并对得到的密文梯度信息和噪声项进行解密，得到参数梯度，采用所述参数梯度对全局模型进行更新，循环上述步骤直至模型收敛或达到指定迭代次数，获得模型参数；对模型参数进行加密，得到加密模型参数，采用加密模型参数对全局模型进行更新，得到全局加密模型；在加密全局模型上进行本地训练，实现隐私保护。本发明专利技术可以有效防止半可信的联邦学习参与者获取全局模型的真实参数和中间模型的输出结果，同时保证参与者都能够利用最终训练好的加密模型获取到真实的预测结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于联邦学习的隐私保护方法、存储介质及系统
本专利技术涉及数据保护领域，特别涉及一种基于联邦学习的隐私保护方法、存储介质及系统。
技术介绍
随着大数据挖掘和深度学习的广泛应用与发展，越来越多的隐私泄露和数据滥用事件频繁爆发，使得重视数据隐私和安全已经成为了世界性的趋势。特别是在分布式机器学习中，分布式参与者由于隐私担忧问题而不愿意提供自己的本地训练数据，从而形成了“数据孤岛”现象。为了应对数据隐私保护难题，打破数据孤岛的现实困难，满足数据联合使用的迫切需求，联邦学习的概念和工业级应用解决方案被提出来。联邦学习本质上是一种分布式机器学习框架，在此框架下，各个参与者之间不互通原始数据，在本地训练模型并上传更新的模型参数或者梯度，从而能够在保护隐私的前提下有效帮助多个参与者联合进行机器学习建模。虽然联邦学习不要求参与者上传本地训练数据，从而能够一定程度上地保护隐私。然而，目前的研究表明攻击者仍然可能利用每个参与者上传的真实梯度或者更新的模型参数信息来获取原始的训练数据、进行成员推断以及属性推断等攻击。目前，基于联邦学习的隐私保护研究，几乎考虑的都是防止中央服务器从模型更新中获取参与者的隐私信息，却并未考虑恶意参与者的情况。也就是说，恶意参与者或者被攻击者截获的参与者仍然可以得到真实的全局模型更新，因此，它们仍然有可能通过真实的参数，再加上自己所拥有的本地训练数据来猜测其它训练数据，或者推测其他参与者的训练数据集。正如Kairouz等人指出，在联邦学习中，防止迭代过程中的真实的模型更新以及最终的模型参数被恶意参与...

【技术保护点】
1.一种基于联邦学习的隐私保护方法，其特征在于，包括步骤：/n采用参数加密算法对全局模型进行加密处理，得到密文模型；/n利用本地数据在所述密文模型上进行训练，得到密文梯度信息和噪声项；/n对所述密文梯度信息和噪声项进行解密，得到参数梯度，采用所述参数梯度对所述全局模型进行更新，循环上述步骤直至模型收敛或达到指定迭代次数，获得模型参数；/n对所述模型参数进行加密，得到加密模型参数，采用所述加密模型参数对所述全局模型进行更新，得到全局加密模型；/n在所述加密全局模型上进行本地训练，实现隐私保护。/n

【技术特征摘要】
1.一种基于联邦学习的隐私保护方法，其特征在于，包括步骤：
采用参数加密算法对全局模型进行加密处理，得到密文模型；
利用本地数据在所述密文模型上进行训练，得到密文梯度信息和噪声项；
对所述密文梯度信息和噪声项进行解密，得到参数梯度，采用所述参数梯度对所述全局模型进行更新，循环上述步骤直至模型收敛或达到指定迭代次数，获得模型参数；
对所述模型参数进行加密，得到加密模型参数，采用所述加密模型参数对所述全局模型进行更新，得到全局加密模型；
在所述加密全局模型上进行本地训练，实现隐私保护。

2.根据权利要求1所述的基于联邦学习的隐私保护方法，其特征在于，所述采用参数加密算法对全局模型进行加密处理，得到密文模型的步骤包括：
当所述全局模型为L层的多层感知机模型时，采用随机数矩阵和对所述多层感知机模型中的明文模型参数进行加密，得到密文模型参数：其中，表示哈达玛积乘积运算；
所述随机数矩阵R(l)由乘性噪声向量按以下规则构成：

其中，下标i和j满足i∈[1，nl]，j∈[1，nl-1]；
所述随机数矩阵Ra由随机数γ和加性噪声向量按下式组成：其中下标i和j满足i∈[1，nL]，j∈[1，nL-1]；
将所述密文模型参数替换所述多层感知机模型中的明文模型参数，得到密文模型。

3.根据权利要求1所述的基于联邦学习的隐私保护方法，其特征在于，所述采用参数加密算法对全局模型进行加密处理，得到密文模型的步骤包括：
当所述全局模型为L层的卷积神经网络模型时，使用随机张量和随机矩阵R(L),对所述卷积神经网络模型的明文模型参数加密，得到对应的密文模型参数：当1≤l≤L-1时，参数W(l)为卷积核张量，所述随机张量R(l)由乘性噪声向量组成，且满足：

其中r(l，in)＝(r(m))m∈P(l)，由m∈P(l)个向量r(m)拼接而成，P(l)表示所有连接到第l个卷积层的网络层的下标集合；
所述随机矩阵R(L)由乘性噪声向量r(L-1)构成，且满足：

所述随机矩阵Ra由加性噪声向量ra和随机数γ组成，且满足：
将所述密文模型参数替换所述卷积神经网络模型中的明文模型参数，得到密文模型。

4.根据权利要求2所述的基于联邦学习的隐私保护方法，其特征在于，利用本地数据在所述密文模型上进行训练，得到密文梯度信息和噪声项的步骤包括：
计算所述密文模型的输出：所述密文模型的输出与其对应的明文模型的输出满足以下关系式：

其中r＝γra；
对于任意维的样本密文模型的预测值与真实值的均方误差作为损失函数表示为：

其中，nL表示模型输出层的维度，同时也是样本标签的维度；
所述损失函数对密文参数的带噪梯度与其对应的真实梯度满足以下关系式：其中，v＝rTr且
第k个参与者在其所有小批量数据样本上计算密文梯度信息并结合加性噪...

【专利技术属性】
技术研发人员：夏树涛，杨雪，冯岩，李文杰，方伟军，唐小虎，
申请(专利权)人：鹏城实验室，清华大学深圳国际研究生院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人