当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于独占神经元的训练数据逆向重建方法技术

技术编号:33851062 阅读:20 留言:0更新日期:2022-06-18 10:37
本发明专利技术属于人工智能隐私风险评估领域,具体为一种基于独占神经元分析的训练数据逆向重建方法。本发明专利技术基于独占神经元分析,从深度神经网络模型的平均训练梯度中推断修正线性单元(ReLU)的激活状态,将原本高维复杂非线性梯度匹配方程组化简为等价的超定线性方程组,利用稀疏线性方程求解器,准确求解参与训练的原始数据样本和相应数据标签。本发明专利技术能够广泛应用于评估深度神经网络在开放网络训练过程中的隐私风险,帮助尽早发现模型训练过程中的数据泄漏隐患,相比现有评估方法,在重建精度和重建样本数上均有显著提升。和重建样本数上均有显著提升。和重建样本数上均有显著提升。

【技术实现步骤摘要】
一种基于独占神经元的训练数据逆向重建方法


[0001]本专利技术属于人工智能隐私风险评估
,具体涉及一种基于独占神经元的训练数据逆向重建方法。

技术介绍

[0002]近年来随着深度学习的快速发展,传统意义上仅依赖本地数据的模型训练范式遭受数据孤岛和数据隐私瓶颈。为了解决上述问题,开放网络下训练神经网络模型正在成为主流趋势:在模型训练参与者之间计算并传递本地模型的平均梯度,从而能在不传输隐私数据的前提下充分利用分布在多个本地服务器上的训练数据,最终训练得到全局模型。此前研究表明,上述场景下数据隐私问题并未得到完全解决,模型训练参与者之间传输的平均梯度仍然蕴含着原始训练数据的信息,攻击者可能通过平均梯度推导出数据属性,甚至完整地恢复出原始训练数据。
[0003]为评估训练数据泄露风险,此前训练数据逆向重建方法均基于优化算法数值求解高维非线性梯度匹配方程组,由于相应的目标函数的非线性和非凸性,数值优化方法易于陷入局部最优解,从而导致此前数据逆向重建方法重建质量普遍不佳,同时优化过程极不稳定,在不同模型结构和不同训练数据批次大小重建效果差异大,且不具备理论重建误差保证。

技术实现思路

[0004]本专利技术的目的在于提供一种重建精度高的基于独占神经元的训练数据逆向重建方法。
[0005]本专利技术提出的基于独占神经元的训练数据逆向重建方法,包括:首先获取神经网络模型在开放网络环境中训练时传递的平均梯度信息;接着构建相应的平均梯度匹配方程组;再基于独占神经元分析,将数据重建高维非线性梯度匹配方程组化简为线性方程组;最后借助线性求解器,准确重建产生该平均梯度的训练批次中的各个私有图片数据和相应数据标签。在该场景中,数据逆向重建方法对目标模型拥有白盒访问权,即可以获取模型参数、结构及各个中间层的梯度信息。
[0006]所述独占神经元,指在一次前向传播只被训练批次中单独一个样本数据激活的神经元。基于神经元独占性分析,利用神经网络中修正线性单元(ReLU)的激活状态,确定从平均梯度恢复原始数据的完备边界条件:训练批次中的每个样本在最后一层ReLU层中都有至少2个独占神经元,同时在其他ReLU层至少有1个独占神经元。基于该性质,本专利技术将数据重建高维非线性梯度方程化简为线性方程,再利用线性求解器能在理论上保障对各个数据标签的准确恢复,同时稳定准确地重建训练批次中各个私有图片数据的内容。本专利技术提出的数据逆向重建方法具有重建误差理论下界,因此重建效果远好于此前最优方法。
[0007]本专利技术选定目标模型为含修正线性单元(ReLU)的全连接神经网络。
[0008]本专利技术提出的基于独占神经元的训练数据逆向重建方法,具体步骤如下:
[0009]步骤一、构建平均梯度匹配方程组,定义神经网络的独占神经元。
[0010](1.1)首先,将给定的(H+2)层全连接神经网络模型记为f(
·
;W),该网络包含输入层、输出层以及H个隐藏层;获取神经网络模型的平均梯度,记为训练数据重建的目标是根据平均梯度恢复出私有数据及其标签表示为如下梯度匹配优化问题:
[0011][0012]这里的l是训练过程中的损失函数,D是计算真实梯度与期望梯度之间距离的函数。本专利技术中l选定为交叉熵损失函数,D选定为计算欧氏距离。上述梯度匹配优化问题可以写成以下的方程组等价形式:
[0013][0014](1.2)接着,定义神经网络的激活模式,记给定输入数据X
m
在第i层(1≤i≤H)的激活模式为对角矩阵当且仅当第i层第j个神经元在输入X后处于激活状态时,矩阵D
i
(X
m
)对角线上第j个元素(记为[D
i
(X
m
)]j
)为1,否则为0。此时神经网络第i个隐藏层的输出[f
m
]i
以及最终输出f
m
分别可以写成如下形式:
[0015][0016][0017]定义独占神经元,给定一个数据批次称第i层第j个神经元是独占神经元当且仅当满足如下条件:
[0018][0019]最后记X
m
在第i层独占神经元个数为定义完备独占性条件为:满足且对任意的i=1,

,H

1都有
[0020](1.3)给定训练数据(X
m
,Y
m
),定义损失向量这里的通过如下等式计算得到:
[0021][0022]这里的是输入X
m
时目标模型输出向量f(X
m
)第c个分量值,代表数据X
m
在类别c上的预测概率值。根据链式法则可以先将神经网络第i层的梯度匹配方程初步化简如下:
[0023][0024]这里的可以进一步展开为关于和X
m
的表示,具体如下:
[0025][0026]步骤二、在完备独占性条件下,将高维平均梯度匹配方程组化简为线性方程组。由于平均梯度已知,而训练数据批次中任一样本X
m
对应的和在实际计算时无法直接获得,这使得初步化简后的梯度匹配方程仍然是高维非线性方程组。本专利技术提出如下算
法从平均梯度中恢复和进而将非线性梯度匹配方程化简为线性方程组。
[0027](2.1)恢复训练数据批次中各样本(X
m
,Y
m
)对应的损失向量
[0028]考虑关于[W
H
]c
的梯度方程这里的[f
m
]H
是第H个隐藏层的输出。当满足完备独占性条件时,训练数据批次中的每个数据在第H个隐藏层都至少拥有2个独占神经元,关于X
m
的独占神经元输出仅和X
m
相关,此时计算其对应X
m
独占神经元位置的两个分量值理论上完全一致,且值为由于是已知的平均梯度,因此遍历所有类别c后,未知变量可以减少到
[0029]由于可确定的范围为[0,δ
m
],这里的δ
m
较小。通过观察中相同分量值,恢复可能存在的所有数据样本比例(为的估计值),遍历所有类别c后,根据可以计算得到所有的在获得所有的后可以准确恢复出训练数据批次中各个样本的标签值:根据损失向量的计算公式,当且仅当c=Y时为负,否则为正;观察如果只包含一个负值,该负值的下标就是数据X
m
的标签Y
m
,否则数据X
m
的标签Y
m
为1。本专利技术中,先设定δ
m
为依据数据重建效果进行二分查找,快速获得最优的
[0030](2.2)恢复训练数据批次中各个样本(X
m
,Y
m
)对应的激活模式并将转换为关于X
m
和的线性表示。
[0031]考虑已经获得关于X
m
在第H层处的两个独占神经元,假设第H层第j本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于独占神经元的训练数据逆向重建方法,其特征在于,包括:首先获取神经网络模型在开放网络环境中训练时传递的平均梯度信息;接着构建相应的平均梯度匹配方程组;再基于独占神经元分析,将数据重建高维非线性梯度匹配方程组化简为线性方程组;最后借助线性求解器,准确重建产生该平均梯度的训练批次中的各个私有图片数据和相应数据标签;所述独占神经元,指在一次前向传播只被训练批次中单独一个样本数据激活的神经元;基于神经元独占性分析,利用神经网络中修正线性单元的激活状态,确定从平均梯度恢复原始数据的完备边界条件:训练批次中的每个样本在最后一层ReLU层中都有至少2个独占神经元,同时在其他ReLU层至少有1个独占神经元;基于该性质,将数据重建高维非线性梯度方程化简为线性方程,再利用线性求解器能在理论上保障对各个数据标签的准确恢复,同时稳定准确地重建训练批次中各个私有图片数据的内容;选定目标模型为含修正线性单元的全连接神经网络。2.根据权利要求1所述的基于独占神经元的训练数据逆向重建方法,其特征在于,具体步骤如下:步骤一、构建平均梯度匹配方程组,定义神经网络的独占神经元(1.1)首先,将给定的(H+2)层全连接神经网络模型记为f(
·
;W),该网络包含输入层、输出层以及H个隐藏层;获取神经网络模型的平均梯度,记为训练数据重建的目标是根据平均梯度恢复出私有数据及其标签表示为如下梯度匹配优化问题:其中,l是训练过程中的损失函数,D是计算真实梯度与期望梯度之间距离的函数,这里,l选定为交叉熵损失函数,D选定为计算欧氏距离;上述梯度匹配优化问题可写成以下的方程组等价形式:(1.2)接着,定义神经网络的激活模式,记给定输入数据X
m
在第i层的激活模式为对角矩阵当且仅当第i层第j个神经元在输入X后处于激活状态时,矩阵D
i
(X
m
)对角线上第j个元素为1,否则为0;矩阵D
i
(X
m
)对角线上第j个元素记为[D
i
(X
m
)]
j
;此时神经网络第i个隐藏层的输出[f
m
]
i
以及最终输出f
m
分别写成如下形式:分别写成如下形式:定义独占神经元,给定一个数据批次称第i层第j个神经元是独占神经元当且仅当满足如下条件:最后,记X
m
在第i层独占神经元个数为定义完备独占性条件为:满足且对
任意的i=1,

,H

1都有(1.3)给定训练数据(X
m
,Y
m
),定义损失向量这里的通过如下等式计算得到:其中,是输入X
m
时目标模型输出向量f(X
m
)第c个分量值,代表数据X

【专利技术属性】
技术研发人员:杨珉张谧潘旭东
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1