【技术实现步骤摘要】
一种基于独占神经元的训练数据逆向重建方法
[0001]本专利技术属于人工智能隐私风险评估
,具体涉及一种基于独占神经元的训练数据逆向重建方法。
技术介绍
[0002]近年来随着深度学习的快速发展,传统意义上仅依赖本地数据的模型训练范式遭受数据孤岛和数据隐私瓶颈。为了解决上述问题,开放网络下训练神经网络模型正在成为主流趋势:在模型训练参与者之间计算并传递本地模型的平均梯度,从而能在不传输隐私数据的前提下充分利用分布在多个本地服务器上的训练数据,最终训练得到全局模型。此前研究表明,上述场景下数据隐私问题并未得到完全解决,模型训练参与者之间传输的平均梯度仍然蕴含着原始训练数据的信息,攻击者可能通过平均梯度推导出数据属性,甚至完整地恢复出原始训练数据。
[0003]为评估训练数据泄露风险,此前训练数据逆向重建方法均基于优化算法数值求解高维非线性梯度匹配方程组,由于相应的目标函数的非线性和非凸性,数值优化方法易于陷入局部最优解,从而导致此前数据逆向重建方法重建质量普遍不佳,同时优化过程极不稳定,在不同模型结构和不同训练数据批次大小重建效果差异大,且不具备理论重建误差保证。
技术实现思路
[0004]本专利技术的目的在于提供一种重建精度高的基于独占神经元的训练数据逆向重建方法。
[0005]本专利技术提出的基于独占神经元的训练数据逆向重建方法,包括:首先获取神经网络模型在开放网络环境中训练时传递的平均梯度信息;接着构建相应的平均梯度匹配方程组;再基于独占神经元分析,将数据重建高维非线性梯度匹 ...
【技术保护点】
【技术特征摘要】
1.一种基于独占神经元的训练数据逆向重建方法,其特征在于,包括:首先获取神经网络模型在开放网络环境中训练时传递的平均梯度信息;接着构建相应的平均梯度匹配方程组;再基于独占神经元分析,将数据重建高维非线性梯度匹配方程组化简为线性方程组;最后借助线性求解器,准确重建产生该平均梯度的训练批次中的各个私有图片数据和相应数据标签;所述独占神经元,指在一次前向传播只被训练批次中单独一个样本数据激活的神经元;基于神经元独占性分析,利用神经网络中修正线性单元的激活状态,确定从平均梯度恢复原始数据的完备边界条件:训练批次中的每个样本在最后一层ReLU层中都有至少2个独占神经元,同时在其他ReLU层至少有1个独占神经元;基于该性质,将数据重建高维非线性梯度方程化简为线性方程,再利用线性求解器能在理论上保障对各个数据标签的准确恢复,同时稳定准确地重建训练批次中各个私有图片数据的内容;选定目标模型为含修正线性单元的全连接神经网络。2.根据权利要求1所述的基于独占神经元的训练数据逆向重建方法,其特征在于,具体步骤如下:步骤一、构建平均梯度匹配方程组,定义神经网络的独占神经元(1.1)首先,将给定的(H+2)层全连接神经网络模型记为f(
·
;W),该网络包含输入层、输出层以及H个隐藏层;获取神经网络模型的平均梯度,记为训练数据重建的目标是根据平均梯度恢复出私有数据及其标签表示为如下梯度匹配优化问题:其中,l是训练过程中的损失函数,D是计算真实梯度与期望梯度之间距离的函数,这里,l选定为交叉熵损失函数,D选定为计算欧氏距离;上述梯度匹配优化问题可写成以下的方程组等价形式:(1.2)接着,定义神经网络的激活模式,记给定输入数据X
m
在第i层的激活模式为对角矩阵当且仅当第i层第j个神经元在输入X后处于激活状态时,矩阵D
i
(X
m
)对角线上第j个元素为1,否则为0;矩阵D
i
(X
m
)对角线上第j个元素记为[D
i
(X
m
)]
j
;此时神经网络第i个隐藏层的输出[f
m
]
i
以及最终输出f
m
分别写成如下形式:分别写成如下形式:定义独占神经元,给定一个数据批次称第i层第j个神经元是独占神经元当且仅当满足如下条件:最后,记X
m
在第i层独占神经元个数为定义完备独占性条件为:满足且对
任意的i=1,
…
,H
‑
1都有(1.3)给定训练数据(X
m
,Y
m
),定义损失向量这里的通过如下等式计算得到:其中,是输入X
m
时目标模型输出向量f(X
m
)第c个分量值,代表数据X
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。