【技术实现步骤摘要】
一种面向深度学习的差分隐私可用性度量方法
[0001]本专利技术涉及一种面向深度学习的差分隐私可用性度量方法,属于数据安全和隐私保护
技术介绍
[0002]随着机器学习技术的快速发展,训练过程对数据的需求也越来越大,因此,造成信息泄露的几率也会越来越大。一旦用户的敏感信息被泄露,将对用户、企业带来严重的经济损失,甚至对国家和社会构成严重威胁。因此,亟需研究一种数据隐私保护技术,确保数据在发布过程中的安全性。
[0003]为了解决数据隐私保护问题,研究人员设计了多种加密机制,用于保护数据在发布与查询过程中的隐私信息。然而,传统的加密算法基于繁重的密码算法构造,计算复杂度较高。
[0004]差分隐私保护拥有严格的数学可解释性,且能够保护统计数据发布过程中的隐私信息,目前已被广泛应用于数据安全与隐私保护中。然而传统的加噪方法带来的随机性较大,对数据可用性带来不确定的影响,且加噪后对于神经网络随机梯度下降过程的收敛性会造成一定的影响。
技术实现思路
[0005]本专利技术提供一种面向深度学习 ...
【技术保护点】
【技术特征摘要】
1.一种面向深度学习的差分隐私可用性度量方法,其特征在于:包括如下步骤:步骤1:随机梯度下降训练:深度学习模型中神经网络的结构由神经元之间的连接触发,能够将数据从简单的特征抽象为复杂的结果;首先将数据输入神经元,然后从输入层到隐藏层到输出层执行前向传播,得到随机化权重下预测值和真实值之间的差值,再根据目标函数对误差的矫正进行反向传播,由梯度决定每次更新的大小和方向,并根据输入数据不断修正每个神经元获得的参数值;步骤2:随机噪声生成,用拉普拉斯机制生成随机噪声来对梯度信息进行保护;步骤3:可用性度量;步骤4:隐私预算调整;步骤5:数据加噪;步骤6:梯度值更新。2.如权利要求1所述的面向深度学习的差分隐私可用性度量方法,其特征在于:步骤1包括:步骤1.1初始化参数:随机初始化权重参数、epoch、batch大小以及迭代次数神经网络需要的训练参数的大小;步骤1.2从输入到输出计算中间值:将数据输入神经网络,从输入到输出依次计算中间值,若第l层的第j个神经元上层共有k个神经元输出,对于此神经元来说激活函数即中间值为:经过逐层计算激活值,得到最终模型的输出其中,权重参数代表了中间第l
‑
1层的第k个神经元向第l层的第j个神经元传递参数,表示第l层第j个神经元的偏置,表示第l层第j个神经元的激活函数的输出,表示第l
‑
1层第k个神经元的激活函数的输出,其中σ即为这里的激活函数,本发明中采用的是ReLU函数;步骤1.3得到实际输出与预测输出之间的损失:得到模型输出后,利用链式法则,进行反向梯度求导,逐层回传误差,之后计算得到每个神经元对总误差的贡献,用该误差来修正梯度权重参数w;神经网络的参数学习是一个非线性优化问题,通过优化损失函数间接优化模型参数,并提高模型性能;假设需要优化的目标函数为:其中L代表每个样本的损失函数,f(x;θ)是当样本输入x时的预测输出,y是真实输出,是训练集上的经验分布,经验分布和真实数据分布越接近,模型预测结果和真实结果越接近,是对数据集上每一个数据点(x,y)求经验分布得到的期望值;经验分布来自训练样本,而所有的数据无法被收集到,因此训练样本能够代表的样本信息越多,模型在测试集上的表现越优;用期望衡量真实数据分布与经验分布之间的差别,然后通过将期望损失最小化来不断迭代模型,该训练过程称为经验风险最小化,其中m代表了训练样本的数目,i是一个变量,表示从第1个到第m个样本循环并累加的过程,公式如下:
步骤1.4反向传播计算梯度:得到损失函数后,利用误差的反向传播计算梯度,即梯度下降以初始化的随机参数开始,在每个步骤中计算要优化的非线性函数的梯度,并更新参数,直到算法收敛到局部最优,按照数据生成分布抽取m个独立同分布的小批量样本,通过计算它们的梯度均值,可以得到梯度的无偏估计。3.如权利要求1或2所述的面向深度学习的差分隐私可用性度量方法,其特征在于:步骤2中,在执行随机梯度下降过程中,梯度信息是由数据计算而来的,若梯度信息遭到泄露,真实的数据信息也可能泄露,用拉普拉斯机制生成随机噪声来对梯度信息进行保护。4.如权利要求1或2所述的面向深度学习的差分隐私可用性度量方法,其特征在于:步骤3包括:步骤3.1:在满足数据可用性的前提下进行加噪,即给出一个阈值限定数据可用性的损失;步骤3.2:利用KL散度对加噪前后输出的相似性进行衡量。5.如权利要求4所述的面向深度学习的差分隐私可用性度量方法,其特征在于:步骤3.1定义隐私损失阈值:为了保证数据可用性,首先确定能接受的数据失真程度,定义一个阈值δ,然后随机生成一个噪声Lap(b),b为噪声的尺度参数,衡量加噪前后预测值与真实值相等的概率比值,若Lap(b)小于等于阈值δ,则说明噪声的值合适,大小设置为Lap(b),若Lap(b)大于δ,则此隐私预算的前提下,对噪声进行缩减至Lap(b)小于等于阈值δ;步骤3.2定义可用性指标:KL散度是两个概率分布p和q差别的非对称性度量,若p(x)和q(x)是x取值的两个概率分布,则p对q的相对熵为:利用KL散度的思想,对可用性的衡量,公式定义如下:其中,f(D)表示将某种查询函数f作用在数据集D上的输出,Lap(b)表示要添加的方差大小为b的Laplace噪声,y表示真实的输出,此处令二者的比值小于等于定义的隐私损失阈值δ,即。6.如权利要求1或2所述的面向深度学习的差分隐私可用性度量方法,其特征在于:步骤4中的隐私预算调...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。