一种面向主成分分析的差分隐私保护方法技术

技术编号:20623194 阅读:46 留言:0更新日期:2019-03-20 14:42
本发明专利技术公开了一种面向主成分分析的差分隐私保护方法,包括以下步骤:数据矩阵中心化,即每一维度数据减去本维度的均值;对数据矩阵计算协方差矩阵

A Principal Component Analysis Oriented Differential Privacy Protection Method

The invention discloses a differential privacy protection method oriented to principal component analysis, which includes the following steps: centralization of data matrix, i.e., subtracting the mean of each dimension from the data of each dimension; calculation of covariance matrix for data matrix

【技术实现步骤摘要】
一种面向主成分分析的差分隐私保护方法
本专利技术涉及一种面向主成分分析的差分隐私保护方法,属于信息安全

技术介绍
随着大数据技术的不断发展,各种信息系统存储的数据越来越丰富,增加了数据分析处理的复杂性。作为数据分析的重要方法之一,主成分分析可以将多变量转换为几个主要变量,这些主要变量能够表示原始数据的绝大部分信息,揭示数据本质。主成分分析实现了数据的简化,使得数据更易使用的同时降低了算法的计算开销。数据集里通常包含着许多隐私信息,如果直接使用机器学习或数据挖掘算法分析数据,将会带来隐私泄露问题。差分隐私保护方法是目前一种热门的隐私保护技术,通过噪声机制实现,即向输出结果中添加随机噪声来保护数据安全,添加的噪声越大,数据越安全,然而,数据的可用性越低,反之亦然。对于多属性数据,传统拉普拉斯机制对所有属性分配相同大小的隐私预算,这一方案简单易操作,但是会导致添加的噪声太大,数据可用性急剧降低,同时给“不重要”的数据分配隐私预算,浪费了一部分隐私预算,因此效果并不理想。
技术实现思路
本专利技术所要解决的问题就是针对
技术介绍
中的缺陷,提供了一种面向主成分分析的差分隐私保护方法,本专利技术既可以有效地对数据集降维,实现数据的简化,又可以避免对“不重要”的数据添加噪声,减少隐私预算的浪费,从而提高数据的可用性,使发布的数据尽可能反映真实数据,同时保护了数据的隐私。为了解决上述问题,采用如下技术方案:本专利技术的一种面向主成分分析的差分隐私保护方法,基于预设的样本数据集X,样本个数n,样本空间维度d;主成分分析方法包括以下步骤:步骤1:数据矩阵中心化,即每一维度数据减去本维度的均值;步骤2:用步骤1得到的数据矩阵计算协方差矩阵其中,XT是数据矩阵X的转置;步骤3:计算步骤2中所述协方差矩阵A的特征值λ及特征向量V,满足AV=λV;将特征值降序排列有:λ1>λ2…>λd,其对应的特征向量为v1,v2…vd;步骤4:计算保留的主成分个数k;步骤5:将原始数据映射到主成分空间得到投影矩阵Z;步骤6:给所述投影矩阵Z每列元素分配隐私预算εj,计算添加的随机噪声;步骤7:给所述投影矩阵Z添加噪声,得到加噪后的投影矩阵Z′;步骤8:计算原始数据和低秩近似数据间的误差。步骤1中,为方便求解协方差矩阵,中心化后各维度均值为0,对每个属性去均值,如式(1)所示:xj是所有样本第j个属性的数据,x′j是中心化后所有样本第j个属性的数据,xij是数据集X中第i个样本第j个属性的数据,是第j个属性的均值。步骤4中,对设定的一个特征值贡献值α,其中,0≤α≤1,计算要保留的主成分个数k,使其满足实际保留的主成分特征值贡献值per≥α,其中:步骤5中,所述投影矩阵Z=XVk是原始数据在主成分空间上的映射,其中Vk=v1,v2…vk是保留的k个主成分对应的特征向量。步骤6中,所述随机噪声为Laplace噪声,即噪声服从Laplace分布Lap(b),b为尺度参数,b=Δf/ε,Δf为全局敏感度,ε为隐私预算;服从尺度参数为b的Laplace分布概率密度函数如下:其中,x表示所有可能的取值,p(x)为所有取值的概率投影矩阵Z=XVk的第j列表示原始数据在第j个主成分上的映射,每一列表示不同的含义,可分配相等或不等的隐私预算εj,其中,1≤j≤k。分配相等的隐私预算εj:即均分:每一列分配相等的隐私预算;分配不等的隐私预算εj:即按权重分配:根据主成分特征值占比分配隐私预算。步骤7中,加噪后的投影矩阵为Z′=(z′1,z′2…z′j…z′k),其中z′j′的表达式如下:zj是投影矩阵的第j列,是投影矩阵的全局敏感度。步骤8中,低秩近似矩阵是特征向量矩阵Vk的转置,是属性的均值,其中,近似数据误差使用公式(5)计算;MSE-F=||Y-X||F(5)||·||F是矩阵的F范数;矩阵的F范数是指矩阵元素的平方和再开方;设C是一个m×n的矩阵,则C的F范数为:本专利技术采用上述技术方案,与现有技术相比,具有以下技术效果:本专利技术针对传统拉普拉斯机制添加噪声太大的缺陷,提出一种更为理想的加噪方式,使得还原得到的低秩近似数据在一定程度上失真,达到隐私保护的目的,同时保证了数据的可用性。本专利技术方法简单、易操作且不限制数据集大小和属性,特点如下:(1)为保证主成分分析算法的安全性,通过在投影矩阵中添加适当的噪声,设计了面向差分隐私保护的主成分分析算法,并证明算法满足差分隐私条件;(2)与传统拉普拉斯机制相比,该方案只对“重要”的数据加噪,避免了隐私预算的浪费。在相同隐私保护程度下,对数据添加噪声更小,从而提高数据的可用性,使发布的数据尽可能反映真实数据,同时保护了数据的隐私。附图说明图1是本专利技术提供的实验中使用的用于测试差分隐私主成分分析算法性能的数据示意图;图2是本专利技术提供的面向主成分分析的差分隐私保护方法的工作流程图。具体实施方式下面结合附图对本专利技术的技术方案的实施作进一步的详细描述,应理解这些实例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。本专利技术先计算保留主成分个数,再将原始数据映射到主成分空间得到投影矩阵,为投影矩阵每列元素分配隐私预算,计算添加在数据中的Laplace噪声,既可以有效地对数据集降维,实现数据的简化,又可以避免对“不重要”的数据添加噪声,减少隐私预算的浪费,从而提高数据的可用性。本专利技术所采用的差分隐私保护技术定义了一个及其严格的攻击模型,并对隐私风险进行了严格的数学证明和定量表示,同时差分隐私机制也能在主成分分析结果可用性和安全性两方面取得很好的平衡。参见图2,具体实施方式如下所示:步骤1:收集得到样本数据集Secom.txt,存放的是半导体制作过程中各属性的数据,样本数为1567,属性个数为591,数据集X={x1,x2…x591},xi是所有样本第i个属性的数据。用公式(1)对每一维数据中心化。取中心化后数据集10个属性数据,如下所示:x1=[16.47710442,81.32710442,-81.84289558…-35.64289558,-119.53289558,-69.53289558]Tx50=[-7.93969674,-0.99239674,5.01130326…-4.19689674,7.65940326,7.02220326]Tx100=[-0.0266401,-0.0173401,0.1202599…-0.0192401,0.1435599,-0.0647401]Tx150=[-2.54326790,-0.529267903,-1.99526790…-2.84217094e-14,1.43873210,-2.84217094e-14]Tx200=[-0.91205637,0.11794363,-1.82205637…-7.61205637,-2.47205637,-2.84205637]Tx250=[110.29433331,83.37773331,-5.24676669…7.68593331,-10.22116669,12.12073331]Tx300=[-0.04006684,-0.00416684,-0本文档来自技高网...

【技术保护点】
1.一种面向主成分分析的差分隐私保护方法,其特征在于,基于预设的样本数据集X,样本个数n,样本空间维度d;主成分分析方法包括以下步骤:步骤1:数据矩阵中心化,即每一维度数据减去本维度的均值;步骤2:用步骤1得到的数据矩阵计算协方差矩阵

【技术特征摘要】
1.一种面向主成分分析的差分隐私保护方法,其特征在于,基于预设的样本数据集X,样本个数n,样本空间维度d;主成分分析方法包括以下步骤:步骤1:数据矩阵中心化,即每一维度数据减去本维度的均值;步骤2:用步骤1得到的数据矩阵计算协方差矩阵其中,XT是数据矩阵X的转置;步骤3:计算步骤2中所述协方差矩阵A的特征值λ及特征向量V,满足AV=λV;将特征值降序排列有:λ1>λ2…>λd,其对应的特征向量为v1,v2…vd;步骤4:计算保留的主成分个数k;步骤5:将原始数据映射到主成分空间得到投影矩阵Z;步骤6:给所述投影矩阵Z每列元素分配隐私预算εj,计算添加的随机噪声;步骤7:给所述投影矩阵Z添加噪声,得到加噪后的投影矩阵Z′;步骤8:计算原始数据和低秩近似数据间的误差。2.根据权利要求1所述的面向主成分分析的差分隐私保护方法,其特征在于,步骤1中,为方便求解协方差矩阵,中心化后各维度均值为0,对每个属性去均值,如式(1)所示:xj是所有样本第j个属性的数据,x′j是中心化后所有样本第j个属性的数据,xij是数据集X中第i个样本第j个属性的数据,是第j个属性的均值。3.根据权利要求1所述的面向主成分分析的差分隐私保护方法,其特征在于,步骤4中,对设定的一个特征值贡献值α,其中,0≤α≤1,计算要保留的主成分个数k,使其满足实际保留的主成分特征值贡献值per≥α,其中:4.根据权利要求1所述的面向主成分分析的差分隐私保护方法,其特征在于,步骤5中,所述投影矩阵...

【专利技术属性】
技术研发人员:杨庚徐亚红汪伟亚蒋辰
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1