一种面向主成分分析的差分隐私保护方法技术

技术编号：20623194 阅读：45 留言：0更新日期：2019-03-20 14:42

本发明专利技术公开了一种面向主成分分析的差分隐私保护方法，包括以下步骤：数据矩阵中心化，即每一维度数据减去本维度的均值；对数据矩阵计算协方差矩阵

A Principal Component Analysis Oriented Differential Privacy Protection Method

The invention discloses a differential privacy protection method oriented to principal component analysis, which includes the following steps: centralization of data matrix, i.e., subtracting the mean of each dimension from the data of each dimension; calculation of covariance matrix for data matrix

全部详细技术资料下载

【技术实现步骤摘要】
一种面向主成分分析的差分隐私保护方法
本专利技术涉及一种面向主成分分析的差分隐私保护方法，属于信息安全

技术介绍
随着大数据技术的不断发展，各种信息系统存储的数据越来越丰富，增加了数据分析处理的复杂性。作为数据分析的重要方法之一，主成分分析可以将多变量转换为几个主要变量，这些主要变量能够表示原始数据的绝大部分信息，揭示数据本质。主成分分析实现了数据的简化，使得数据更易使用的同时降低了算法的计算开销。数据集里通常包含着许多隐私信息，如果直接使用机器学习或数据挖掘算法分析数据，将会带来隐私泄露问题。差分隐私保护方法是目前一种热门的隐私保护技术，通过噪声机制实现，即向输出结果中添加随机噪声来保护数据安全，添加的噪声越大，数据越安全，然而，数据的可用性越低，反之亦然。对于多属性数据，传统拉普拉斯机制对所有属性分配相同大小的隐私预算，这一方案简单易操作，但是会导致添加的噪声太大，数据可用性急剧降低，同时给“不重要”的数据分配隐私预算，浪费了一部分隐私预算，因此效果并不理想。
技术实现思路
本专利技术所要解决的问题就是针对
技术介绍
中的缺陷，提供了一种面向主成分分析的差分隐私保护方法，本专利技术既可以有效地对数据集降维，实现数据的简化，又可以避免对“不重要”的数据添加噪声，减少隐私预算的浪费，从而提高数据的可用性，使发布的数据尽可能反映真实数据，同时保护了数据的隐私。为了解决上述问题，采用如下技术方案：本专利技术的一种面向主成分分析的差分隐私保护方法，基于预设的样本数据集X，样本个数n，样本空间维度d；主成分分析方法包括以下步骤：步骤1：数据矩阵中心化，即每一维度...

【技术保护点】
1.一种面向主成分分析的差分隐私保护方法，其特征在于，基于预设的样本数据集X，样本个数n，样本空间维度d；主成分分析方法包括以下步骤：步骤1：数据矩阵中心化，即每一维度数据减去本维度的均值；步骤2：用步骤1得到的数据矩阵计算协方差矩阵

【技术特征摘要】
1.一种面向主成分分析的差分隐私保护方法，其特征在于，基于预设的样本数据集X，样本个数n，样本空间维度d；主成分分析方法包括以下步骤：步骤1：数据矩阵中心化，即每一维度数据减去本维度的均值；步骤2：用步骤1得到的数据矩阵计算协方差矩阵其中，XT是数据矩阵X的转置；步骤3：计算步骤2中所述协方差矩阵A的特征值λ及特征向量V，满足AV＝λV；将特征值降序排列有:λ1>λ2…>λd，其对应的特征向量为v1,v2…vd；步骤4：计算保留的主成分个数k；步骤5：将原始数据映射到主成分空间得到投影矩阵Z；步骤6：给所述投影矩阵Z每列元素分配隐私预算εj，计算添加的随机噪声；步骤7：给所述投影矩阵Z添加噪声，得到加噪后的投影矩阵Z′；步骤8：计算原始数据和低秩近似数据间的误差。2.根据权利要求1所述的面向主成分分析的差分隐私保护方法，其特征在于，步骤1中，为方便求解协方差矩阵，中心化后各维度均值为0，对每个属性去均值，如式(1)所示：xj是所有样本第j个属性的数据，x′j是中心化后所有样本第j个属性的数据，xij是数据集X中第i个样本第j个属性的数据，是第j个属性的均值。3.根据权利要求1所述的面向主成分分析的差分隐私保护方法，其特征在于，步骤4中，对设定的一个特征值贡献值α，其中，0≤α≤1，计算要保留的主成分个数k，使其满足实际保留的主成分特征值贡献值per≥α，其中：4.根据权利要求1所述的面向主成分分析的差分隐私保护方法，其特征在于，步骤5中，所述投影矩阵...

【专利技术属性】
技术研发人员：杨庚，徐亚红，汪伟亚，蒋辰，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人