一种基于属性相关的差分隐私保护方法技术

技术编号:19389054 阅读:35 留言:0更新日期:2018-11-10 02:05
本发明专利技术公开了一种基于属性相关的差分隐私保护方法,属于信息安全技术领域。本发明专利技术采取投影转换的思想,提出了新的面向属性相关的隐私保护方法。该方法不仅考虑了属性之间存在相关性的情况,而且利用这种相关关系减少噪声的加入。即利用最大信息系数衡量各敏感属性相关关系,构建最大信息系数矩阵;从而构造投影算子,获得投影矩阵,该结构的使用使得维度降低,在提供相同的隐私保证的情况下,所需噪声数减少。

A differential privacy protection method based on attribute correlation

The invention discloses a differential privacy protection method based on attribute correlation, which belongs to the field of information security technology. With the idea of projection transformation, the invention proposes a new privacy protection method for attribute related. This method not only considers the correlation between attributes, but also uses this correlation to reduce the noise. The maximum information coefficient is used to measure the correlation of sensitive attributes, and the maximum information coefficient matrix is constructed. The projection operator is constructed to obtain the projection matrix. The use of this structure reduces the dimension and reduces the number of noises required under the same privacy guarantee.

【技术实现步骤摘要】
一种基于属性相关的差分隐私保护方法
本专利技术属于信息安全
,具体涉及一种基于属性相关的差分隐私保护方法。
技术介绍
差分隐私保护数据发布根据实现环境不同可分为两种,即交互式数据发布和非交互式数据发布。在交互式环境下,用户向数据管理者提出查询请求,数据管理者根据查询请求对数据集进行操作并将结果进行必要的干扰后反馈给用户,用户不能看到数据集全貌,从而保护数据集中的个体隐私。在非交互式环境下,数据管理者针对所有可能的查询,在满足差分隐私的条件下一次性发布所有查询的结果。或者,数据管理者发布一个原始数据集的“净化”版本,这是一个不精确的数据集,用户可对该版本的数据集自行进行所需的查询操作。
技术实现思路
本专利技术的目的是为了解决现有隐私保护方法存在发布数据的可用性差,信息的隐匿率过高的问题,提出的一种基于属性相关的差分隐私保护方法。本专利技术的目的是这样实现的:一种基于属性相关的差分隐私保护方法,其特征在于,包含以下步骤:步骤一设输入样本X=[X1,X2,…XN],N为样本个数,每一个样本Xl=[xl1,xl2,…,xln]T∈Rn,对输入数据X进行标准化:得到标准化矩阵计算矩阵Z的最大信息系数矩阵Ci,j=MIC(zi,zj);其特征在于:给定有序对数据集D={(xi,yi),i=1,2,...,n},将X轴分成数量为x的格子,将Y轴分成了数量为y的格子,从而得出x×y格式的网格划分,并且用G表示,把位于D点同时进入了G中的网格而存在的比例判定为它的概率分配D|G;所有的数据集D,当其具有一定的固定性时,每一个网格划分都有它自己的概率分布特征D|G;最大信息系数MIC定义为:步骤二数据降维,构建投影算子;数据降维是采用线性变换的方式将高维空间的数据投影变换到低维空间上;步骤三根据投影算子,将原始数据投影到另一个空间中,得到相应的投影矩阵;计算Fk×n=Φ×Z,得到投影矩阵Fk×n;对投影矩阵Fk×n中的元素fij添加噪声,计算fij=fij+lap(Δf/ε),fij构成矩阵Fnoisy;添加服从拉普拉斯分布的噪声,其中Δf为全局敏感度;步骤四计算D=Uk×Fnoisy+repmat(Enoisy,1,n),即将加噪后的投影矩阵还原;E为原始特征变量对应的均值,Enoisy为加噪后均值,防止均值泄露隐私;步骤五发布还原数据集D,使得发布后的数据能够在差分隐私的框架下为相关的查询和数据挖掘等工作提供支持。本专利技术的技术效果为:本专利技术不仅考虑了属性之间存在相关性的情况,而且利用这种相关关系减少噪声的加入。即利用最大信息系数衡量各敏感属性相关关系,构建最大信息系数矩阵;从而构造投影算子,获得投影矩阵,该结构的使用使得维度降低,在提供相同的隐私保证的情况下,所需噪声数减少。附图说明图1为本专利技术的流程框图;图2为不同隐私预算下,传统差分隐私算法与该专利技术的MICPCA算法、MICSMT算法发布数据,用分类器进行分类得到的正确率对比图;图3为选取降维算子维度k取不同的值时,传统差分隐私算法与该专利技术的MICPCA算法、MICSMT算法发布数据得到的分类准确率对比图;图4为原始数据集在不同程度的隐私保护预算下经过传统差分隐私算法与该专利技术的MICPCA算法、MICSMT算法算法处理后的均方误差的影响对比图;图5为原始数据集在抽取数据量不同的情况下下经过传统差分隐私算法与该专利技术的MICPCA算法、MICSMT算法算法处理后的均方误差的影响对比图;具体实施方式下面结合附图对本专利技术的新概念减摇减阻船舶作出以下详细说明:本专利技术针对现有的隐私保护方法在发布属性具有相关性的数据时,存在因推断攻击而泄露隐私的问题和因添加过量噪声而破坏匿名数据效用性的问题,采取投影转换的思想,提出了新的面向属性相关的隐私保护方法。该方法不仅考虑了属性之间存在相关性的情况,而且利用这种相关关系减少噪声的加入。即利用最大信息系数衡量各敏感属性相关关系,构建最大信息系数矩阵;从而构造投影算子,获得投影矩阵,该结构的使用使得维度降低,在提供相同的隐私保证的情况下,所需噪声数减少。对应的两个算法均基于投影转换的思想,只是在获取投影算子时有所不同。基于最大信息系数的主成分分析的差分隐私数据发布(MaximalInformationCoefficientbasedPrincipalComponentsAnalysisbasedPrivacy-preservingdatapublishing,MICPCA)算法在构建投影算子时以改进的主成分分析为基础,而基于最大信息系数的稀疏矩阵变换的差分隐私数据发布(MaximalInformationCoefficientbasedSparseMatrixTransformbasedPrivacy-preservingdatapublishing,MICSMT)算法则是以连续的吉文斯旋转的方式构建投影算子。两个算法虽存在差异性,但是最终发布的数据均在一定程度上保障了个人信息安全的同时,数据的效用性也得到了相应的提高。目前,对于如何在发布数据的过程中保护个人隐私这一问题,无论国内还是国外,都在积极的研究,学者们提出了多种方法和相应的算法,它们针对具体的实际问题,各有特点。本专利技术在前人研究的基础上,针对于现有的方法存在处理后数据信息损失量过大、可用性差的缺点。同时,表明现有的方法没有考虑属性间的相关关系,处理后的数据依然具有泄露隐私的风险,提出了基于属性相关的差分隐私保护方法,其主要观点和内容如下:(1)MICPCA算法。在数据发布过程中,如何保证数据有效性与发布后的安全性一直是数据发布时需要着重考虑并亟待解决的问题。如今,我们处于信息化不断加快的社会中,所有的行业领域中拥有的个人数据都在极速的增加,而随着各个行业数据融合共享的深化,数据维度复杂程度越来越高。现有的隐私保护方法在该情况下,存在一系列问题,比如维度的增加,数据的可用性明显降低,信息的隐匿率较高等等,而且这些方法没有考虑到属性之间的关联性,从而导致信息泄露。因此,如何更安全、更高效的发布多敏感属性数据迫在眉睫。本算法基于投影转换的思想建立有针对性的隐私保护方法。该算法在构建投影算子时以改进的主成分分析(PCA)为基础。传统的PCA中用协方差来度量随机变量间的相关关系,这是一种常见的度量方法,此方法一般只适用于呈线性关系或者近似线性关系的变量之间,当变量之间关系是线性关系时,PCA算法呈现出很好的降维效果,但是该度量方法无法衡量变量间非线性依赖程度,当变量间存在的关联关系呈现非线性或者其他复杂函数关系时,该算法性能缺失。然而由于自然界千变万化,各种事物之间的关系也是多种多样的,自然规律存在相当大的复杂性及不确定性,现实世界中变量之间存在许多非线性相关关系而且无法用简单的数学公式表达。为了度量数据间非线性相关性的强弱,基于阈值相关、互信息、相位同步等度量方法先后被提出。最大信息系数是由互信息发展而来,克服了互信息对于连续变量计算不方便的缺点。基于MIC计算变量之间相关程度比协方差矩阵更具有一般性的意义。采用可以度量变量间的非线性相关性的MIC矩阵替换协方差矩阵,从而改善对属性相关性的度量。MICPCA算法从最大信息系数的角度进行主成分计算,可提供更多特征之间的线性、非线性关系本文档来自技高网...

【技术保护点】
1.一种基于属性相关的差分隐私保护方法,其特征在于,包含以下步骤:步骤一 设输入样本X=[X1,X2,…XN],N为样本个数,每一个样本Xl=[xl1,xl2,…,xln]T∈Rn,对输入数据X进行标准化:得到标准化矩阵计算矩阵Z的最大信息系数矩阵Ci,j=MIC(zi,zj);其特征在于:给定有序对数据集D={(xi,yi),i=1,2,...,n},将X轴分成数量为x的格子,将Y轴分成了数量为y的格子,从而得出x×y格式的网格划分,并且用G表示,把位于D点同时进入了G中的网格而存在的比例判定为它的概率分配D|G;所有的数据集D,当其具有一定的固定性时,每一个网格划分都有它自己的概率分布特征D|G;最大信息系数MIC定义为:

【技术特征摘要】
1.一种基于属性相关的差分隐私保护方法,其特征在于,包含以下步骤:步骤一设输入样本X=[X1,X2,…XN],N为样本个数,每一个样本Xl=[xl1,xl2,…,xln]T∈Rn,对输入数据X进行标准化:得到标准化矩阵计算矩阵Z的最大信息系数矩阵Ci,j=MIC(zi,zj);其特征在于:给定有序对数据集D={(xi,yi),i=1,2,...,n},将X轴分成数量为x的格子,将Y轴分成了数量为y的格子,从而得出x×y格式的网格划分,并且用G表示,把位于D点同时进入了G中的网格而存在的比例判定为它的概率分配D|G;所有的数据集D,当其具有一定的固定性时,每一个网格划分都有它自己的概率分布特征D|G;最大信息系数MIC定义为:步骤...

【专利技术属性】
技术研发人员:董宇欣陈福坤褚慈谢晓东印桂生韩启龙王红滨万丽秦帅白云鹏
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1