基于微聚集匿名的差分隐私保护方法技术

技术编号:16587728 阅读:56 留言:0更新日期:2017-11-18 15:23
本发明专利技术公开了一种基于微聚集匿名的差分隐私保护方法,涉及数据匿名和差分隐私保护技术领域。本发明专利技术通过DBSCAN聚类函数对原始数据集按照密度不同划分成类,并将异常点以及噪音点归入距离它最近的类中;利用MDAV函数对聚集的类进行再次划分并匿名,将等价类记录数量控制在k到2k‑1之间;最后利用差分隐私保护技术,为每一条数据记录添加拉普拉斯噪音。实验表明,与现有方法相比,在保证隐私数据安全的前提下,DCMVDP方法的信息损失量更小,具有更高的数据可用性。

Differential privacy preserving method based on micro aggregation anonymity

The invention discloses a differential privacy protection method based on micro aggregation anonymity, which relates to the technical field of data anonymity and differential privacy protection. The invention uses DBSCAN clustering function of the original data set is divided into different classes according to the density, and the abnormal points and noise points in the nearest class; on the aggregation of class divided again and anonymously by using MDAV function, will record the number of equivalence classes is k to 2K 1; finally by difference privacy protection technology, add Laplasse noise for each data record. Experiments show that, compared with the existing methods, under the premise of ensuring privacy data security, the information loss of DCMVDP method is smaller, and it has higher data availability.

【技术实现步骤摘要】
基于微聚集匿名的差分隐私保护方法
本专利技术涉及数据匿名和差分隐私保护
,具体是基于微聚集匿名的差分隐私保护方法。
技术介绍
随着信息技术的快速发展,信息量呈指数型增长。通过数据挖掘对这些信息进行挖掘和分析,能够获得众多有用的知识。然而,随着数据挖掘技术在知识发现领域的广泛应用,隐私泄露问题也日益凸显,因此如何在数据挖掘的过程中保证数据的隐私安全性成为亟待解决的问题。目前,隐私保护技术可大体分为三类:(1)限制发布;(2)数据失真;(3)数据加密。而在现有的方法中,为了提高隐私保护的效果,往往结合了多种隐私保护技术。其中,k-匿名作为数据失真的常用技术,通过保证发布数据集中任何一条数据记录至少有k-1条与其不可区分的记录对原始数据进行匿名,实现单条记录隐藏到一组数据中,因此能够分化数据的敏感性。但是,k-匿名模型具有很大的缺陷,容易遭到各种复杂的背景知识及联合攻击。随着背景知识的不断扩大和计算能力的不断提高,通过该方法保护的数据遭到背景攻击和泄露的风险日益加大。针对上述问题,Dwork等人提出了差分隐私保护技术。该技术定义了一个极为严格的攻击模型,并用严谨的数学公式证明了其隐私泄露的风险。但是差分隐私保护技术往往会向原始数据中添加过量噪音,从而导致数据的可用性较差。鉴于以上问题,国内外研究学者将k-匿名与差分隐私保护方法结合起来,以此保证数据高隐私性与高可用性,目前有:采用k领域数据记录均值替换的方法实现数据隐藏、IDPk-means聚类方法以及DCMDP方法。但是这些方法都有不足之处:k领域数据记录均值替换的方法和IDPk-means聚类方法仅考虑到数据记录划分的准确性和聚类可用性,并没有对数据隐私性和可用性进行分析。DCMDP方法对原数据集匿名化处理的方式并不合理,导致发布数据的可用性大大降低。
技术实现思路
为了克服上述技术缺点,本专利技术提供基于微聚集匿名的差分隐私保护方法,提升数据隐私性的同时,优化隐私保护过程中数据过度泛化问题,降低信息损失量,保证了发布数据的可用性。本专利技术是以如下技术方案实现的:基于微聚集匿名的差分隐私保护方法具体步骤如下:一种基于微聚集匿名的差分隐私保护方法,包括一次划分单元、二次划分匿名单元以及加噪处理单元,具体步骤如下:一次划分单元:对属性都是数值型的原始数据集D根据数据分布密度进行聚类处理,将原始数据集D划分成若干个小数据集;二次划分匿名单元:对一次划分单元的聚类结果集中的每一个小数据集进行再次划分,使小数据集变成大小在k到2k-1的小类,并用小类的质心的值代替小类中其余元组的值,从而使原始数据集D满足最优k-划分的k-匿名;加噪处理单元:为每一条匿名后的元组随机添加拉普拉斯噪音,获得具有噪音的数据表。优选的,一次划分单元具体步骤如下:1)将原始数据集D内的所有点标记为未访问;2)访问原始数据集D内一个标记为未访问的点u,获取到这个点距离为e之内(包括e)的所有点,个数记作p,同时更改这个点的标记为已访问;3)如果p大于或等于Minp,则将步骤2)获取的这p个点与点u聚集为一类;否则,点u暂时被标记为噪音点;4)如果原始数据集D中所有的点都被标记为已访问,则执行步骤5);否则,对未访问的点重复执行2)和3);5)如果存在一个点属于若干个类,则取这若干个类的并集,形成一个新的类;否则,继续执行步骤6);6)计算无法被聚集的噪音点与各个聚类质心的欧式距离,将噪音点归入距离它最近的类中;7)原始数据集D被划分成多个小数据集。优选的,对一次划分单元聚类结果集中的每个小数据集通过二次划分匿名单元进行处理,具体步骤如下:1)计算小数据集的质心,获取距离质心最远的点x1,再获取距离x1最远的点x2,以x1为中心,将x1以及距离x1最近的k-1个点划分为一个等价类;同理,以x2为中心也获得一个等价类;2)如果小数据集经步骤1)后仍未被划分的元组的数量大于或等于2k,则对这些未被划分的元组重复执行步骤2),直至剩余的元组数量小于2k;如果未被划分的元组的数量大于等于k且小于等于2k-1,则将这些元组划分为一个类;否则,将未被划分的元组划分到距离各自最近的等价类中;3)计算每个等价类的质心,用类质心的值替代该质心所在等价类内各条元组的值,实现一条元组隐藏于一组元组中。本专利技术的有益效果是:对密度聚类的结果通过使用MDAV方法进行二次划分,从而实现匿名过程的最优k-划分,进而大幅度降低匿名过程的信息损失。同时该方法结合微聚集技术,仍能满足分化查询函数敏感性的条件,从而降低差分隐私保护过程添加的噪音量。实现在增强隐私数据安全性的同时,保证数据的可用性。附图说明图1是本专利技术流程框图;图2为不同e下变换Minp值时DCMV机制与DCM机制的可用性评分图;图3为不同ε下变换Minp值时DCMVDP方法与DCMDP方法可用性评分图;图4为不同k值下变换数据量时DCMVDP方法与DCMDP方法可用性评分图。具体实施方式本专利技术主要提出了基于微聚集匿名的差分隐私保护方法,以下为本专利技术方法使用到的微聚集以及差分隐私保护概念。定义1微聚集:利用某种方式将原始数据集按相似程度划分成若干个等价类,并且每个等价类中的记录数至少为k个,然后用类质心替代类内各条记录。依据定义1易知,k取值越小类质心相对于类内各条记录值的偏移量越小,因此匿名化后的信息损失量就越少。如表1是一张原始数据表,标识符={name},准标识符QI={age,zipcode},敏感属性S={salary}。利用微聚集方法对表1进行处理,同时去掉标识符,得到表2,从表2中相对较难得到具体的真实信息从而避免信息的泄露。表1收入信息表表2微聚集信息表定义2差分隐私保护模型:假设随机函数G满足ε-差分隐私模型,G的取值范围为Range(G),Pr[Ia]表示事件Ia的披露风险,则对于所有有:Pr[G(D)∈S]≤eεPr[G(D1)∈S](1)定义2中,ε是隐私保护预算参数,D是原始数据集。D1是D的邻近数据集,它们至多相差一条记录。通过改变ε大小,使随机函数G作用在邻近数据集上D,D1能够最大频率地输出相同结果。因此,ε越小,引入的噪声越大,数据隐私性越高。定义3查询函数敏感度:Δf是查询函数f的敏感度,其定义如下。Δf是查询函数f的性质,与数据集D无关。设查询函数为f,数据集为D,函数f作用在D上返回查询结果为fD。通过随机函数G在fD上添加噪音来保护隐私数据。加噪形式为:一种基于微聚集匿名的差分隐私保护方法,简称DCMVDP(Density-basedclusteringmechanismandMaximumdistancetoaveragerecordwithdifferentialprivacy)方法,包括一次划分单元、二次划分匿名单元以及加噪处理单元,具体步骤如下:一次划分单元:对属性都是数值型的原始数据集D根据数据分布密度进行聚类处理,将原始数据集D划分成若干个小数据集;二次划分匿名单元:对一次划分单元的聚类结果集中的每一个小数据集进行再次划分,使小数据集变成大小在k到2k-1的小类,并用小类的质心的值代替小类中其余元组的值,从而使原始数据集D满足最优k-划分的k-匿名;加噪处理单元:为每一条匿名后的元组随机添加拉普拉斯噪音,获得本文档来自技高网
...
基于微聚集匿名的差分隐私保护方法

【技术保护点】
一种基于微聚集匿名的差分隐私保护方法,其特征在于:包括一次划分单元、二次划分匿名单元以及加噪处理单元,具体步骤如下:一次划分单元:对属性都是数值型的原始数据集D根据数据分布密度进行聚类处理,将原始数据集D划分成若干个小数据集;二次划分匿名单元:对一次划分单元的聚类结果集中的每一个小数据集进行再次划分,使小数据集变成大小在k到2k‑1的小类,并用小类的质心的值代替小类中其余元组的值,从而使原始数据集D满足最优k‑划分的k‑匿名;加噪处理单元:为每一条匿名后的元组随机添加拉普拉斯噪音,获得具有噪音的数据表。

【技术特征摘要】
1.一种基于微聚集匿名的差分隐私保护方法,其特征在于:包括一次划分单元、二次划分匿名单元以及加噪处理单元,具体步骤如下:一次划分单元:对属性都是数值型的原始数据集D根据数据分布密度进行聚类处理,将原始数据集D划分成若干个小数据集;二次划分匿名单元:对一次划分单元的聚类结果集中的每一个小数据集进行再次划分,使小数据集变成大小在k到2k-1的小类,并用小类的质心的值代替小类中其余元组的值,从而使原始数据集D满足最优k-划分的k-匿名;加噪处理单元:为每一条匿名后的元组随机添加拉普拉斯噪音,获得具有噪音的数据表。2.根据权利要求1所述的一种基于微聚集匿名的差分隐私保护方法,其特征在于:一次划分单元具体步骤如下:1)将原始数据集D内的所有点标记为未访问;2)访问原始数据集D内一个标记为未访问的点u,获取到这个点距离为e之内的所有点,个数记作p,同时更改这个点的标记为已访问;3)如果p大于或等于Minp,则将步骤2)获取的这p个点与点u聚集为一类;否则,点u暂时被标记为噪音点;4)如果原始数据集D中所有的点都被标记为已访问,则执行步骤5);否则,对未...

【专利技术属性】
技术研发人员:吴响刘伟魏裕阳毛亚青
申请(专利权)人:徐州医科大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1