The invention discloses a differential privacy protection method based on micro aggregation anonymity, which relates to the technical field of data anonymity and differential privacy protection. The invention uses DBSCAN clustering function of the original data set is divided into different classes according to the density, and the abnormal points and noise points in the nearest class; on the aggregation of class divided again and anonymously by using MDAV function, will record the number of equivalence classes is k to 2K 1; finally by difference privacy protection technology, add Laplasse noise for each data record. Experiments show that, compared with the existing methods, under the premise of ensuring privacy data security, the information loss of DCMVDP method is smaller, and it has higher data availability.
【技术实现步骤摘要】
基于微聚集匿名的差分隐私保护方法
本专利技术涉及数据匿名和差分隐私保护
,具体是基于微聚集匿名的差分隐私保护方法。
技术介绍
随着信息技术的快速发展,信息量呈指数型增长。通过数据挖掘对这些信息进行挖掘和分析,能够获得众多有用的知识。然而,随着数据挖掘技术在知识发现领域的广泛应用,隐私泄露问题也日益凸显,因此如何在数据挖掘的过程中保证数据的隐私安全性成为亟待解决的问题。目前,隐私保护技术可大体分为三类:(1)限制发布;(2)数据失真;(3)数据加密。而在现有的方法中,为了提高隐私保护的效果,往往结合了多种隐私保护技术。其中,k-匿名作为数据失真的常用技术,通过保证发布数据集中任何一条数据记录至少有k-1条与其不可区分的记录对原始数据进行匿名,实现单条记录隐藏到一组数据中,因此能够分化数据的敏感性。但是,k-匿名模型具有很大的缺陷,容易遭到各种复杂的背景知识及联合攻击。随着背景知识的不断扩大和计算能力的不断提高,通过该方法保护的数据遭到背景攻击和泄露的风险日益加大。针对上述问题,Dwork等人提出了差分隐私保护技术。该技术定义了一个极为严格的攻击模型,并用严谨的数学公式证明了其隐私泄露的风险。但是差分隐私保护技术往往会向原始数据中添加过量噪音,从而导致数据的可用性较差。鉴于以上问题,国内外研究学者将k-匿名与差分隐私保护方法结合起来,以此保证数据高隐私性与高可用性,目前有:采用k领域数据记录均值替换的方法实现数据隐藏、IDPk-means聚类方法以及DCMDP方法。但是这些方法都有不足之处:k领域数据记录均值替换的方法和IDPk-means聚类方法仅考虑 ...
【技术保护点】
一种基于微聚集匿名的差分隐私保护方法,其特征在于:包括一次划分单元、二次划分匿名单元以及加噪处理单元,具体步骤如下:一次划分单元:对属性都是数值型的原始数据集D根据数据分布密度进行聚类处理,将原始数据集D划分成若干个小数据集;二次划分匿名单元:对一次划分单元的聚类结果集中的每一个小数据集进行再次划分,使小数据集变成大小在k到2k‑1的小类,并用小类的质心的值代替小类中其余元组的值,从而使原始数据集D满足最优k‑划分的k‑匿名;加噪处理单元:为每一条匿名后的元组随机添加拉普拉斯噪音,获得具有噪音的数据表。
【技术特征摘要】
1.一种基于微聚集匿名的差分隐私保护方法,其特征在于:包括一次划分单元、二次划分匿名单元以及加噪处理单元,具体步骤如下:一次划分单元:对属性都是数值型的原始数据集D根据数据分布密度进行聚类处理,将原始数据集D划分成若干个小数据集;二次划分匿名单元:对一次划分单元的聚类结果集中的每一个小数据集进行再次划分,使小数据集变成大小在k到2k-1的小类,并用小类的质心的值代替小类中其余元组的值,从而使原始数据集D满足最优k-划分的k-匿名;加噪处理单元:为每一条匿名后的元组随机添加拉普拉斯噪音,获得具有噪音的数据表。2.根据权利要求1所述的一种基于微聚集匿名的差分隐私保护方法,其特征在于:一次划分单元具体步骤如下:1)将原始数据集D内的所有点标记为未访问;2)访问原始数据集D内一个标记为未访问的点u,获取到这个点距离为e之内的所有点,个数记作p,同时更改这个点的标记为已访问;3)如果p大于或等于Minp,则将步骤2)获取的这p个点与点u聚集为一类;否则,点u暂时被标记为噪音点;4)如果原始数据集D中所有的点都被标记为已访问,则执行步骤5);否则,对未...
【专利技术属性】
技术研发人员:吴响,刘伟,魏裕阳,毛亚青,
申请(专利权)人:徐州医科大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。