基于微聚集匿名的差分隐私保护方法技术

技术编号：16587728 阅读：68 留言：0更新日期：2017-11-18 15:23

本发明专利技术公开了一种基于微聚集匿名的差分隐私保护方法，涉及数据匿名和差分隐私保护技术领域。本发明专利技术通过DBSCAN聚类函数对原始数据集按照密度不同划分成类，并将异常点以及噪音点归入距离它最近的类中；利用MDAV函数对聚集的类进行再次划分并匿名，将等价类记录数量控制在k到2k‑1之间；最后利用差分隐私保护技术，为每一条数据记录添加拉普拉斯噪音。实验表明，与现有方法相比，在保证隐私数据安全的前提下，DCMVDP方法的信息损失量更小，具有更高的数据可用性。

Differential privacy preserving method based on micro aggregation anonymity

The invention discloses a differential privacy protection method based on micro aggregation anonymity, which relates to the technical field of data anonymity and differential privacy protection. The invention uses DBSCAN clustering function of the original data set is divided into different classes according to the density, and the abnormal points and noise points in the nearest class; on the aggregation of class divided again and anonymously by using MDAV function, will record the number of equivalence classes is k to 2K 1; finally by difference privacy protection technology, add Laplasse noise for each data record. Experiments show that, compared with the existing methods, under the premise of ensuring privacy data security, the information loss of DCMVDP method is smaller, and it has higher data availability.

全部详细技术资料下载

【技术实现步骤摘要】
基于微聚集匿名的差分隐私保护方法
本专利技术涉及数据匿名和差分隐私保护
，具体是基于微聚集匿名的差分隐私保护方法。
技术介绍
随着信息技术的快速发展，信息量呈指数型增长。通过数据挖掘对这些信息进行挖掘和分析，能够获得众多有用的知识。然而，随着数据挖掘技术在知识发现领域的广泛应用，隐私泄露问题也日益凸显，因此如何在数据挖掘的过程中保证数据的隐私安全性成为亟待解决的问题。目前，隐私保护技术可大体分为三类：(1)限制发布；(2)数据失真；(3)数据加密。而在现有的方法中，为了提高隐私保护的效果，往往结合了多种隐私保护技术。其中，k-匿名作为数据失真的常用技术，通过保证发布数据集中任何一条数据记录至少有k-1条与其不可区分的记录对原始数据进行匿名，实现单条记录隐藏到一组数据中，因此能够分化数据的敏感性。但是，k-匿名模型具有很大的缺陷，容易遭到各种复杂的背景知识及联合攻击。随着背景知识的不断扩大和计算能力的不断提高，通过该方法保护的数据遭到背景攻击和泄露的风险日益加大。针对上述问题，Dwork等人提出了差分隐私保护技术。该技术定义了一个极为严格的攻击模型，并用严谨的...
基于微聚集匿名的差分隐私保护方法

【技术保护点】
一种基于微聚集匿名的差分隐私保护方法，其特征在于：包括一次划分单元、二次划分匿名单元以及加噪处理单元，具体步骤如下：一次划分单元：对属性都是数值型的原始数据集D根据数据分布密度进行聚类处理，将原始数据集D划分成若干个小数据集；二次划分匿名单元：对一次划分单元的聚类结果集中的每一个小数据集进行再次划分，使小数据集变成大小在k到2k‑1的小类，并用小类的质心的值代替小类中其余元组的值，从而使原始数据集D满足最优k‑划分的k‑匿名；加噪处理单元：为每一条匿名后的元组随机添加拉普拉斯噪音，获得具有噪音的数据表。

【技术特征摘要】
1.一种基于微聚集匿名的差分隐私保护方法，其特征在于：包括一次划分单元、二次划分匿名单元以及加噪处理单元，具体步骤如下：一次划分单元：对属性都是数值型的原始数据集D根据数据分布密度进行聚类处理，将原始数据集D划分成若干个小数据集；二次划分匿名单元：对一次划分单元的聚类结果集中的每一个小数据集进行再次划分，使小数据集变成大小在k到2k-1的小类，并用小类的质心的值代替小类中其余元组的值，从而使原始数据集D满足最优k-划分的k-匿名；加噪处理单元：为每一条匿名后的元组随机添加拉普拉斯噪音，获得具有噪音的数据表。2.根据权利要求1所述的一种基于微聚集匿名的差分隐私保护方法，其特征在于：一次划分单元具体步骤如下：1)将原始数据集D内的所有点标记为未访问；2)访问原始数据集D内一个标记为未访问的点u，获取到这个点距离为e之内的所有点，个数记作p，同时更改这个点的标记为已访问；3)如果p大于或等于Minp，则将步骤2)获取的这p个点与点u聚集为一类；否则，点u暂时被标记为噪音点；4)如果原始数据集D中所有的点都被标记为已访问，则执行步骤5)；否则，对未...

【专利技术属性】
技术研发人员：吴响，刘伟，魏裕阳，毛亚青，
申请(专利权)人：徐州医科大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人