基于二次划分的敏感属性l-diversity隐私保护方法技术

技术编号：18165959 阅读：20 留言：0更新日期：2018-06-09 11:44

本发明专利技术公开了一种基于二次划分的敏感属性l‑diversity隐私保护方法，涉及匿名隐私保护技术领域。本发明专利技术先对原始数据集进行基于密度的划分，将原始数据集划分为若干个元组相似度较高的聚簇，再对每个划分得到的聚簇使用满足敏感属性多样性的微聚集方法进行二次划分，使得每个等价类中的敏感属性满足l‑diversity机制，从而使得发布数据集能够应对各种不同场景的攻击。通过大量实验表明，相比于现有的微聚集方法，本发明专利技术提出的方法能够有效降低匿名数据集的信息损失量，同时增加发布数据集的安全性。

Privacy preserving method for sensitive attribute l-diversity based on two division

The invention discloses a sensitive attribute L - diversity privacy protection method based on two division, which relates to the field of anonymous privacy protection technology. This invention first divides the original dataset based on the density, divides the original dataset into a number of clusters with higher similarity of tuples, and then uses the micro aggregation method that meets the diversity of sensitive attributes for each partition to divide two times, making the sensitive attributes of each equivalence class satisfy the L diversity mechanism So that the published data set can cope with attacks from different scenarios. A large number of experiments show that compared with the existing micro aggregation methods, the proposed method can effectively reduce the information loss of anonymous data sets and increase the security of the published data sets.

全部详细技术资料下载

【技术实现步骤摘要】
基于二次划分的敏感属性l-diversity隐私保护方法
本专利技术涉及数据发布中的匿名隐私保护
，具体是一种基于二次划分的敏感属性l-diversity隐私保护方法。
技术介绍
网络技术的迅速发展以及数据共享范围的逐渐扩大使得数据的发布和收集变得越来越方便。随之带来的问题是:数据发布的过程中出现的隐私暴露问题，引起了社会的恐慌，阻碍了数据挖掘行业的发展,因此隐私保护越来越受到人们的关注。目前，数据集的隐私保护方法主要是基于k-匿名方法，它要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。但是随着研究的深入，学者们发现k-匿名模型仅对准标识符进行扭曲(主要包括泛化、隐匿、微聚集)操作，未对数据集中的敏感属性进行约束，致使k-匿名无法有效地应对背景知识攻击。针对这一情况，国外学者提出了l-diversity机制来保证匿名数据集敏感属性的多样性，从而降低通过背景知识攻击而造成个人隐私泄露的风险。但是l-diversity机制匿名数据集时，由于对数据，敏感属性进行了进一步的约束，故匿名后数据集相对于k匿名的数据集信息损失略大，造成数据挖掘时匿名数据集可用性低。
技术实现思路
为了克服上述现有技术的缺点，本专利技术提供一种基于二次划分的敏感属性l-diversity隐私保护方法，有效降低了数据集匿名化过程中的信息损失，并且提高了匿名数据集的安全性，增强匿名数据集的可用性。本专利技术是以如下技术方案实现的：一种基于二次划分的敏感属性l-diversity隐私保护方法，包括一次划分单元...

【技术保护点】
一种基于二次划分的敏感属性l‑diversity隐私保护方法，其特征在于：包括一次划分单元和二次划分单元，具体步骤如下：一次划分单元：根据各条记录在准标识符属性上的欧式距离，对原始数值型数据集D进行一次基于密度的划分，完成划分之后得到若干个元组相似度较高的小数据集；二次划分单元：根据各条记录在准标识符属性上的欧式距离，对一次划分单元中得到的每一个小数据集采用微聚集方法MDAV进行划分，并使每个划分的类中数据的敏感属性值满足l‑diversity模型，再用每个等价类的质心代替等价类中其余元组的值，最终得到满足l‑diversity模型的匿名数据集。

【技术特征摘要】
2017.06.01 CN 20171040477591.一种基于二次划分的敏感属性l-diversity隐私保护方法，其特征在于：包括一次划分单元和二次划分单元，具体步骤如下：一次划分单元：根据各条记录在准标识符属性上的欧式距离，对原始数值型数据集D进行一次基于密度的划分，完成划分之后得到若干个元组相似度较高的小数据集；二次划分单元：根据各条记录在准标识符属性上的欧式距离，对一次划分单元中得到的每一个小数据集采用微聚集方法MDAV进行划分，并使每个划分的类中数据的敏感属性值满足l-diversity模型，再用每个等价类的质心代替等价类中其余元组的值，最终得到满足l-diversity模型的匿名数据集。2.根据权利要求1所述的基于二次划分的敏感属性l-diversity隐私保护方法，其特征在于：一次划分单元具体步骤如下：1)访问原始数值型数据集D中的未标记节点，根据准标识符属性的值，计算该未标记节点与所有点的欧式距离，找到与该未标记节点距离小于等于e的所有点；2)如果点的个数不小于密度阈值MinPts，则将所有的点聚为一类，并将步骤1)中的未标记节点标记为visited；如果步骤1)中的未标记节点附近点的数量小于密度阈值MinPts，则该点暂时被标记为噪声点，并标记为visited；3...

【专利技术属性】
技术研发人员：吴响，赵辰阳，关健，魏裕阳，
申请(专利权)人：徐州医科大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人