基于二次划分的敏感属性l-diversity隐私保护方法技术

技术编号:18165959 阅读:20 留言:0更新日期:2018-06-09 11:44
本发明专利技术公开了一种基于二次划分的敏感属性l‑diversity隐私保护方法,涉及匿名隐私保护技术领域。本发明专利技术先对原始数据集进行基于密度的划分,将原始数据集划分为若干个元组相似度较高的聚簇,再对每个划分得到的聚簇使用满足敏感属性多样性的微聚集方法进行二次划分,使得每个等价类中的敏感属性满足l‑diversity机制,从而使得发布数据集能够应对各种不同场景的攻击。通过大量实验表明,相比于现有的微聚集方法,本发明专利技术提出的方法能够有效降低匿名数据集的信息损失量,同时增加发布数据集的安全性。

Privacy preserving method for sensitive attribute l-diversity based on two division

The invention discloses a sensitive attribute L - diversity privacy protection method based on two division, which relates to the field of anonymous privacy protection technology. This invention first divides the original dataset based on the density, divides the original dataset into a number of clusters with higher similarity of tuples, and then uses the micro aggregation method that meets the diversity of sensitive attributes for each partition to divide two times, making the sensitive attributes of each equivalence class satisfy the L diversity mechanism So that the published data set can cope with attacks from different scenarios. A large number of experiments show that compared with the existing micro aggregation methods, the proposed method can effectively reduce the information loss of anonymous data sets and increase the security of the published data sets.

【技术实现步骤摘要】
基于二次划分的敏感属性l-diversity隐私保护方法
本专利技术涉及数据发布中的匿名隐私保护
,具体是一种基于二次划分的敏感属性l-diversity隐私保护方法。
技术介绍
网络技术的迅速发展以及数据共享范围的逐渐扩大使得数据的发布和收集变得越来越方便。随之带来的问题是:数据发布的过程中出现的隐私暴露问题,引起了社会的恐慌,阻碍了数据挖掘行业的发展,因此隐私保护越来越受到人们的关注。目前,数据集的隐私保护方法主要是基于k-匿名方法,它要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。但是随着研究的深入,学者们发现k-匿名模型仅对准标识符进行扭曲(主要包括泛化、隐匿、微聚集)操作,未对数据集中的敏感属性进行约束,致使k-匿名无法有效地应对背景知识攻击。针对这一情况,国外学者提出了l-diversity机制来保证匿名数据集敏感属性的多样性,从而降低通过背景知识攻击而造成个人隐私泄露的风险。但是l-diversity机制匿名数据集时,由于对数据,敏感属性进行了进一步的约束,故匿名后数据集相对于k匿名的数据集信息损失略大,造成数据挖掘时匿名数据集可用性低。
技术实现思路
为了克服上述现有技术的缺点,本专利技术提供一种基于二次划分的敏感属性l-diversity隐私保护方法,有效降低了数据集匿名化过程中的信息损失,并且提高了匿名数据集的安全性,增强匿名数据集的可用性。本专利技术是以如下技术方案实现的:一种基于二次划分的敏感属性l-diversity隐私保护方法,包括一次划分单元和二次划分单元,具体步骤如下:一次划分单元:根据各条记录在准标识符属性上的欧式距离,对原始数值型数据集D进行一次基于密度的划分,完成划分之后得到若干个元组相似度较高的小数据集;二次划分单元:根据各条记录在准标识符属性上的欧式距离,对一次划分单元中得到的每一个小数据集采用微聚集方法MDAV进行划分,并使每个划分的类中数据的敏感属性值满足l-diversity模型,再用每个等价类的质心代替等价类中其余元组的值,最终得到满足l-diversity模型的匿名数据集。优选的,一次划分单元具体步骤如下:1)访问原始数值型数据集D中的未标记节点,根据准标识符属性的值,计算该未标记节点与所有点的欧式距离,找到与该未标记节点距离小于等于e的所有点;2)如果点的个数不小于密度阈值MinPts,则将所有的点聚为一类,并将步骤1)中的未标记节点标记为visited;如果步骤1)中的未标记节点附近点的数量小于密度阈值MinPts,则该点暂时被标记为噪声点,并标记为visited;3)重复步骤1)和2)直到原始数值型数据集D中所有点均被标记为visited;4)计算噪声点与所有聚类中心的距离,将噪声点归入它最近的聚类中,此时原始数值型数据集D被划分为若干个小数据集。优选的,将经过一次划分单元处理后的每个小数据集执行以下步骤;1)将敏感属性值相同的数据归为一组,得到分组数据集TG;2)判断分组数据集TG的组数是否大于l,如果组数不大于l,则计算该分组数据集TG的质点x,并跳转到步骤7);如果组数大于l则继续执行步骤3)、4)、5);3)寻找该数据集的质心x,找到距x最远的记录r,再找到距离r最远的记录s;4)以r为中心,从每个分组中选择1条距离r最近的数据形成等价类,使得等价类中元组数量为l,并从数据集中取出;以s为中心,从每个分组中选择1条距离r最近的数据形成等价类,使得等价类中元组数量为l,并从数据集中取出;5)判断分组数据集TG剩余元组数量,若剩余元组数大于等于2l,则循环执行2)、3)、4)步;若剩余记录数在l到2l-1之间,则这些记录自成一类;若剩余记录数小于l,则将他们归入离各自最近的等价类中;6)使用每个类质心的准标识符属性值代替数据集中其余元组的准标识符属性值,得到满足敏感属性l-diversity模型的匿名数据集。本专利技术的有益效果是:采用基于密度划分的方法对数据进行一次划分,使得聚集的元组簇内相似度较高,从而降低匿名数据集的信息损失量;再对已聚类的簇进行满足l-diversity模型的二次划分并匿名,使等价类中出现频率最高的敏感属性值的出现频率不大于1/l,故攻击者至多有1/l的概率获取个体敏感信息,从而避免的背景知识攻击,增加了发布数据集的安全性。附图说明图1是本专利技术流程框图:图2为普通微聚集方法聚类效果示意图;图3为DBTP-l-MDAV方法的聚类效果示意图;图4a为Adult数据集不同l值时l-MDAV方法与DBTP-l-MDAV方法信息损失量对比图;图4b为AirQuality数据集不同l值时l-MDAV方法与DBTP-l-MDAV方法信息损失量对比图;图5a为Adult数据集不同数据量时l-MDAV方法与DBTP-l-MDAV方法信息损失量对比图;图5b为AirQuality数据集不同数据量时l-MDAV方法与DBTP-l-MDAV方法信息损失量对比图。具体实施方式本专利技术提出了一种基于二次划分的敏感属性l-diversity隐私保护方法,以下为本专利技术方法使用到的概念。1.基于密度的划分密度划分就是把一个数据集按照密度分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,不同簇中的数据对象的差异性也尽可能地大。其主要思想是:只要邻域中的密度大于某个给定的阈值,就继续进行聚类。本专利技术针对数据集处理采用基于密度的聚类方法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。定义1邻域半径e:给定某数据集,选取其中一条记录记为样本点P,则以P为中心,半径为e内的区域称为P点的邻域,e为邻域半径;定义2核心对象:给定一对象为样本点P,如果点P的e邻域内的样本点数大于等于MinPts,则称点P为核心对象;2.k-匿名概念在k-匿名模型中,数据集中的属性主要分为三种:标识符、准标识符和敏感属性。标识符:能唯一标识单一个体的属性,如身份证号码、姓名等。通常,在发布数据时,这样的属性是需要去掉的。准标识符:数据表中若干个属性的组合,这些属性组合同外部数据表进行连接能够重新鉴别用户隐私信息。如邮编、生日、性别等联合起来则可能是准标识符。敏感属性:包含隐私数据的属性,如疾病、薪资等。定义3k-匿名模型:通过对原始数据及的泛化或抑制,使得发布的数据集中每条元组至少具有k-1条不可区分的元组。其中,这k条元组组成的簇成为等价类。例如:表1和表2为原数据集及其k-匿名数据集的转换示意图,其中年龄和性别属性已被泛化,并且表中最后一条数据被抑制。由表2可以看出处理后的数据集满足3-匿名。表1表23.k-匿名攻击k-匿名隐私保护模型的提出避免了匿名数据集被链接攻击,对隐私数据的保护起到了有效的防护作用,但是对于敏感属性没有采取有效的防护手段,仍然存在着隐私泄露的风险,针对敏感属性常见的攻击有同质性攻击和背景知识攻击,以下为这两种攻击方式的介绍:1.同质性攻击同质性攻击是指经k-匿名化处理后发布的数据集中,某个等价类所包含元组的敏感属性值都相同的情况下所发生的攻击行为。例如Tom知道同事Jack医疗记录在表2中,它本文档来自技高网...
基于二次划分的敏感属性l-diversity隐私保护方法

【技术保护点】
一种基于二次划分的敏感属性l‑diversity隐私保护方法,其特征在于:包括一次划分单元和二次划分单元,具体步骤如下:一次划分单元:根据各条记录在准标识符属性上的欧式距离,对原始数值型数据集D进行一次基于密度的划分,完成划分之后得到若干个元组相似度较高的小数据集;二次划分单元:根据各条记录在准标识符属性上的欧式距离,对一次划分单元中得到的每一个小数据集采用微聚集方法MDAV进行划分,并使每个划分的类中数据的敏感属性值满足l‑diversity模型,再用每个等价类的质心代替等价类中其余元组的值,最终得到满足l‑diversity模型的匿名数据集。

【技术特征摘要】
2017.06.01 CN 20171040477591.一种基于二次划分的敏感属性l-diversity隐私保护方法,其特征在于:包括一次划分单元和二次划分单元,具体步骤如下:一次划分单元:根据各条记录在准标识符属性上的欧式距离,对原始数值型数据集D进行一次基于密度的划分,完成划分之后得到若干个元组相似度较高的小数据集;二次划分单元:根据各条记录在准标识符属性上的欧式距离,对一次划分单元中得到的每一个小数据集采用微聚集方法MDAV进行划分,并使每个划分的类中数据的敏感属性值满足l-diversity模型,再用每个等价类的质心代替等价类中其余元组的值,最终得到满足l-diversity模型的匿名数据集。2.根据权利要求1所述的基于二次划分的敏感属性l-diversity隐私保护方法,其特征在于:一次划分单元具体步骤如下:1)访问原始数值型数据集D中的未标记节点,根据准标识符属性的值,计算该未标记节点与所有点的欧式距离,找到与该未标记节点距离小于等于e的所有点;2)如果点的个数不小于密度阈值MinPts,则将所有的点聚为一类,并将步骤1)中的未标记节点标记为visited;如果步骤1)中的未标记节点附近点的数量小于密度阈值MinPts,则该点暂时被标记为噪声点,并标记为visited;3...

【专利技术属性】
技术研发人员:吴响赵辰阳关健魏裕阳
申请(专利权)人:徐州医科大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1