区分准标识符属性的二次k‑匿名隐私保护算法制造技术

技术编号:13832078 阅读:226 留言:0更新日期:2016-10-14 11:29
本发明专利技术公开了一种区分准标识符属性的二次k‑匿名隐私保护方法,涉及数据隐私保护技术领域。本发明专利技术通过Incognito函数,形成所有单属性的层级网格进行判断泛化是否满足k‑匿名,删除不满足k‑匿名的节点,将满足k‑匿名的节点迭代,形成候选结点集,再判断候选节点是否满足k‑匿名,删除不符合条件的节点,循环上述步骤,直到所有分类型属性迭代完成,输出所有满足k‑匿名的根节点。通过根节点依次对数据表T进行泛化,利用MDAV算法对泛化后T'的进行二次泛化,将输入的等价类元组数量划分为k到2k‑1之间,当完成所有划分后,给出信息损失,比较得出损失量最小的数据表。

【技术实现步骤摘要】

本专利技术涉及数据隐私保护
,具体是一种区分准标识符属性的二次k-匿名隐私保护算法。
技术介绍
信息技术的飞速发展,越来越多的数据为人们所共享使用,如何保护发布数据中的隐私信息不被攻击者恶意获取,同时又使数据接收者充分利用数据信息进行有效的探索和科学研究,日益成为一个重要的信息安全问题。k-匿名是一种有效的隐私数据保护方法,近年来受到广泛的关注。k-anonymity技术由Samarati和Sweeney于1998年提出,它要求在发布的数据中存在一定数量(k)不可区分的个体,使攻击者不能判别出隐私信息所属个体。大量研究表明,Incognito算法能够高效地将大规模数据k-匿名化,全局重编码的k-匿名化算法会造成数值型变量的过度泛化,有较多的语义丢失。MDAV是基于划分的经典匿名聚类算法,该算法能够高效处理大规模数值型数据集的聚类问题。研究者对k-匿名的研究工作主要集中在保护隐私信息的同时最大程度保留数据的可用性。目前,大部分数据匿名化方法都存在共同的缺陷:1)较适用于分类型数据(标称型和序数型),对数值型数据泛化往往丢失较多的数值语义;2)准标识符的属性数量剧增时,会出现所谓的“维度灾难/位数陷阱”。维数陷阱将导致很大的信息损失,使得发布数据表可用性变差。
技术实现思路
为了克服上述现有技术的缺点,本专利技术提供一种区分准标识符属性的二次k-匿名隐私保护算法,大大减少了单独使用匿名者算法造成的信息损失。本专利技术是以如下技术方案实现的:一种区分准标识符属性的二次k-匿名隐私保护算法,1)判断准标识符集中属性类型;2)Sn=Incognito(T,CQI,k),Sn表示分类型属性已经进行泛化的数据集,T表示需要被泛化的数据集,CQI表示分类型准标识符集,k表示匿名约束条件;3)空队列result,空节点node;4)遍历Sn进入以下循环:数据集Dj是存放全泛化后的数据表;读取Sn中一个节点插入到node;根据node泛化数据表T得到T′;遍历T′,进入以下循环:使用T′i存储T′中第i个等价类;MDAV(T′i,NQI,k),T′表示需要被聚类的数据集,NQI表示要进行聚类的数值型属性,k表示匿名约束条件;Dj=Dj∪Ti';计算信息损失,插入到result;5)比较result中信息损失,得到信息损失最小的Dj;6)T”=Dj,返回T”。优选的,Incognito(T,CQI,k)分类型属性泛化的具体步骤如下:1)形成单属性泛化候选节点表C1和边表E1;2)使用一个空队列queue取出C1中所有根节点,对queue所有节点进行等价类计算;3)判断是否满足k-匿名,如果节点满足,则对此点以及其所有的子节点进行标记,如果不满足,则将此点从C1中删除,并把其子节点插入队列queue中;4)重复步骤3),直到把C1中所有不满足的节点删除,并是删减后的C1和E1形成新的表C2和E2;5)重复步骤2)、3)、4)直到得到删减后的Cn;6)Sn={Cn所有节点本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/CN106021541.html" title="区分准标识符属性的二次k‑匿名隐私保护算法原文来自X技术">区分准标识符属性的二次k‑匿名隐私保护算法</a>

【技术保护点】
一种区分准标识符属性的二次k‑匿名隐私保护方法,其特征在于:1)Sn=Incognito(T,CQI,k),Sn表示分类型属性已经进行泛化的数据集,T表示需要被泛化的数据集,CQI表示分类型准标识符集,k表示匿名约束条件;2)空队列result,空节点node;3)遍历Sn进入以下循环:数据集Dj是存放全泛化后的数据表;读取Sn中一个节点插入到node;根据node泛化数据表T得到T′;遍历T′,进入以下循环:使用Ti′存储T′中第i个等价类;MDAV(T′i,NQI,k),T′表示需要被聚类的数据集,NQI表示要进行聚类的数值型属性,k表示匿名约束条件;Dj=Dj∪T′i;计算信息损失,插入到result;4)比较result中信息损失,得到信息损失最小的Dj;5)T″=Dj,返回T″。

【技术特征摘要】
1.一种区分准标识符属性的二次k-匿名隐私保护方法,其特征在于:1)Sn=Incognito(T,CQI,k),Sn表示分类型属性已经进行泛化的数据集,T表示需要被泛化的数据集,CQI表示分类型准标识符集,k表示匿名约束条件;2)空队列result,空节点node;3)遍历Sn进入以下循环:数据集Dj是存放全泛化后的数据表;读取Sn中一个节点插入到node;根据node泛化数据表T得到T′;遍历T′,进入以下循环:使用Ti′存储T′中第i个等价类;MDAV(T′i,NQI,k),T′表示需要被聚类的数据集,NQI表示要进行聚类的数值型属性,k表示匿名约束条件;Dj=Dj∪T′i;计算信息损失,插入到result;4)比较result中信息损失,...

【专利技术属性】
技术研发人员:吴响王换换臧昊俞啸
申请(专利权)人:徐州医科大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1