当前位置: 首页 > 专利查询>中南大学专利>正文

一种多叉树森林K-匿名方法、系统、设备和可读存储介质技术方案

技术编号:25709160 阅读:31 留言:0更新日期:2020-09-23 02:55
本申请实施例公开了一种多叉树森林K‑匿名方法、系统、设备和可读存储介质,以识别率的计算为基础,解决了贪婪算法在局域泛化模式中每一步最优泛化数据选择的问题,建立多叉树森林实现了泛化数据的存储和局域泛化,以多线程的泛化数据选择和K‑匿名的并行式计算判断提升了模型的效率。即在原始数据的基础上将部分数据泛化,使匿名后的数据集满足K‑匿名模型。在保障数据安全性的条件下,不会影响数据本身的真实性。同时模型保留了数据本身的分布,提高数据匿名化后数据的可用性,适用于小型数据集和大型数据集的匿名化处理。

【技术实现步骤摘要】
一种多叉树森林K-匿名方法、系统、设备和可读存储介质
本申请实施例涉及信息安全
,具体涉及一种多叉树森林K-匿名方法、系统、设备和可读存储介质。
技术介绍
随着信息时代数据化步伐的加快以及大数据的普及应用,数据挖掘等技术带来了巨大的知识收益,使得数据的搜集被赋予了更重要的地位但由于相关法律和技术不够成熟等原因,在信息被共享应用的同时,造成了隐私泄露,这给隐私相关者带来了潜在的安全隐患。数据发布中的安全问题逐渐成为了亟待解决的问题。K-匿名算法作为较早提出的数据脱敏模型之一,对于数据的安全性保护具有很多良好的性质,但也存在不足。K匿名会产生由匿名化带来的信息损失导致数据可用性变差,同时需要耗费大量的时间用于数据变化。该类算法存在着诸多局限性,首先,选择某一属性进行一次泛化后如不满足K-匿名,就有可能造成该属性的过度泛化,从而造成数据集的信息损失。其次,全域泛化一般很难满足匿名后数据的可用性要求。此外,无法准确地度量在每次泛化中是否达到了最好的匿名效果,从而整体提升算法的效率。
技术实现思路
此,本申请实施例提供本文档来自技高网...

【技术保护点】
1.一种多叉树森林K-匿名方法,其特征在于,所述方法包括:/n步骤A:判断原始数据集D是否需要分割为n个子数据集;若需要,转入步骤B;若不需要,转入步骤C;/n步骤B:将所述原始数据集D按照分割参数分割为n个子数据集D’={d1,d2,d3,...,dn},建立n个线程并行式分别计算n个子数据集,转入步骤C;/n步骤C:拷贝目标数据集,对目标数据集进行K-匿名检测;若目标数据集满足K匿名,则将目标数据集添加到匿名数据集中,并输出匿名数据集;若不满足,则检查目标数据集存在的数据条数,若数据条数大于K则转入步骤D,若数据条数小于K,则将剩余的数据泛化为最高层级并添加到匿名数据集,检测匿名数据集是否...

【技术特征摘要】
1.一种多叉树森林K-匿名方法,其特征在于,所述方法包括:
步骤A:判断原始数据集D是否需要分割为n个子数据集;若需要,转入步骤B;若不需要,转入步骤C;
步骤B:将所述原始数据集D按照分割参数分割为n个子数据集D’={d1,d2,d3,...,dn},建立n个线程并行式分别计算n个子数据集,转入步骤C;
步骤C:拷贝目标数据集,对目标数据集进行K-匿名检测;若目标数据集满足K匿名,则将目标数据集添加到匿名数据集中,并输出匿名数据集;若不满足,则检查目标数据集存在的数据条数,若数据条数大于K则转入步骤D,若数据条数小于K,则将剩余的数据泛化为最高层级并添加到匿名数据集,检测匿名数据集是否满足K-匿名,若满足则输出匿名数据集,若不满足,则不进行本次添加;
步骤D:提取出目标数据集所有计数大于K的等价类,将其存入匿名数据集,目标数据集数量等于1的转入步骤E,目标数据集数量大于1的转入步骤F;
步骤E:选择n-1个属性组成n种组合等价类,生成等价类集G={g1,g2,g3,......,gn},其中属性集的长度为n;计算出G中各等价类组存在的等价类数量,并取等价类数据条数计数值最大的子集在属性集中的补集进行泛化,泛化后转入步骤C进行K-匿名检测;
步骤F:采用m个线程计算不同等价类数量,选择m-1个属性组成m种组合的子集,生成等价类集G={g1,g2,g3,......,gm},其中属性集的长度为m;计算出G中各等价类组存在的等价类数量,并取等价类数据条数计数值最大的子集在属性集中的补集进行泛化,泛化后转入步骤C进行K-匿名检测;
步骤G:当所有数据集的结果输出后,输出汇总所有数据集的匿名数据集和泛化精确度。


2.如权利要求1所述的方法,其特征在于,所述泛化的属性值为所有等价类在各自对应的数据项中不包含属性的属性值。


3.如权利要求1所述的方法,其特征在于,在步骤E和步骤F中,若在泛化过程中等价类数据条数计数值相同、元组中等价类的数量小于K或者不存在等价类,则选择属性值类型计数值最大的属性进行泛化,直至满足K-匿名为止。


4.一种多叉树森林K-匿名系统,其特征在于,所述系统包括:
数据集属性判断模块,用于判断原始数据集D是否需要分割为n个子数据集;若需要,转入数据集分割模块;若不需要,转入匿名检测模块;
数据集分割模块,用于将所述原始数据集D按照分割参数分割为n个子数据集D’={d...

【专利技术属性】
技术研发人员:罗霄陈先来刘莉安莹李忠民
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1