通过部分删除某些项目达到对集合型数据匿名化的系统技术方案

技术编号:8190984 阅读:225 留言:0更新日期:2013-01-10 01:52
本发明专利技术提供通过部分删除某些项目达到对集合型数据匿名化的系统,其首先对集合型数据集进行预处理;其次利用多轮迭代方法对数据集中危险敏感的强关联规则进行消去并保证删除掉的项目尽量少。具体迭代的实施过程为:不断从数据集中筛选出敏感的强关联规则;从数据集中部分删除该规则中某些项目,以使得该危险敏感的强关联规则变为安全敏感的弱关联规则或不再存在于数据集中,直到最终数据集中不再存在危险敏感的强关联规则即可跳出该迭代过程。系统为了能让该匿名化处理过程以更快的速度进行,该系统结合了分而治之的思想,使得匿名化过程可以通过多个线程并发的执行,在保证不剧烈增加删除项目数目的前提下,匿名化处理过程效率大大提升。

【技术实现步骤摘要】

本专利技术涉及计算机
的系统框架,具体是通过部分删除某些项目达到对集合型数据匿名化的系统
技术介绍
随着计算机技术的飞快发展和迅速普及,海量的数字信息正在悄无声息地繁殖。无论是政府组织、社会机构,还是公司団体、个人都在不经意间制造并收集着丰富的数据信息。与此同时纷繁的数字信息也给数据分析师和相关科研人员带来了新的契机和挑战。科学家和工程师们通过利用数字信息进行各类统计分析、知识挖掘等活动,形成总结式的认识和规则,引导今后的相关活动和决定、并可做出相关预测,最終加速技术进步、提高人们的生活品质。然而数字信息的传递与流通过程中,必须要慎重考虑安全与隐私问题。集合型数据作为ー类颇具价值的数据源,广泛存在于我们的日常生活中,例如超市/网购购物 清単、提交搜索引擎搜索关键字等等。但原始集合型数据中存在数据属主的大量隐私信息,如何匿名化集合型数据以实现对数据属主隐私的保护,同时保证匿名化后数据的有效性,成为近些年来研究的热门课题。目前,过去的研究成果中对集合型数据的匿名化方法多集中使用全局删除和全局泛化方法° Y. Xu (#JAL Y. Xu, K. Wang, A. ff. -C. Fu, and P. S. Yu. Anonymizing transactiondatabases for publication KDD 2008)很早就研究了集合型数据匿名化问题,通过使用全局删除非隐私条目的方法保护数据属主的隐私;而J.Cao (參见J. Cao,P. Karras,C.Raissij and K. -L Tan. P -uncertainty: inference-proof transaction anonymizationVLDB 2010)同时使用了全局删除和全局泛化方法消去数据集中所有危险敏感的强关联规贝U。但由于全局删除方法使用大量剧烈删除操作,造成信息失真严重;而全局泛化方法不但改变了数据本身的模样,并且使用了并不被数据使用者公认的泛化分类结构。
技术实现思路
本专利技术针对现有技术中存在的上述不足,提供了一种通过部分删除某些项目达到对集合型数据进行匿名化的算法,及一整套基于该算法实现的集合型数据匿名化系统框架。在保证尽可能少地删除条目的前提下,确保消去集合型数据中所有的危险敏感的强关联规则。根据本专利技术的ー个方面,提供一种通过部分删除某些项目达到对集合型数据进行匿名化的系统,包括数据集预处理模块、起到加速匿名化的分治模块、危险敏感的强关联规则筛选模块及通过部分删除方法实现的关联规则消去模块,还包括检测危险敏感的强关联规则存在与否模块和最終結果整合模块,其中-数据集预处理模块,用于对原始集合型数据集进行前期处理,包括对数据集的信息统计,对项目的标识符进行正向哈希映射,对记录的排序及对记录的预删除处理;-危险敏感的强关联规则筛选模块,用于从数据集中筛选出危险敏感的强关联规则;-关联规则消去模块,用于对危险敏感的强关联规则筛选模块筛选出的敏感的强关联规则,利用部分删除策略使得危险敏感的强关联规则变为安全敏感的弱关联规则或不再存在于数据集中;-检测危险敏感的强关联规则存在与否模块,用于检查数据集中是否仍然存在危险敏感的强关联规则;-最終結果整合模块,用于将各个子数据集匿名化的结果进行整合,对项目的标识符进行反向哈希映射,并对整合后结果进行信息统计。优选地,所述数据集预处理模块对数据集进行信息统计,通过哈希映射对项目的标识符进行简化,再对记录进行排序和可配置的预删除处理,所得预处理结果传递给分治模块或危险敏感的强关联规则筛选模块进行下一歩操作。 优选地,还包括分治模块,其中,分治模块用于对数据集进行近似平均的划分,划分成大小近似的若干子数据集,并对各子数据集进行単独匿名化处理。优选地,所述危险敏感的强关联规则筛选模块通过使用固定大小的缓冲区存储遍历数据集过程中产生出的固定数目的关联规则。优选地,所述危险敏感的强关联规则筛选模块包括以下装置第一处理模块,用于遍历数据集中每ー个记录,根据当前记录产生存在于该记录中的关联规则,将该关联规则存储于所述固定大小的缓冲区中,更新记录对应关联规则强弱信息的数据结构;第二处理模块,用于当缓冲区被填满时,不再往缓冲区増加新的关联规则而只是更新记录缓冲区中关联规则强弱信息的数据结构;第三处理模块,用于当遍历到长度超过ー个固定阈值的记录时,则不再通过第一处理模块和第二处理模块产生关联规则和更新记录关联规则的強弱信息的数据结构,而是通过对整个数据集中包含关联规则中具体项目的记录编号集合直接做交集运算以确定关联规则的強弱;第四处理模块,用于从缓冲区中筛选出所有危险敏感的强关联规则供关联规则消去模块作下一歩处理。优选地,所述关联规则消去模块对危险敏感的强关联规则进行消去。优选地,所述关联规则消去模块包括以下装置第五处理模块,用于从缓冲区中挑选某ー危险敏感的强关联规则进行消去,确定消去该规则应从哪些记录中删除具体的哪个项目;第六处理模块,用于在通过所述第五处理模块选定的记录中删除选定的项目后,更新记录缓冲区中关联规则强弱信息的数据结构;第七处理模块,用于当缓冲区中不再存在危险敏感的强关联规则,则进入检测危险敏感的强关联规则存在与否模块;否则回到所述第五处理模块重复操作。优选地,所述检测危险敏感的强关联规则存在与否模块扫描数据集确定是否仍有危险敏感的强关联规则存在,若存在则回到敏感的强关联规则筛选模块重复新的迭代的过程;否则进入结果整合模块。优选地,所述最終結果整合模块将各个子数据集匿名化的结果进行整合。优选地,分治模块的运行前提是保证不剧烈増加删除项目数目。本专利技术工作时,先对原始数据集进行信息统计,通过哈希映射对项目的标识符进行简化,再对记录进行排序和预删除处理(可选),所得预处理结果传递给分治模块或危险敏感的强关联规则筛选模块进行下一歩操作。分治模块得到预处理的数据集后,进行近似平均的划分,划分成大小近似的若干子数据集,并对各子数据集单独进行随后的匿名化处理。危险敏感的强关联规则筛选模块通过使用固定大小的缓冲区存储遍历数据集过程中产生出的固定数目的关联规则,具体地,其通过子模块(第一处理模块、第二处理模块、第三处理模块、第四处理模块)实现的筛选功能如下遍历数据集中每ー个记录,根据当前记录产生存在于该记录中的关联规则,将该关联规则存储于如上描述的大小固定的缓冲区中,更新记录对应关联规则强弱等信息的数据结构;当缓冲区被填满时,不再往缓冲区増加新的关联规则而只是更新记录缓冲区中关联规则强弱等信息的数据结构;当遍历到长度超过ー 个固定阈值(算法的ー个输入參数)的记录时,通过对整个数据集中包含关联规则中具体项目的记录编号集合直接做交集运算以确定关联规则的強弱;从缓冲区中筛选出所有危险敏感的强关联规则供关联规则消去模块作下一歩处理。关联规则消去模块对危险敏感的强关联规则进行消去,具体地,其通过子模块(第五处理模块、第六处理模块、第七处理模块)实现的消去功能如下从缓冲区中挑选某ー危险敏感的强关联规则进行消去,确定消去该规则应从哪些记录中删除具体的哪个项目;在从选定的记录中删除选定的项目后,更新记录缓冲区中关联规则强弱等信息的数据结构;若缓冲区中不再存在危险敏感的强关联规则,则进入检测本文档来自技高网
...

【技术保护点】
一种通过部分删除某些项目达到对集合型数据匿名化的系统,其特征在于,包括数据集预处理模块、起到加速匿名化的分治模块、危险敏感的强关联规则筛选模块及通过部分删除方法实现的关联规则消去模块,还包括检测危险敏感的强关联规则存在与否模块和最终结果整合模块,其中:?数据集预处理模块,用于对原始集合型数据集进行前期处理,包括对数据集的信息统计,对项目的标识符进行正向哈希映射,对记录的排序及对记录的预删除处理;?危险敏感的强关联规则筛选模块,用于从数据集中筛选出危险敏感的强关联规则;?关联规则消去模块,用于对危险敏感的强关联规则筛选模块筛选出的敏感的强关联规则,利用部分删除策略使得危险敏感的强关联规则变为安全敏感的弱关联规则或不再存在于数据集中;?检测危险敏感的强关联规则存在与否模块,用于检查数据集中是否仍然存在危险敏感的强关联规则;?最终结果整合模块,用于将各个子数据集匿名化的结果进行整合,对项目的标识符进行反向哈希映射,并对整合后结果进行信息统计。

【技术特征摘要】

【专利技术属性】
技术研发人员:朱其立许信辉贾枭潘超
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1