一种集成概化与消隐的高维数据匿名处理方法技术

技术编号:7682578 阅读:174 留言:0更新日期:2012-08-16 05:55
本发明专利技术“一种集成概化与消隐的高维数据匿名处理方法”用于高维数据匿名处理,为信息共享过程提供安全保护。针对高维数据的高度稀疏性导致现有方法或者有很高信息损失、或是处理结果难以解释、或者有性能缺陷等问题,本发明专利技术集成概化与消隐来进行高维数据的匿名处理,提出三项创新性技术,一是自顶向下贪婪搜索法,二是最小安全威胁识别方法,三是多轮次求解策略,从而设计出一种全新的高维数据匿名处理方法,有效地降低信息损失、保证数据效用,并解决时间效率与空间可伸缩性的问题。本发明专利技术方法数据效用大大高于三个参照方法,性能也大大优于其中二个参照方法,仅次于另一个参照方法、但该参照方法的数据效用最低。本发明专利技术方法处理后的数据能够应用标准数据挖掘工具进行分析,在网络海量信息共享中有着广泛应用前景。

【技术实现步骤摘要】

本专利技术涉及信息处理与信息安全领域。本专利技术设计一种用于高维数据匿名处理的方法,为信息共享过程提供安全保护,在网络海量信息共享中有着广泛应用前景。
技术介绍
匿名处理是信息共享过程中一种重要的安全保护手段。现有匿名处理方法主要针对低维的关系型数据。然而,现实应用特别是网络应用中,有大量高维数据必须进行匿名处理后才能共享。例如,网络销售数据、网络搜索日志 、网络影视租赁记录等,如果不经匿名处理直接共享这些数据,会造成敏感信息泄露 。低维数据匿名处理的基本原则是由Samarati和Sweeney提出的k-anonymity ,要点是保证任何个人信息与k-Ι个他人不可分辨,主要采用基于伪标识的方法来实施。将这些方法简单应用于高维数据 ,会导致高信息损失 、无法应用标准数据挖掘工具、处理结果难以解释 。具体来讲,Teirovitis等将适用低维数据的k-anonymity 移植到高维数据、提出km_anonymity,要求个人信息记录中的任意m个项目也出现在至少k-Ι个他人记录中,并采用全子树概化方法来实施,其缺陷是易受异常项目影响而过度概化。Xu等采用全消隐方法来进行匿名处理,其缺陷是对于稀疏数据集会导致过多的数据项被消隐。He等采用局部概化方法,其缺陷在于破坏了数据的域互斥性,即匿名处理后数据项目的域可能相互重叠,使得数据分析结果很难解释。Ghinita等采用带宽矩阵法进行随机化匿名处理,其缺陷是处理后数据会产生不合理的分析结果。此外,现有方法 还存在计算性能差的问题。本专利技术的思路是集成概化与消隐来进行高维数据的匿名处理。通过集成使两种方法得到互补,即消隐少量异常数据项目从而避免大规模的概化操作,适度概化从而避免大量数据项目的消隐。本专利技术的集成方法有两个优点一是匿名处理后的数据能够直接采用标准的数据挖掘工具进行分析,二是从中得出的分析结果在原始数据中必定也成立。这是由于集成方法保留数据的域互斥性。然而,集成方法的解空间远远大于采用任何单一方法的解空间,其计算复杂性大大增加。因此,本专利技术提出三项创新性技术,一是自顶向下贪婪搜索法,二是最小安全威胁识别方法,三是多轮次求解策略,从而设计出一种全新的高维数据匿名处理方法,有效地降低信息损失、保证数据效用,并解决时间效率与空间可伸缩性的问题。本专利技术处理方法数据效用大大高于三个参照方法 ,性能也人大优于其中二个参照方法 ,仅次于另一个参照方法、但该参照方法的数据效用最低。本专利技术方法处理后的数据能够应用标准数据挖掘工具进行分析,在网络海量信息共享中有着广泛应用前景。参考文献 M. Atzori, F. Bonchi, F. Giannotti, D. Pedreschi. Anonymity preservingpattern discovery. VLDB Journal,2008.M. Barbaro, Τ. Zeller. A Face Is Exposed for AOL Searcher No. 4417749.New York Times,August 9,2006.E.Adar. User 4XXXXX9 Anonymizing Query Logs. Query Log AnalysisWorkshop, WWW 2007.A. Korolova,K. Kenthapadi,N. Mishra, A. Ntoulas. Releasing search queriesand clicks privately. WWW2009.A. Narayanan and V. Shmatikov. How to Break Anonymity of the NetflixPrize Dataset. ArXiv Computer Science e-prints, October 2006. P. Samarati and L.Sweeney. Generalizing data to provide anonymity whendisclosing information. P0DS1998.M. Terrovitis, N. Mamoulis, P. Kalnis. Privacy preserving Anonymizationof Set valued Data. In VLDB2008. Y. Xu, K. Wang, A. Fu, P. S. Yu. Anonymizing Transaction Databases forPublication. KDD 2008.Y. He,J. Naughton. Anonymization of set-valued data via top-down localgeneralization. VLDB2009. G. Ghini ta, Y. Tao, P. Kalni s. On the Anonymization of SparseHigh-Dimensional Data. ICDE 2008.V. Iyengar. Transforming data to satisfy privacy constraints. KDD,pages 279-288,2002.K. LeFevre, D. DeWitt, and R. Ramakrishnan. Mondrian multidimensionalk-anonymity. ICDE 2006.
技术实现思路
本专利技术目的是设计一种能够以最佳的数据效用和较高的计算性能实现高维数据匿名处理的方法,为海量网络信息共享过程提供安全保护手段。本专利技术“”包括三项核心技术A自顶向下贪婪搜索法,B最小安全威胁识别方法,C多轮次求解策略。本专利技术处理方法根据高维数据库D、项目分类树HP、匿名阀值k、能力阀值m,求出匿名处理后的高维数据库D’。本
技术实现思路
之一给定拟共享的高维数据集D = Itpt2,. . .,tn},其中&为一条含个人信息的记录,由若干出自域I = U1, I2, ... iq}的项目组成。安全攻击者有权获得共享数据并且知道特定个人的记录中包含某些项目,试图将特定个人与信息记录连接起来。任何项目的集合X简称为项目集。如果X是信息记录t的一个子集,则称t支持X。D中支持X的信息记录个数,记作sup (X, D)。一个包含不超过m个项目的集合X被称为安全威胁,如果其支持数少于k,即I X|彡m并且sup (X,D) < k,其中m是攻击者获取知识的能力阀值、k是用户指定 的匿名阀值。经过匿名处理的数据库D’符合km-anonymity ,如果D’不存在可能是安全威胁的项目集。匿名处理的概化方法根据项目分类树,用抽象项目替代具体项目。消隐方法则通过删除项目来实现匿名处理。在处理实际数据集时,单独采用其中的任一方法其信息损失都很闻。本专利技术集成概化方法与消隐方法来进行匿名处理,以保证匿名处理后能进行数据挖掘分析、降低信息损失、提高数据效用。概化的解可以定义为项目分类树Hp上的一个割集Cut,包含Hp上每条根到叶的路径上一个且仅一个项目,并可以用这些项目的集合来表达。消隐的解removal是割集的一个子集,是那些将被从所有记录中删去的项目集合本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:刘君强蒋晓宁余斌霄甘志刚
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1