一种用于关联规则隐藏的事务增减方法技术

技术编号:3774954 阅读:196 留言:0更新日期:2012-04-11 18:40
一种用于关联规则隐藏的事务增减法,属于数据挖掘和知识隐藏领域。主要是基于事务对挖掘规则的贡献程度,将添加弱相关事务和移除强相关事务的过程结合起来的方法。本发明专利技术不需要增减项目,只需要修改一个项目,同时给出调整因子以更新不同大小的事务数来分析不同的隐藏效果。采用本发明专利技术的方法开展单一规则隐藏、多规则隐藏和抗支持度攻击实验,结果表明,只要调整因子达到0.05,即能够保持隐藏率达到100%;在副作用方面,本发明专利技术的规则丢失率和规则新增率都小于15%;本发明专利技术能够抵抗大范围的支持度攻击,且当调整因子达0.07以上时,隐藏率就能够保持在100%。本发明专利技术对数据库事务修改量小,适用于对多规则的任意组合隐藏,而且在隐藏效果、稳健性和实用性都有很强的优势。

【技术实现步骤摘要】

本专利技术涉及一种关联规则隐藏方法,属于数据挖掘和知识隐藏领域。
技术介绍
关联规则提取是数据挖掘技术的重要方式之一 ,可以从大量的数据中发现 用户感兴趣的知识。随着网络信息共享发布的不断需求,使用者希望能够通过 对这些数据进行深层次分析,从而为企业竟争提供重要参考。但另一方面,信 息安全问题也日益暴露。在一些商业、医疗和保险等众多领域,人们并不希望 自己的私有信息被他人了解。因此,如何能够在不泄露敏感信息的前提下进行 数据共享、并为用户最终挖掘出有用的信息,这成为了数据挖掘研究中的关键 问题。关联规则是描述数据库中数据项之间存在的潜在关系。假设项目集合为/y《,…,U (/z 为项目数),"为包含一系列事务f的数据库,且有"Afs/。 关联夹见则表示为z-r,其中,尤c/,;rc/且xn:r=0。 则该规则义=>7在数据库种拥有置信度c,表示为同时,认为规则z-;r拥有支持度^v),表示为柳=i^Ilxioo a附滴p (2)式中,肌'/2C朋和肌'/^w/^别表示最小置信度和最小支持度,#为绅的事 务数。显然,为了隐藏挖掘出的规则,在保持肌'/ C朋和边//7^/>不变的前提下, 就必须设法降低C或s(AO,使式(1)和(2)不能同时成立,从而达到隐藏的目 的。有两种思路, 一是设法将后件/減少,比如由非零改为零。二是增加J,使 原为零值的/变为非零。因此,根据蕴涵式推理可知,思路一是降低了IXu", 使c和s(^都得以减少;思路二是增加了 I",使c得以降低,而对s(^没有影响。 这样,都达到了减少"屑或c^目的。目前,关联规则的隐藏方法主要有以下四类(1) 未知项替换法使用未知数?替换有用数,这种算法效果比较明显,而 且实现简单。但是,该算法只能是针对少量项目值,对多数项目不适合。 否则, 一条含有多个?号的事务会很容易认为是错误的而被丢弃。(2) 项目添加方法即通过修改数据库结构,对事务添加一些别的项造成事 务数据库已有信息的修改。但是,这种方法容易造成规则的新生,也破 坏了原来项目集的基本结构,因此,其应用受到4艮大限制。(3) 项目删除方法在关^^见则中,将含有大量后件的某一项目或多项删除, 则按照推理要求,后件已经不成立,所以结论必然为假。这种方法也是 容易实现。然而,当有大量规则存在时,作为后件的项目也往往同时在 另一些规则中作为前件,如果将该项目删除,会导致其他有效规则被删 除;同时,破坏了原来项目集的基本结构。在许多应用领域中,项目本 身A^M求的,不允许被删除。所以,该法的应用更有限。(4) 对B00L项目值取反这种方法易于理解,但是只适用于项目值为B00L 型,对数值型不适合。为了处理数值型项目,经典的做法是按范围划分 为多个区间,每个子区间影射为BOOL值。但是,由于区间划分本身就很 复杂,因此这种处理方法难以得到实际应用。此外,这些方法在抗攻击能力方面的研究结果未见报道。
技术实现思路
根据
技术介绍
所述,本专利技术的目的在于避免上述不足,提出一种通过对数 据库增添少量新的事务和移除少量已有事务,达到敏感规则隐藏效果的全新的 用于关联规则隐藏的事务增减方法。为了实现上述目的,本专利技术的方法主要包括以下步骤(1) 选择数据库,实施数据挖掘,获得关联规则集;(2) 分析规则集并选择待隐藏的规则;(3) 基于待隐藏规则,抽取其相应的项目集;(4) 搜索并获取强相关事#< Strong Association Transaction,简称SAT) 集和弱相关事务弱相关事务(Weak Association Transaction,简称 WAT)集;(5) 根据隐藏要求选取WAT子集,并通过WAT修改过程计算得到修改后的 WAT子集;(6) 根据隐藏要求选取SAT子集;(7) 将修改后的WAT子集增加到数据库中,同时,从数据库中删除选定的 SAT子集,获得了一个修改后的新数据库;(8) 对新数据库再次实施数据挖掘,获取关联规则集;(9) 分析规则隐藏性能,若达到隐藏要求,则认为完成了隐藏过程;否则 转到步骤(4),继续隐藏过程。由于采用上述技术方案,本专利技术具有以下优点和效果(1) 本专利技术基于数据库中各条事务对规则的贡献程度来进行事务的操作, 本操作中只需要少量事务的更改,就可以实现关联规则隐藏,对数据库的修改 量小,基本上能够一次性地实现关联规则及其相应规则的全部隐藏;由于选择 项只是为WAT需要而更新,在SAT中并没有任何变化,所以,与其他规则隐藏算 法相比,更新的数据是少得多,同时,不需要增减任何项目,因此能够保持项 目的初始特征;本专利技术依据调整因子a来控制更新事务数,当设置为O. 05以上 时,隐藏率就能够达到100%。(2) 本专利技术规则隐藏的副作用非常小。与习用的未知项替换法相比,事务 增减方法具有纟艮强的优势,其RLR和RCR分别小于19。/。和6y。,而未知项替换法则高 于30°/ 。(3 )本专利技术在规则检测过程中,即使支持度下降得很低,RHR始终能够保 持在一个合适的值,所以,本方法的抗支持度攻击能力非常好。特别地,当调 整因子a在O. 07以上时,对于大范围(25°/ 至5%)的支持度攻击,RHR也始终达 到100%。因此,与其它现有的关联身见则隐藏方法相比,本专利技术的方法在稳健性和安 全性方面都具有很强的优势,还具有明显的实用性。 附图说明图1为本专利技术事务增减方法的流程图图2为本专利技术规则隐藏性能图3为本专利技术丢失规则的变化图4为本专利技术新增规则的变化图5为本专利技术三条规则不同组合的隐藏情况图6为本专利技术三条规则隐藏的副作用图7为本专利技术规则隐藏的支持度攻击图8为本专利技术比牟定两种方法的身见则丢失率图9为本专利技术比较两种方法的规则新增率具体实施方式由图l示出本专利技术事务增减方法的流程图,可知,本专利技术用于关联规则隐藏的事务增减方法,主要包括以下步骤(1)选择数据库,实施数据挖掘,获得关联规则集; (2 )分析规则集并选择待隐藏的规则;(3) 基于待隐藏规则,抽取其相应的项目集;(4) 搜索并获取强相关事务(Strong Association Transaction,简称 SAT)集和弱相关事务弱相关事务(Weak Association Transaction, 筒称WAT)集;(5 )根据隐藏要求选取WAT子集,并通过WAT修改过程计算得到修 文后的WAT子集; (6 )根据隐藏要求选取SAT子集;(7) 将修改后的WAT子集增加到数据库中,同时,从数据库中删除选定 的SAT子集,获得了一个修改后的新数据库;(8) 对新数据库再次实施数据挖掘,获取关联规则集;(9) 分析规则隐藏性能,若达到隐藏要求,则^人为完成了隐藏过程;否 则转到步骤(4),继续隐藏过程。其中,对弱相关事务和强相关事务进行了定义1、 定义l:弱相关事务(Weak Association Transaction,简称WAT):在 关,则挖掘中,各项在生成规则的大项中很少出现的事务。通俗地说,该事 务对规则生成的贡献非常弱。设定事务t中各项在规则生成的大项中出现的次数为#(/),给定出现次数的阈值&,如果有■ 4 (3)则认为该事务属于弱相关事务。 当^U)-0时,称该事务为不相关事务本文档来自技高网
...

【技术保护点】
一种用于关联规则隐藏的事务增减法,主要包括以下步骤: (1)选择数据库,实施数据挖掘,获得关联规则集; (2)分析规则集并选择待隐藏的规则; (3)基于待隐藏规则,抽取其相应的项目集; (4)搜索并获取强相关事务集和 弱相关事务弱相关事务集; (5)根据隐藏要求选取WAT子集,并通过WAT修改过程计算得到修改后的WAT子集; (6)根据隐藏要求选取SAT子集; (7)将修改后的WAT子集添加到数据库中,同时,从数据库中移除选定的SAT子 集,获得了一个修改后的新数据库; (8)对新数据库再次实施数据挖掘,获取关联规则集; (9)分析规则隐藏性能,若达到隐藏要求,则认为完成了隐藏过程;否则转到步骤(4),继续隐藏过程。

【技术特征摘要】

【专利技术属性】
技术研发人员:张晓明
申请(专利权)人:北京石油化工学院
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1