面向不确定数据的闭项集挖掘方法技术

技术编号:11795866 阅读:155 留言:0更新日期:2015-07-30 00:33
本发明专利技术公开了一种面向不确定数据的闭项集挖掘方法,用于解决现有闭项集挖掘方法精度差的技术问题。技术方案是:在挖掘闭项集时,首先将不确定数据转换为确定数据,再通过递归调用DCI_Closed()算法来建立新的生成子和相应的闭项集。在概率频繁闭项集过滤时,首先计算闭项集集合中单项集的概率频繁;再计算所有闭项集子集的概率频繁,利用卷积的计算方式得到项集的频次分布特征。最后,在项集生成的过程中,使用合理的剪枝技术加快项集的生长过程。本发明专利技术方法直接从不确定数据对应的原始数据中挖掘闭项集,再对其进行概率频繁特性的过滤,挖掘不确定数据中的概率频繁闭项集的精度高,而且进一步提高了挖掘效率。

【技术实现步骤摘要】

本专利技术涉及一种闭项集挖掘方法,特别是涉及一种面向不确定数据的闭项集挖掘 方法。
技术介绍
文献"王爽,王国仁.面向不确定感知数据的频繁项查询算法.计算机学 报,2013, 36 (3) :571-581"公开了一种面向不确定感知数据的频繁项查询算法。该算法主 要描述了用以连续维护传感器网络中的概率阈值频繁项查询结果的过程,同时设计了两种 优化过程:(1)设计了一种通过预测元素概率上界的方法进行候选集的构造,仅维护必要 信息从而提高查询效率;(2)设计了一种新的CP-list结构,可以压缩不同窗口候选集中的 重复元素,降低存储开销。但是在对于频繁闭项集的挖掘过程中仍旧不能避免对于可能世 界的遍历。同时,近年来面向不确定数据的频繁项集挖掘可分为期望计算法、频次分布计算 法、近似挖掘法三类。基于期望计算法的典型算法有如下算法:UApriori算法核心是基于 生长-测试思想,使用广度优先搜索策略来进行挖掘,是Apriori算法在不确定数据挖掘中 的扩充应用;UFP-growth和UH-Mine算法的核心则是基于分治思想,使用深度优先搜索策 略来进行挖掘。其中UFP-growth算法是对于FP-growth算法的扩充,与传统的FP-growth 算法相同的是,UFP-growth算法在最初的时候也建立一个索引树(UFP-tree)来保存不确 定数据库中所有的信息,然后,基于UFP-tree,算法递归的建立条件子树和找出频繁项集 (通过使用预期支持度判断)。UH-Mine算法则是对于H-Mine算法(传统的确定数据频繁项 集挖掘方法)扩充。基于频次分布计算法的典型算法有:DP(基于动态规划思想的Apriori 算法)和DC (基于分治策略的Apriori算法)。在概率频繁项集的定义下,关键是计算有效 频繁项目集的概率。通过对不确定数据集的抽象我们可以得到可能世界模型。根据每个事 件出现概率可以实现可能世界的实例化。因此,每个事务的概率是源自两个可能世界:项集 x的存在和不存在。所以对于每个可能世界,都联系着一个存在概率,包含确定的数据。所 以,数据库对应的可能世界数量是伴随着事务数量的增长和其中不确定项数量的增长。基 于近似挖掘法的算法如今也得到了发展。 概率频繁项集中存在大量的冗余信息,同时根据MDL基本原理,概率频繁闭项集 具有更好的分类特性,故概率频繁闭项集的研宄引起广大学者的关注。面向不确定数据的 频繁闭项集挖掘也可分为期望计算法、频次分布计算法、近似挖掘法三类。由于能够精确 反映真实发生情况,频次分布计算法被广泛应用。本文提出的PFCIM算法,引入动态规划 思想,遍历可能世界模型计算项集的频繁概率,再根据闭项集和项集在支持度方面的关系, 通过剪枝策略挖掘概率频繁闭项集。但该算法"闭"检查没有发生在可能世界模型里,因此 不能保证概率频繁闭项集的永久性。针对这一不足,文献提出挖掘不确定频繁闭项集需要 在可能世界模型中进行,且无法通过动态规划等方式避免可能世界遍历,因此是一个NP问 题。该文献提出一种基于深度优先搜索策略的方法快速挖掘频繁闭项集。为了减小NP问 题的规模,算法提出利用切比雪夫不等式上界剪枝、子集剪枝、超集剪枝、deCaen与Kwerel 概率不等式等方法来减少搜索空间。但是,未能过滤掉的项集仍然需要在可能世界中进行 闭特性检查,因此代价仍然很高。
技术实现思路
为了克服现有闭项集挖掘方法精度差的不足,本专利技术提供一种面向不确定数据的 闭项集挖掘方法。该方法在挖掘闭项集时,首先将不确定数据转换为确定数据,再通过利用 项集前的项集来拓展闭项集以产生所有的可能生成子,通过递归调用DCI_Cl 〇sed()算法 来建立新的生成子和相应的闭项集。在概率频繁闭项集过滤时,首先计算闭项集集合中单 项集的概率频繁;接着,基于项集的Apriori生长理论,计算所有闭项集子集的概率频繁, 利用卷积的计算方式得到项集的频次分布特征。最后,在项集生成的过程中,使用合理的剪 枝技术加快项集的生长过程。由于可能世界模型遍历挖掘的闭项集和直接从不确定数据对 应的确定数据挖掘的闭项集是等价的,故本专利技术方法直接从不确定数据对应的原始数据中 挖掘闭项集,再对其进行概率频繁特性的过滤,精确高效地挖掘不确定数据中的概率频繁 闭项集。在保证挖掘完备的概率频繁闭项集的前提下,进一步提高了挖掘效率。 本专利技术解决其技术问题所采用的技术方案是:一种面向不确定数据的闭项集挖掘 方法,其特点是采用以下步骤: 步骤一、挖掘闭项集。 首先,将不确定数据作为确定数据。数据集D扫描决定1-频繁项n e I,建立垂 直数据集 VD。VD 包括 tid 列表 g(i),w 假设CLOSED SET=cp),PRE SET== 0和POST_SET=Fl\cp)。记录所包含的项集,如果有的话,这个单项会出现在数 据集中的所有事务中。 通过利用P0ST_SET中的项拓展CL0SED_SET以产生所有可能生成子,非频繁且不 保序的生成子是被当作无效的。记录这些属于P〇ST_SET的项,如果曾经是包含在上述生成 子之中的,在随后的递归调用过程是不再被考虑的,只有有效的生成子可以被拓展。每一 个生成子neW_gen-CL0SED_SET U i是严格的依据保序性被拓展的,通过使用所有属于 P0ST_SET的项j(i < j)拓展,记录P0ST_SET中所有的不属于生成子和用于下次递归调用 的项j (i〈j)。产生一个新的闭合集CL0SED_SETnew- c (neW_gen)。从新的闭项集中,通过递 归调用DCI_Cl〇Sed()来建立新的生成子和相应的闭项集。最后,为了能够按词典序的顺序 访问,必须按照字典序的顺序从P〇ST_SET中提取项。使用DCI算法挖掘出所有的闭项集, Cset - {{& b},{& b c}}〇 步骤二、概率频繁闭项集过滤。 根据确定数据挖掘的频繁闭项集及其子集和不确定数据的闭项集等价,计算由步 骤一得到的闭项集及其子集的频繁闭概率值,过滤概率非频繁项集。 基于边界的Chernoff-Hoeffding剪枝:给定项集X,不确定数据集UD,X的预期支 持度U,最小的支持度阈值min_sup,频繁闭概率的阈值pfct,项集X是概率非频繁的条件 是:【主权项】1. 一种,其特征在于包括以下步骤: 步骤一、挖掘闭项集; 首先,将不确定数据作为确定数据;数据集D扫描决定1-频繁项F1 £ /,建立垂直数 据集VD;VD包括tid列表g(i),WEF1;假设CLOSED_SET=c卩),PRE_SET= 0 和 POST_SET=Fl\c(0 );记录c(0 ),所包含的项集,如果有的话,这个单项会出现在数据集 中的所有事务中; 通过利用P〇ST_SET中的项拓展CLOSED_SET以产生所有可能生成子,非频繁且不保序 的生成子是被当作无效的;记录这些属于P〇ST_SET的项,如果曾经是包含在上述生成子之 中的,在随后的递归调用过程是不再被考虑的,只有有效的生成子可以被拓展;每一个生成 子neW_gen-CLOSED_SETUi是严格的依据保序性被拓展的,通过使用所有属于POST_ SET的本文档来自技高网
...

【技术保护点】
一种面向不确定数据的闭项集挖掘方法,其特征在于包括以下步骤:步骤一、挖掘闭项集;首先,将不确定数据作为确定数据;数据集D扫描决定1‑频繁项建立垂直数据集VD;VD包括tid列表g(i),假设和记录所包含的项集,如果有的话,这个单项会出现在数据集中的所有事务中;通过利用POST_SET中的项拓展CLOSED_SET以产生所有可能生成子,非频繁且不保序的生成子是被当作无效的;记录这些属于POST_SET的项,如果曾经是包含在上述生成子之中的,在随后的递归调用过程是不再被考虑的,只有有效的生成子可以被拓展;每一个生成子new_gen←CLOSED_SET∪i是严格的依据保序性被拓展的,通过使用所有属于POST_SET的项拓展,记录POST_SET中所有的不属于生成子和用于下次递归调用的项j(i<j);产生一个新的闭合集CLOSED_SETnew←c(new_gen);从新的闭项集中,通过递归调用DCI_Closed()来建立新的生成子和相应的闭项集;最后,为了能够按词典序的顺序访问,必须按照字典序的顺序从POST_SET中提取项;使用DCI算法挖掘出所有的闭项集,Cset={{a b},{a b c}};步骤二、概率频繁闭项集过滤;根据确定数据挖掘的频繁闭项集及其子集和不确定数据的闭项集等价,计算由步骤一得到的闭项集及其子集的频繁闭概率值,过滤概率非频繁项集;基于边界的Chernoff‑Hoeffding剪枝:给定项集X,不确定数据集UD,X的预期支持度μ,最小的支持度阈值min_sup,频繁闭概率的阈值pfct,项集X是概率非频繁的条件是:e-2n2δ2<pfct,δ>μe-2nδ2<pfct,δ<μ]]>δ=(min_sup‑μ‑1)/n,n是UD中事务的数量;超集剪枝:给定长度为|X|的项集,不确定数据集UD和X的长度为|X|+1的超集X+ei;按照字母顺序,至少小于X中的一个项,即X不是X+ei的前缀,并且X.sup=(X+ei).sup能够得到如下的两个结果:1)X的频繁概率是0,X必然不是概率频繁项集;2)基于字母顺序,所有以X为前缀的超集必然不是概率频繁项集;以{a}为前缀基于深度优先搜索的超集剪枝方法,能够避免生长{ac,fcp:0},{bc,fcp:0};子集剪枝:给定不确定数据集UD,项集X,X是X‑ei的超集,ei是X的最后一个项,如果X.sup=(X‑ei).sup,得到以下两个结果:1)X‑ei的频繁概率是0,必然不是概率频繁项集;2)含有X‑ei作为前缀的项集,如果长度相同,则能够判断必然不是频繁的概率项集,这样的项集超集也必然不是频繁的概率项集。...

【技术特征摘要】

【专利技术属性】
技术研发人员:尤涛杜承烈王川文张利军徐伟
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1