【技术实现步骤摘要】
一种面向增量式数据集的知识发现方法与发现装置
[0001]本专利技术涉及一种知识发现方法,特别涉及一种在增量式数据集上的知识发现方法与发现装置。
技术介绍
[0002]物联网、社交网络和Internet每时每刻不断产生新的数据,这些数据需要及时分析以挖掘其具有时效性的价值。随着数据量的指数级增长,其稀疏性也越来越显著,新出现的知识和事件信息往往被淹没在大量的数据中。如何从中抽取有价值的信息,发现事物之间各种隐藏的潜在关联关系,包括因果关系、协同变化关系、共存关系等,是知识发现相关研究的难点问题。
[0003]许多研究者针对不断增长的数据,采用增量式计算实现数据的分析和挖掘。
[0004]一类算法为基于树形数据结构的增量式计算方法,主要应用树形结构对新旧数据的频繁模式进行存储、挖掘频繁模式之间的关联关系,如FUP和FUP2算法。在新数据到来时,通过对新旧数据集的频繁模式树进行调整,从而改变新旧数据集的频繁模式,该算法通过构建事务数据集,记录每一种数据事务的出现次数等信息,在得到新增数据集后,通过对新旧数据集中的频繁事务项进行计算,得到新的频繁模式,再对新的频繁模式进行关联性分析;CanTree
‑
Gtree算法,基于滑动窗口发现来自实时事务的完整频繁项集,该算法使用两种树形数据结构:CanTree和GTree。一种是CanTree,通过扫描滑动窗口中的所有事务,将其用作基础树。一种称为GTree(组树)的新型数据结构用作每个数据项的投影树,通过使用自上而下的树遍历方法遍历每个节点来构建 ...
【技术保护点】
【技术特征摘要】
1.一种面向增量式数据集的知识发现方法与发现装置,包括以下几个部分:A.基于原始数据集DB中数据的频繁事务项集合DB_FI构建原始数据集频繁模式树DB_FP
‑
tree,并根据最小支持度min_conf计算DB中的关联规则集合AR(DB_FP
‑
Tree),令总关联关系集合ARSET=AR(DB_FP
‑
Tree),初始化增量滑动窗口IW,设置窗口长度上限为m,初始化用于维护增量数据集的频繁模式树Idb0_FP
‑
tree。B.当第i次增量数据集Idb
i
的数据到来时,将本次数据增量数据集Idb
i
存储在增量数据库IDB中,初始化增量数据集的频繁事务集Idb
i
_FI,扫描Idb
i
中的数据,计算Idb
i
中每一个数据项I的支持度,并根据支持度分为4种情况进行不同操作。在B的基础上,将Idb
i
_FP
‑
tree更新为Idb
i+1
_FP
‑
tree。C.在增量滑动窗口IW内的队列末尾追加本次增量数据的主键信息,此时增量滑动窗口IW内的队列长度Len(IW)加1,若Len(IW)>m,则读取增量滑动窗口IW内的队首信息,根据主键信息将增量数据库IDB中的数据转移至原始数据库DB中,删除IW的队首节点,同时将这些数据的信息更新到原始数据的频繁模式树DB_FP
‑
Tree中,并更新Idb
i
_FP
‑
Tree中涉及到的节点信息,将计数信息减1,若计数减为0,则删除节点,将该节点的父节点与子节点相连,基于Idb
i
_FP
‑
tree与min_conf计算第i次数据增量后的关联关系集合AR(Idbi_FP
‑
Tree),并令总关联关系集合ARSET=ARSET∪AR(Idbi_FP
‑
Tree)。D.步骤B完成后,根据最终得到的增量频繁事务集Idb
i
_FI构建/更新增量频繁模式树Idb
i
‑1_FP
‑
tree,在更新时,将Idb
i
_FI中的事务按照出现次数降序排序,并再次扫描本次增量数据集Idb
i
,并将Idb
i
_FI中的事务信息按照构建频繁模式树的方法更新到Idb
i
‑1_FP
‑
Tree中,此时Idb
i
‑1_FP
‑
tree被更新为Idb
i
_FP
‑
tree。2.根据权利要求1中所述的一种面向增量式数据集的知识发现方法与发现装置,其特征在于,所述的部分A中,基于DB中的数据构建DB_FP
‑
tree,获取DB中的频繁事务项集合DB_FI,并根...
【专利技术属性】
技术研发人员:刘昕,郑亮,席永轲,曹帅,于绍文,石祥沛,
申请(专利权)人:中国石油大学华东,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。