一种面向增量式数据集的知识发现方法与发现装置制造方法及图纸

技术编号:28774444 阅读:24 留言:0更新日期:2021-06-09 11:03
本发明专利技术实施例提供一种用于增量式数据集上的知识发现方法。本发明专利技术的面向增量式数据集的知识发现方法与发现装置,使用EFPT

【技术实现步骤摘要】
一种面向增量式数据集的知识发现方法与发现装置


[0001]本专利技术涉及一种知识发现方法,特别涉及一种在增量式数据集上的知识发现方法与发现装置。

技术介绍

[0002]物联网、社交网络和Internet每时每刻不断产生新的数据,这些数据需要及时分析以挖掘其具有时效性的价值。随着数据量的指数级增长,其稀疏性也越来越显著,新出现的知识和事件信息往往被淹没在大量的数据中。如何从中抽取有价值的信息,发现事物之间各种隐藏的潜在关联关系,包括因果关系、协同变化关系、共存关系等,是知识发现相关研究的难点问题。
[0003]许多研究者针对不断增长的数据,采用增量式计算实现数据的分析和挖掘。
[0004]一类算法为基于树形数据结构的增量式计算方法,主要应用树形结构对新旧数据的频繁模式进行存储、挖掘频繁模式之间的关联关系,如FUP和FUP2算法。在新数据到来时,通过对新旧数据集的频繁模式树进行调整,从而改变新旧数据集的频繁模式,该算法通过构建事务数据集,记录每一种数据事务的出现次数等信息,在得到新增数据集后,通过对新旧数据集中的频繁事务项进行计算,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向增量式数据集的知识发现方法与发现装置,包括以下几个部分:A.基于原始数据集DB中数据的频繁事务项集合DB_FI构建原始数据集频繁模式树DB_FP

tree,并根据最小支持度min_conf计算DB中的关联规则集合AR(DB_FP

Tree),令总关联关系集合ARSET=AR(DB_FP

Tree),初始化增量滑动窗口IW,设置窗口长度上限为m,初始化用于维护增量数据集的频繁模式树Idb0_FP

tree。B.当第i次增量数据集Idb
i
的数据到来时,将本次数据增量数据集Idb
i
存储在增量数据库IDB中,初始化增量数据集的频繁事务集Idb
i
_FI,扫描Idb
i
中的数据,计算Idb
i
中每一个数据项I的支持度,并根据支持度分为4种情况进行不同操作。在B的基础上,将Idb
i
_FP

tree更新为Idb
i+1
_FP

tree。C.在增量滑动窗口IW内的队列末尾追加本次增量数据的主键信息,此时增量滑动窗口IW内的队列长度Len(IW)加1,若Len(IW)>m,则读取增量滑动窗口IW内的队首信息,根据主键信息将增量数据库IDB中的数据转移至原始数据库DB中,删除IW的队首节点,同时将这些数据的信息更新到原始数据的频繁模式树DB_FP

Tree中,并更新Idb
i
_FP

Tree中涉及到的节点信息,将计数信息减1,若计数减为0,则删除节点,将该节点的父节点与子节点相连,基于Idb
i
_FP

tree与min_conf计算第i次数据增量后的关联关系集合AR(Idbi_FP

Tree),并令总关联关系集合ARSET=ARSET∪AR(Idbi_FP

Tree)。D.步骤B完成后,根据最终得到的增量频繁事务集Idb
i
_FI构建/更新增量频繁模式树Idb
i
‑1_FP

tree,在更新时,将Idb
i
_FI中的事务按照出现次数降序排序,并再次扫描本次增量数据集Idb
i
,并将Idb
i
_FI中的事务信息按照构建频繁模式树的方法更新到Idb
i
‑1_FP

Tree中,此时Idb
i
‑1_FP

tree被更新为Idb
i
_FP

tree。2.根据权利要求1中所述的一种面向增量式数据集的知识发现方法与发现装置,其特征在于,所述的部分A中,基于DB中的数据构建DB_FP

tree,获取DB中的频繁事务项集合DB_FI,并根...

【专利技术属性】
技术研发人员:刘昕郑亮席永轲曹帅于绍文石祥沛
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1