一种面向增量式数据集的知识发现方法与发现装置制造方法及图纸

技术编号:28774444 阅读:14 留言:0更新日期:2021-06-09 11:03
本发明专利技术实施例提供一种用于增量式数据集上的知识发现方法。本发明专利技术的面向增量式数据集的知识发现方法与发现装置,使用EFPT

【技术实现步骤摘要】
一种面向增量式数据集的知识发现方法与发现装置


[0001]本专利技术涉及一种知识发现方法,特别涉及一种在增量式数据集上的知识发现方法与发现装置。

技术介绍

[0002]物联网、社交网络和Internet每时每刻不断产生新的数据,这些数据需要及时分析以挖掘其具有时效性的价值。随着数据量的指数级增长,其稀疏性也越来越显著,新出现的知识和事件信息往往被淹没在大量的数据中。如何从中抽取有价值的信息,发现事物之间各种隐藏的潜在关联关系,包括因果关系、协同变化关系、共存关系等,是知识发现相关研究的难点问题。
[0003]许多研究者针对不断增长的数据,采用增量式计算实现数据的分析和挖掘。
[0004]一类算法为基于树形数据结构的增量式计算方法,主要应用树形结构对新旧数据的频繁模式进行存储、挖掘频繁模式之间的关联关系,如FUP和FUP2算法。在新数据到来时,通过对新旧数据集的频繁模式树进行调整,从而改变新旧数据集的频繁模式,该算法通过构建事务数据集,记录每一种数据事务的出现次数等信息,在得到新增数据集后,通过对新旧数据集中的频繁事务项进行计算,得到新的频繁模式,再对新的频繁模式进行关联性分析;CanTree

Gtree算法,基于滑动窗口发现来自实时事务的完整频繁项集,该算法使用两种树形数据结构:CanTree和GTree。一种是CanTree,通过扫描滑动窗口中的所有事务,将其用作基础树。一种称为GTree(组树)的新型数据结构用作每个数据项的投影树,通过使用自上而下的树遍历方法遍历每个节点来构建投影树。但是,基于树形数据结构的增量式计算方法每次对频繁模式的确定都需扫描一次全体数据,由于新增数据相对于全体数据往往是小数据量,难以用基于树形结构的增量式计算方法发现新的频繁模式。
[0005]另一类为基于增量学习的计算方法,多采用机器学习与深度学习的方法进行增量学习,不断从新样本中学习新知识,并能保存大部分以前已学习的知识。此类方法包括:并行增量wESVM(加权极限支持向量机),此方法用以合并输入数据与原数据集并进行学习训练,该模型可以通过简单的矩阵加法来合并来自训练数据子集的知识,使其能够通过合并每个增量阶段的数据切片的知识来进行并行增量学习;集成学习方法DTEL(基于多样性和迁移的集成学习方法),该方法将每个保存的历史模型用作初始模型,并通过迁移学习将其与新数据一起进行训练。但是,基于增量学习的计算方法在大数据量的模型训练中需要花费较长时间,并且新数据若具有新特征,需要对模型进行重新训练,因此其模型构建、计算成本普遍较高,且对数据质量的要求也较高,需要较大的时间复杂度与空间复杂度。
[0006]因此为了适应数据量不断扩大的应用场景,解决增量式数据计算所面临的高时间复杂度、高空间复杂度问题,本专利技术提出了一种面向增量式数据集的知识发现方法与发现装置,设计了可以随数据量不断扩大而进行演化的树形数据结构以及记录新增频繁模式的增量窗口,对新增数据集中的频繁事务项进行维护,保持增量式数据计算的时效性。在数据增量过程中,本专利技术通过对原始数据频繁模式树、新增频繁模式树与增量滑动窗口对新增
频繁模式进行实时调整,及时对原数据集与新数据集之间事务项的关联关系进行挖掘。同时,本专利技术解决了基于树形数据结构的增量式算法在调整频繁模式需不断扫描原始数据的问题,极大降低了时间复杂度。

技术实现思路

[0007]为了解决在数据量不断增加的场景下,新知识难以被及时准确发现的问题,本专利技术提供了面向增量式数据集的知识发现方法,该方法使用EFPT

IKD算法,设计了一种可以随数据量不断增长而不断演化的树形数据结构—频繁模式树,设置增量窗口(IW)发现新增频繁事务项,频繁模式树主要用于对数据集中的频繁模式信息进行存储,通过增量窗口与新发现的频繁模式,挖掘增量数据集中的新知识,并将新增频繁模式动态更新到原有频繁模式树中,使频繁模式树随着数据集增加不断演化。
[0008]本专利技术所采用的技术方案如下:
[0009]一种面向增量式数据集的知识发现方法与发现装置,包括以下步骤:
[0010]A.基于原始数据集DB中数据频繁事务项集合DB_FI构建原始数据集频繁模式树DB_FP

tree,并根据最小支持度min_conf计算DB中的关联规则集合AR(DB_FP

Tree),令总关联规则集ARSET=AR(DB_FP

Tree),设置增量窗口长度上限为m,并初始化增量滑动窗口IW为空,同时初始化增量频繁模式树Idb0_FP

tree。
[0011]B.当第i次增量数据集Idb
i
的数据到来时,将本次数据增量数据集Idb
i
存储在增量数据库IDB中,初始化增量数据集的频繁事务集Idb
i
_FI,扫描Idb
i
中的数据,计算Idb
i
中每一个数据项I的支持度,并根据在原始数据以及增量数据中按照频繁程度分为4种情况进行不同操作。
[0012]C.在增量滑动窗口IW内的队列末尾追加本次增量数据的主键信息(表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录),此时增量滑动窗口IW内的队列长度Len(IW)加1,若Len(IW)<=m(增量窗口上限m),则动态更新频繁模式树Idb
i
‑1_FP

Tree,若Len(IW)>m(增量窗口上限m),则读取增量滑动窗口IW内的队首信息,根据主键信息将增量数据库IDB中的数据转移至原始数据库DB中,删除IW的队首节点,同时将这些数据的信息更新到原始数据的频繁模式树DB_FP

Tree中,并更新Idb
i
_FP

Tree中涉及到的节点信息。
[0013]D.步骤B完成后,根据最终得到的增量频繁事务集Idb
i
_FI更新增量频繁模式树Idb
i
‑1_FP

tree,在更新时,将Idb
i
_FI中的事务按照支持度降序排序,并再次扫描本次增量数据集Idb
i
,并将Idb
i
_FI中的事务信息按照构建频繁模式树的方法更新到Idb
i
‑1_FP

Tree中,此时Idb
i
‑1_FP

tree被更新为Idb
i
_FP

tree。
[0014]E.基于增量频繁模式树Idb
i
_FP

tree与最小支持度min_conf计算第i次数据增量后的关联关系集合AR(Idb
i
_FP

Tree),并令总关联关系集合ARSET=ARSET∪AR(Idb
i
_FP<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向增量式数据集的知识发现方法与发现装置,包括以下几个部分:A.基于原始数据集DB中数据的频繁事务项集合DB_FI构建原始数据集频繁模式树DB_FP

tree,并根据最小支持度min_conf计算DB中的关联规则集合AR(DB_FP

Tree),令总关联关系集合ARSET=AR(DB_FP

Tree),初始化增量滑动窗口IW,设置窗口长度上限为m,初始化用于维护增量数据集的频繁模式树Idb0_FP

tree。B.当第i次增量数据集Idb
i
的数据到来时,将本次数据增量数据集Idb
i
存储在增量数据库IDB中,初始化增量数据集的频繁事务集Idb
i
_FI,扫描Idb
i
中的数据,计算Idb
i
中每一个数据项I的支持度,并根据支持度分为4种情况进行不同操作。在B的基础上,将Idb
i
_FP

tree更新为Idb
i+1
_FP

tree。C.在增量滑动窗口IW内的队列末尾追加本次增量数据的主键信息,此时增量滑动窗口IW内的队列长度Len(IW)加1,若Len(IW)&gt;m,则读取增量滑动窗口IW内的队首信息,根据主键信息将增量数据库IDB中的数据转移至原始数据库DB中,删除IW的队首节点,同时将这些数据的信息更新到原始数据的频繁模式树DB_FP

Tree中,并更新Idb
i
_FP

Tree中涉及到的节点信息,将计数信息减1,若计数减为0,则删除节点,将该节点的父节点与子节点相连,基于Idb
i
_FP

tree与min_conf计算第i次数据增量后的关联关系集合AR(Idbi_FP

Tree),并令总关联关系集合ARSET=ARSET∪AR(Idbi_FP

Tree)。D.步骤B完成后,根据最终得到的增量频繁事务集Idb
i
_FI构建/更新增量频繁模式树Idb
i
‑1_FP

tree,在更新时,将Idb
i
_FI中的事务按照出现次数降序排序,并再次扫描本次增量数据集Idb
i
,并将Idb
i
_FI中的事务信息按照构建频繁模式树的方法更新到Idb
i
‑1_FP

Tree中,此时Idb
i
‑1_FP

tree被更新为Idb
i
_FP

tree。2.根据权利要求1中所述的一种面向增量式数据集的知识发现方法与发现装置,其特征在于,所述的部分A中,基于DB中的数据构建DB_FP

tree,获取DB中的频繁事务项集合DB_FI,并根...

【专利技术属性】
技术研发人员:刘昕郑亮席永轲曹帅于绍文石祥沛
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1