当前位置: 首页 > 专利查询>中南大学专利>正文

面向流数据的增量式时态频繁模式并行挖掘方法技术

技术编号:20588833 阅读:27 留言:0更新日期:2019-03-16 07:08
本发明专利技术提供了一种面向流数据的增量式时态频繁模式并行挖掘方法,包括两部分,第一部分为时态频繁模式和时态次频繁模式的增量式挖掘,第二部分是时态频繁模式树的重建。本发明专利技术在获取了当前数据集的K‑项集计数后通过历史的频繁模式树和历史次频繁模式的信息对每个频繁模式的时态频繁度进行更新计算,将更新完时态频繁度的频繁模式根据阈值分别加入到时态频繁模式集合和时态次频繁模式集合中。本发明专利技术能以最小的空间代价来保存时态频繁模式的历史信息,提高频繁模式挖掘的准确性。

Incremental Temporal Frequent Patterns Parallel Mining Method for Streaming Data

The invention provides an incremental temporal frequent pattern parallel mining method for stream data, which includes two parts: the first part is incremental mining of temporal frequent pattern and temporal sub-frequent pattern, and the second part is reconstruction of temporal frequent pattern tree. The method updates and calculates the temporal frequencies of each frequent pattern through the information of historical frequent pattern tree and historical sub-frequent pattern after obtaining the K itemset count of the current data set, and adds the updated frequent pattern to the temporal frequent pattern set and the temporal sub-frequent pattern set respectively according to the threshold value. The invention can save the historical information of temporal frequent patterns at the minimum space cost, and improve the accuracy of frequent pattern mining.

【技术实现步骤摘要】
面向流数据的增量式时态频繁模式并行挖掘方法
本专利技术涉及一种面向流数据的增量式时态频繁模式并行挖掘方法。
技术介绍
流数据作为一种随着互联网与计算机信息技术发展产生的新型数据形式,具有实时性、连续性,是大数据的重要特征之一[1]。由于流式数据的产生具有随时间源源不断的特点,传统数据挖掘方法无法直接应用到流数据环境中,因此,对流数据进行数据挖掘是大数据知识发现领域要解决的重要课题。在对流数据进行频繁模式挖掘时,时间的累积性是影响数据项之间关联关系的重要因素,如何有效地保留流式数据的历史信息,设计一个具有时间累积性的时态频繁度度量方法,是有效挖掘流式数据频繁模式中的关键问题。在数据挖掘领域中,针对时态频繁模式挖掘的研究应用已有多年,它是将数据的时间属性作为影响数据项之间关联关系的要素,这有助于更加有效揭示事物发展的潜在规律[2]。然而,在流式数据中,数据集随时间不断累积,使得数据挖掘系统不能完整的保留历史数据,在进行频繁模式挖掘时,无法回溯之前历史记录,这降低了基于时间相关的频繁模式计算的准确性,使得时态频繁模式挖掘结果表现不佳。此外,那种频繁地扫描数据集的传统方式显然也无法满足流式数据挖掘的需要。经典的FP-Growth算法在进行频繁模式集挖掘时,通过建立FP-tree来进行频繁项挖掘,不需要频繁地扫描原始数据集,是实现并行化关联挖掘的常用算法。在传统快速更新频繁模式树((FUFP-tree))算法中,可以通过FP-tree来保留历史信息,当新的数据到来时,在保留原有树结构不变的情况下更新节点信息或添加新的节点,这种设计思路的前提是事务数据后续的增量数据较小,FP-tree可以保存所有的候选项集。然而,在流数据挖掘中,随着后续大量数据不断流入,FP-tree无法保存完整的历史记录,这是将FP-Growth算法应用于流数据挖掘的主要障碍。另外,在对流数据进行处理时,为了使得最后的结果具有连贯性和延续性,其中间结果的累积和保存也至关重要。因此,有必要针对流式数据的时间累积性,设计一种能有效保留历史信息的时态频繁模式挖掘方法。
技术实现思路
本专利技术所解决的技术问题是,针对现有技术的不足,提供一种面向流数据的增量式时态频繁模式并行挖掘方法,能以最小的空间代价来保存时态频繁模式的历史信息,提高频繁模式挖掘的准确性。本专利技术所提供的技术方案为:一种面向流数据的增量式时态频繁模式并行挖掘方法,包括两部分,第一部分为时态频繁模式和时态次频繁模式的增量式挖掘,第二部分是时态频繁模式树TFP-tree的重建;算法在获取了当前数据集的K-项集计数后通过历史的频繁模式树和历史次频繁模式的信息对每个频繁模式的权重进行更新计算,将更新完权重的频繁模式根据阈值分别加入到时态频繁模式集合和时态次频繁模式集合中,具体算法描述如下:第一部分具体步骤为:将初始时刻的时态次频繁模式(SFP-list)0设置为空集,初始时刻的时态频繁模式树(TFP-tree)0设置为一个带root节点的空树;通过以下步骤对历史时态频繁模式集和时态次频繁模式进行更新,得到t时刻(当前时刻)的时态次频繁模式集(SFP-list)t和时态频繁模式集(FP-list)t,(SFP-list)t和(FP-list)t中的元素形式为以模式名称为key值,以相应模式在t时刻的权重为value值的键值对:S11、输入t时刻的数据集DBt、t-1时刻的时态次频繁模式集(SFP-list)t-1、t-1时刻的时态频繁模式树(TFP-tree)t-1;设置时态频繁模式权重阈值θ1,时态次频繁模式权重阈值θ2,θ1>θ2>0(经验值);S12、从t时刻的数据集DBt中获取集合(K-list)t,集合(K-list)t中的元素形式为以K-项集,即模式为key值,以相应K-项集的计数为value值的键值对;S13、遍历(K-list)t中的每一个模式Ii,对其分别进行以下操作:判断Ii是否在(TFP-tree)t-1中;若是,则从时态频繁模式树(TFP-tree)t-1中获取Ii在t-1时刻的权重(历史权重);否则判断Ii是否在(SFP-list)t-1中;若是,则从时态次频繁模式集(SFP-list)t-1中获取Ii在t-1时刻的权重否则说明Ii在历史中没有出现,令其在t-1时刻的权重计算Ii在t时刻的权重判断是否有若是,则形成以Ii为key值,以为value值的键值对,并将其添加到时态频繁模式集(FP-list)t中;否则判断是否有若是,则形成以Ii为key值,以为value值的键值对,并将其添加到时态次频繁模式集(SFP-list)t中;若则Ii不属于时态频繁模式也不属于时态次频繁模式。S14、返回t时刻的时态次频繁模式集(SFP-list)t和t时刻的时态频繁模式集(FP-list)t;第二部分具体步骤为:获得t时刻时态频繁模式集(FP-list)t后,根据(FP-list)t对时态频繁模式树进行重建式更新,获得(TFP-tree)t,(TFP-tree)t中的节点为以在内存中保存当前时刻的时态频繁模式的权重信息,具体步骤如下:S21、输入(FP-list)t;S22、初始化一个带root节点的空的时态频繁模式树(TFP-tree)t;S23、对于(FP-list)t中的每一个数据项,统计包含其的所有模式的权重之和,作为该数据项的计数;将(FP-list)t中的所有数据项按降序排列,记为(F-list)t;S24、对于(FP-list)t中的每一个模式,将其中的数据项按在(F-list)t中的次序排列(从而有效利用前缀树的特点来减小TFP-tree的规模;若某一模式中,两个数据项的计数相等,则这两个数据项在该模式中的排序保持不变),将排序后的(FP-list)t记为S25、遍历中的每一个模式Ii,对其分别进行以下操作:判断(TFP-tree)t是否包含Ii,若是则更新(TFP-tree)t中Ii的权重值,否则将Ii插入(TFP-tree)t中,并添加其权重值;S26、返回(TFP-tree)t。进一步地,由于Redis的快速读写性能,采用Redis存储技术来保存t-1时刻的次频繁模式集(SFP-list)t-1、t-1时刻的时态频繁模式树(TFP-tree)t-1,即历史的时态次频繁模式和时态频繁模式信息,为下一批数据提供历史信息的回溯。当有多个计算节点时,如果相同计算节点之间的计算量差别较大,任务分布不均,就会导致系统整体计算运行时间代价较大。因此,本专利技术在进行并行的FP-Growth挖掘之前,先综合计算节点资源和数据计算量对数据进行负载均衡分组,以为了提高系统的计算速度。进一步地,所述步骤12中,获取集合(K-list)t的具体步骤为:1)、候选一项集并行计算当事务记录持续到达时,使用MapReduce程序对事务记录中的数据项进行并行计数,以获取候选一项集,步骤如下:11)、由事务记录得到数据项;以事务记录的行号作为键值对的key值,该行的事务记录作为键值对的value值,作为Mapper的输入数据,输出为以数据项为key值,1为value值的键值对;12)、获取所有一项的计数;MapReduce程序将具有相同key值的键值对组合起来,经过统计后输出以数据项为key值,本文档来自技高网
...

【技术保护点】
1.一种面向流数据的增量式时态频繁模式并行挖掘方法,其特征在于:包括两部分,第一部分为时态频繁模式和时态次频繁模式的增量式挖掘,第二部分是时态频繁模式树的重建;第一部分具体步骤为:初始化时态次频繁模式(SFP‑list)0为空集,时态频繁模式树(TFP‑tree)0为一个带root节点的空树;通过以下步骤对t‑1时刻的时态频繁模式集和时态次频繁模式进行更新,得到t时刻的时态次频繁模式集(SFP‑list)t和时态频繁模式集(FP‑list)t,(SFP‑list)t和(FP‑list)t中的元素形式为以模式名称为key值,以相应模式在t时刻的权重为value值的键值对:S11、输入t时刻的数据集DBt、t‑1时刻的时态次频繁模式集(SFP‑list)t‑1、t‑1时刻的时态频繁模式树(TFP‑tree)t‑1;设置时态频繁模式权重阈值θ1,时态次频繁模式权重阈值θ2,θ1>θ2>0;S12、从t时刻的数据集DBt中获取集合(K‑list)t,集合(K‑list)t中的元素形式为以K‑项集,即模式为key值,以相应K‑项集的计数为value值的键值对;S13、遍历(K‑list)t中的每一个模式Ii,对其分别进行以下操作:判断Ii是否在(TFP‑tree)t‑1中;若是,则从时态频繁模式树(TFP‑tree)t‑1中获取Ii在t‑1时刻的权重...

【技术特征摘要】
1.一种面向流数据的增量式时态频繁模式并行挖掘方法,其特征在于:包括两部分,第一部分为时态频繁模式和时态次频繁模式的增量式挖掘,第二部分是时态频繁模式树的重建;第一部分具体步骤为:初始化时态次频繁模式(SFP-list)0为空集,时态频繁模式树(TFP-tree)0为一个带root节点的空树;通过以下步骤对t-1时刻的时态频繁模式集和时态次频繁模式进行更新,得到t时刻的时态次频繁模式集(SFP-list)t和时态频繁模式集(FP-list)t,(SFP-list)t和(FP-list)t中的元素形式为以模式名称为key值,以相应模式在t时刻的权重为value值的键值对:S11、输入t时刻的数据集DBt、t-1时刻的时态次频繁模式集(SFP-list)t-1、t-1时刻的时态频繁模式树(TFP-tree)t-1;设置时态频繁模式权重阈值θ1,时态次频繁模式权重阈值θ2,θ1>θ2>0;S12、从t时刻的数据集DBt中获取集合(K-list)t,集合(K-list)t中的元素形式为以K-项集,即模式为key值,以相应K-项集的计数为value值的键值对;S13、遍历(K-list)t中的每一个模式Ii,对其分别进行以下操作:判断Ii是否在(TFP-tree)t-1中;若是,则从时态频繁模式树(TFP-tree)t-1中获取Ii在t-1时刻的权重否则判断Ii是否在(SFP-list)t-1中;若是,则从时态次频繁模式集(SFP-list)t-1中获取Ii在t-1时刻的权重否则说明Ii在历史中没有出现,令其在t-1时刻的权重计算Ii在t时刻的权重判断是否有若是,则形成以Ii为key值,以为value值的键值对,并将其添加到时态频繁模式集(FP-list)t中;否则判断是否有若是,则形成以Ii为key值,以为value值的键值对,并将其添加到时态次频繁模式集(SFP-list)t中;若则Ii不属于时态频繁模式也不属于时态次频繁模式;S14、返回t时刻的时态次频繁模式集(SFP-list)t和t时刻的时态频繁模式集(FP-list)t;第二部分具体步骤为:S21、输入(FP-list)t;S22、初始化一个带root节点的空的时态频繁模式树(TFP-tree)t;S23、对于(FP-list)t中的每一个数据项,统计包含其的所有模式的权重之和,作为该数据项的计数;将(FP-list)t中的所有数据项按降序排列,记为(F-list)t;S24、对于(FP-list)t中的每一个模式,将其中的数据项按在(F-list)t中的次序排列,将排序后的(FP-list)t记为S25、遍历中的每一个模式Ii,对其分别进行以下操作:判断(TFP-tree)t是否包含Ii,若是则更新(TFP-tree)t中Ii的权重,否则将Ii插入(TFP-tree)t中,并添加其权重;S26、返回(TFP-tree)t。2.根据权利要求1所述的面向流数据的增量式时态频繁模式并行挖掘方法,其特征在于:采用Redis存储技术来保存t-1时刻的次频繁模式集(SFP-list)t-1和t-1时刻的时态频繁模式树(TFP-tree)t-1。3.根据权利要求1所述的面向流数据的增量式时态频繁模式并...

【专利技术属性】
技术研发人员:黄芳赵义健杜春修章成源张祖平
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1