面向流数据的增量式时态频繁模式并行挖掘方法技术

技术编号：20588833 阅读：27 留言：0更新日期：2019-03-16 07:08

本发明专利技术提供了一种面向流数据的增量式时态频繁模式并行挖掘方法，包括两部分，第一部分为时态频繁模式和时态次频繁模式的增量式挖掘，第二部分是时态频繁模式树的重建。本发明专利技术在获取了当前数据集的K‑项集计数后通过历史的频繁模式树和历史次频繁模式的信息对每个频繁模式的时态频繁度进行更新计算，将更新完时态频繁度的频繁模式根据阈值分别加入到时态频繁模式集合和时态次频繁模式集合中。本发明专利技术能以最小的空间代价来保存时态频繁模式的历史信息，提高频繁模式挖掘的准确性。

Incremental Temporal Frequent Patterns Parallel Mining Method for Streaming Data

The invention provides an incremental temporal frequent pattern parallel mining method for stream data, which includes two parts: the first part is incremental mining of temporal frequent pattern and temporal sub-frequent pattern, and the second part is reconstruction of temporal frequent pattern tree. The method updates and calculates the temporal frequencies of each frequent pattern through the information of historical frequent pattern tree and historical sub-frequent pattern after obtaining the K itemset count of the current data set, and adds the updated frequent pattern to the temporal frequent pattern set and the temporal sub-frequent pattern set respectively according to the threshold value. The invention can save the historical information of temporal frequent patterns at the minimum space cost, and improve the accuracy of frequent pattern mining.

全部详细技术资料下载

【技术实现步骤摘要】
面向流数据的增量式时态频繁模式并行挖掘方法
本专利技术涉及一种面向流数据的增量式时态频繁模式并行挖掘方法。
技术介绍
流数据作为一种随着互联网与计算机信息技术发展产生的新型数据形式，具有实时性、连续性，是大数据的重要特征之一[1]。由于流式数据的产生具有随时间源源不断的特点，传统数据挖掘方法无法直接应用到流数据环境中，因此，对流数据进行数据挖掘是大数据知识发现领域要解决的重要课题。在对流数据进行频繁模式挖掘时，时间的累积性是影响数据项之间关联关系的重要因素，如何有效地保留流式数据的历史信息，设计一个具有时间累积性的时态频繁度度量方法，是有效挖掘流式数据频繁模式中的关键问题。在数据挖掘领域中，针对时态频繁模式挖掘的研究应用已有多年，它是将数据的时间属性作为影响数据项之间关联关系的要素，这有助于更加有效揭示事物发展的潜在规律[2]。然而，在流式数据中，数据集随时间不断累积，使得数据挖掘系统不能完整的保留历史数据，在进行频繁模式挖掘时，无法回溯之前历史记录，这降低了基于时间相关的频繁模式计算的准确性，使得时态频繁模式挖掘结果表现不佳。此外，那种频繁地扫描数据集的传统方式显然也无法满足流式数据挖掘的需要。经典的FP-Growth算法在进行频繁模式集挖掘时，通过建立FP-tree来进行频繁项挖掘，不需要频繁地扫描原始数据集，是实现并行化关联挖掘的常用算法。在传统快速更新频繁模式树((FUFP-tree))算法中，可以通过FP-tree来保留历史信息，当新的数据到来时，在保留原有树结构不变的情况下更新节点信息或添加新的节点，这种设计思路的前提是事务数据后续的增量数据较...

【技术保护点】
1.一种面向流数据的增量式时态频繁模式并行挖掘方法，其特征在于：包括两部分，第一部分为时态频繁模式和时态次频繁模式的增量式挖掘，第二部分是时态频繁模式树的重建；第一部分具体步骤为：初始化时态次频繁模式(SFP‑list)0为空集，时态频繁模式树(TFP‑tree)0为一个带root节点的空树；通过以下步骤对t‑1时刻的时态频繁模式集和时态次频繁模式进行更新，得到t时刻的时态次频繁模式集(SFP‑list)t和时态频繁模式集(FP‑list)t，(SFP‑list)t和(FP‑list)t中的元素形式为以模式名称为key值，以相应模式在t时刻的权重为value值的键值对：S11、输入t时刻的数据集DBt、t‑1时刻的时态次频繁模式集(SFP‑list)t‑1、t‑1时刻的时态频繁模式树(TFP‑tree)t‑1；设置时态频繁模式权重阈值θ1，时态次频繁模式权重阈值θ2，θ1>θ2>0；S12、从t时刻的数据集DBt中获取集合(K‑list)t，集合(K‑list)t中的元素形式为以K‑项集，即模式为key值，以相应K‑项集的计数为value值的键值对；S13、遍历(K‑list)t中的每...

【技术特征摘要】
1.一种面向流数据的增量式时态频繁模式并行挖掘方法，其特征在于：包括两部分，第一部分为时态频繁模式和时态次频繁模式的增量式挖掘，第二部分是时态频繁模式树的重建；第一部分具体步骤为：初始化时态次频繁模式(SFP-list)0为空集，时态频繁模式树(TFP-tree)0为一个带root节点的空树；通过以下步骤对t-1时刻的时态频繁模式集和时态次频繁模式进行更新，得到t时刻的时态次频繁模式集(SFP-list)t和时态频繁模式集(FP-list)t，(SFP-list)t和(FP-list)t中的元素形式为以模式名称为key值，以相应模式在t时刻的权重为value值的键值对：S11、输入t时刻的数据集DBt、t-1时刻的时态次频繁模式集(SFP-list)t-1、t-1时刻的时态频繁模式树(TFP-tree)t-1；设置时态频繁模式权重阈值θ1，时态次频繁模式权重阈值θ2，θ1>θ2>0；S12、从t时刻的数据集DBt中获取集合(K-list)t，集合(K-list)t中的元素形式为以K-项集，即模式为key值，以相应K-项集的计数为value值的键值对；S13、遍历(K-list)t中的每一个模式Ii，对其分别进行以下操作：判断Ii是否在(TFP-tree)t-1中；若是，则从时态频繁模式树(TFP-tree)t-1中获取Ii在t-1时刻的权重否则判断Ii是否在(SFP-list)t-1中；若是，则从时态次频繁模式集(SFP-list)t-1中获取Ii在t-1时刻的权重否则说明Ii在历史中没有出现，令其在t-1时刻的权重计算Ii在t时刻的权重判断是否有若是，则形成以Ii为key值，以为value值的键值对，并将其添加到时态频繁模式集(FP-list)t中；否则判断是否有若是，则形成以Ii为key值，以为value值的键值对，并将其添加到时态次频繁模式集(SFP-list)t中；若则Ii不属于时态频繁模式也不属于时态次频繁模式；S14、返回t时刻的时态次频繁模式集(SFP-list)t和t时刻的时态频繁模式集(FP-list)t；第二部分具体步骤为：S21、输入(FP-list)t；S22、初始化一个带root节点的空的时态频繁模式树(TFP-tree)t；S23、对于(FP-list)t中的每一个数据项，统计包含其的所有模式的权重之和，作为该数据项的计数；将(FP-list)t中的所有数据项按降序排列，记为(F-list)t；S24、对于(FP-list)t中的每一个模式，将其中的数据项按在(F-list)t中的次序排列，将排序后的(FP-list)t记为S25、遍历中的每一个模式Ii，对其分别进行以下操作：判断(TFP-tree)t是否包含Ii，若是则更新(TFP-tree)t中Ii的权重，否则将Ii插入(TFP-tree)t中，并添加其权重；S26、返回(TFP-tree)t。2.根据权利要求1所述的面向流数据的增量式时态频繁模式并行挖掘方法，其特征在于：采用Redis存储技术来保存t-1时刻的次频繁模式集(SFP-list)t-1和t-1时刻的时态频繁模式树(TFP-tree)t-1。3.根据权利要求1所述的面向流数据的增量式时态频繁模式并...

【专利技术属性】
技术研发人员：黄芳，赵义健，杜春修，章成源，张祖平，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人