基于Eclat的多元时间序列关联规则挖掘方法技术

技术编号：17007669 阅读：25 留言：0更新日期：2018-01-11 03:57

本发明专利技术提出了一种基于Eclat的多元时间序列关联规则挖掘方法，包括：(1)生成垂直数据集；(2)生成MINHASH矩阵，MINHASH矩阵需要指定参数k；(3)利用MINHASH矩阵估计原始数据集中的候选项集；(4)根据最小支持度把候选集剪枝后得到频繁项集1；(5)在哈希频繁1项集两两合并生成新的频繁2项集；(6)循环步骤(5)直到无法合并，结束算法。本发明专利技术显著的加快关联规则挖掘速度，达到及时获取时间序列数据分析结果的目标，虽然牺牲了挖掘的精确性，但可以大大的提高挖掘效率、节约机器内存。

全部详细技术资料下载

【技术实现步骤摘要】
基于Eclat的多元时间序列关联规则挖掘方法
本专利技术属于数据挖掘
，具体涉及一种大规模数据下的进行关联规则挖掘的方法。
技术介绍
目前国内外都有一些关于近似关联规则挖掘研究，由于他们研究的侧重点不同，用的关联规则的挖掘算法不同，挖掘到的关联规则的特点也不同。一般的近似关联规则挖掘的步骤分为两个阶段，先进行预处理操作，在海量的原始数据上进行压缩，平滑，去噪，线性化近似，分割时间序列，聚类等，然后在已经处理过的数据集上进行近似关联规则挖掘算法的实施。传统的关联规则挖掘算法针对的是离散数据，挖掘出的关联规则并不能体现时间的先后顺序。第一次应用在时间序列上的关联规则的挖掘算法的提出是在1998年Das提出的。研究对象是从单时间序列挖掘的关联规则开始，后来扩展到多时间序列的挖掘。在处理时间序列数据时，把时间序列划分成长度相等的子序列，然后为每个趋势不同的子序列分配一个符号表示。这种算法关注的子序列的趋势主要有三种，上升，下降，平衡。因此，对于不同时间长度，趋势相同的子序列并不能区分。后来学者把FP-growth算法应用在时间序列关联规则挖掘方面。FP-growth算法是一种高效可扩展的算法，通过模式增长的方式，用扩展前缀树结构FP-tree，这个概要存储结构用于存储关于频繁模式的压缩和关键信息，在很多情况下都比Apriori效果更好。后来在此基础上又出现了很多改良的算法。CFP-mine算法是基于压缩的FP树，基于约束子树的方法，减少内存的调用，并且用了数组的方法，减少了遍历次数。最经典的关联规则挖掘算法是Agrawal于1993年提出的Apriori算法...
基于Eclat的多元时间序列关联规则挖掘方法

【技术保护点】
一种基于Eclat的关联规则挖掘方法，其特征在于：所述方法包括：(1)生成垂直数据集；(2)生成MINHASH矩阵，MINHASH矩阵需要指定参数k，其意义是矩阵最多有k行；(3)利用MINHASH矩阵估计原始数据集中的候选项集；(4)根据最小支持度把候选集剪枝后得到频繁项集1；(5)在哈希频繁1项集两两合并生成新的频繁2项集；(6)循环步骤(4)、(5)直到无法合并，结束算法；其中，步骤(3)中使用MinHash估计集合交集大小，对于多个集合S1,S2,…Si,…,Sm，包含最多元素的集合大小为nmax＝maxi|Si|，集合交集大小估计值为

【技术特征摘要】
1.一种基于Eclat的关联规则挖掘方法，其特征在于：所述方法包括：(1)生成垂直数据集；(2)生成MINHASH矩阵，MINHASH矩阵需要指定参数k，其意义是矩阵最多有k行；(3)利用MINHASH矩阵估计原始数据集中的候选项集；(4)根据最小支持度把候选集剪枝后得到频繁项集1；(5)在哈希频繁1项集两两合并生成新的频繁2项集；(6)循环步骤(4)、(5)直到无法合并，结束算法；其中，步骤(3)中使用MinHash估计集合交集大小，对于多个集合S1,S2,…Si,…,Sm，包含最多元素的集合大小为nmax＝maxi|Si...

【专利技术属性】
技术研发人员：张春慨，
申请(专利权)人：哈尔滨工业大学深圳研究生院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人