基于Eclat的多元时间序列关联规则挖掘方法技术

技术编号:17007669 阅读:25 留言:0更新日期:2018-01-11 03:57
本发明专利技术提出了一种基于Eclat的多元时间序列关联规则挖掘方法,包括:(1)生成垂直数据集;(2)生成MINHASH矩阵,MINHASH矩阵需要指定参数k;(3)利用MINHASH矩阵估计原始数据集中的候选项集;(4)根据最小支持度把候选集剪枝后得到频繁项集1;(5)在哈希频繁1项集两两合并生成新的频繁2项集;(6)循环步骤(5)直到无法合并,结束算法。本发明专利技术显著的加快关联规则挖掘速度,达到及时获取时间序列数据分析结果的目标,虽然牺牲了挖掘的精确性,但可以大大的提高挖掘效率、节约机器内存。

【技术实现步骤摘要】
基于Eclat的多元时间序列关联规则挖掘方法
本专利技术属于数据挖掘
,具体涉及一种大规模数据下的进行关联规则挖掘的方法。
技术介绍
目前国内外都有一些关于近似关联规则挖掘研究,由于他们研究的侧重点不同,用的关联规则的挖掘算法不同,挖掘到的关联规则的特点也不同。一般的近似关联规则挖掘的步骤分为两个阶段,先进行预处理操作,在海量的原始数据上进行压缩,平滑,去噪,线性化近似,分割时间序列,聚类等,然后在已经处理过的数据集上进行近似关联规则挖掘算法的实施。传统的关联规则挖掘算法针对的是离散数据,挖掘出的关联规则并不能体现时间的先后顺序。第一次应用在时间序列上的关联规则的挖掘算法的提出是在1998年Das提出的。研究对象是从单时间序列挖掘的关联规则开始,后来扩展到多时间序列的挖掘。在处理时间序列数据时,把时间序列划分成长度相等的子序列,然后为每个趋势不同的子序列分配一个符号表示。这种算法关注的子序列的趋势主要有三种,上升,下降,平衡。因此,对于不同时间长度,趋势相同的子序列并不能区分。后来学者把FP-growth算法应用在时间序列关联规则挖掘方面。FP-growth算法是一种高效可扩展的算法,通过模式增长的方式,用扩展前缀树结构FP-tree,这个概要存储结构用于存储关于频繁模式的压缩和关键信息,在很多情况下都比Apriori效果更好。后来在此基础上又出现了很多改良的算法。CFP-mine算法是基于压缩的FP树,基于约束子树的方法,减少内存的调用,并且用了数组的方法,减少了遍历次数。最经典的关联规则挖掘算法是Agrawal于1993年提出的Apriori算法,Apriori算法是一种挖掘关联规则的频繁项集算法,通过逐层搜索的迭代算法,在每次生成候选的频繁项集的时候都要经过扫描,计数,比较,连接,剪枝这几个步骤。但是利用Apriori算法挖掘关联规则在验证候选频繁K项集的时候要对整个数据集进行扫描不止一遍,其时间效率很低。EH-Apriori挖掘算法在Apriori算法的基础上进行了两点改进,一是挖掘过程进行了预处理,二是将数据集的数据Hash到一个很大的表。后来Han等学者于2000年研究了关联规则的相关性质提出了FP-growth算法。FP-growth算法是通过建立具有前缀性质的FP-tree来仅仅遍历一遍数据库,就可以挖掘到频繁模式,从而提高挖掘效率。实验证明FP-growth算法的性能比Apriori快了一个数量级。Apriori与FP-growth均采用水平项集来挖掘数据,ZAKI于2000年提出Eclat算法,该算法采用垂直数据表示来挖掘关联规则。垂直数据表示数据集由项目和所有包含该项目的事务的标识的集合组成算法采用交叉计数的方式使得候选集的生成与支持度计数的计算可以同时完成。实践证明采用垂直数据表示的算法的性能一般优于采用水平数据表示的算法。由于时间序列数据量大,实时产生等特点,传统数据挖掘算法无法及时有效的挖掘到所需的知识。取样是一种在普通的资源上获取近似规则的有效手段,以其在处理大规模数据集中表现出的良好性能而得到了广泛深入的研究,是提高关联规则算法效率和可扩展性的一种简单、有效的方式。常用的设计方法有直方图方法、取样方法和小波方法等。由于取样方法良好的伸缩性和灵活性使其成为构建数据流概要的一个非常重要的方法。所有这些研究的最终目标都是利用尽可能小的样本集最佳地近似原始数据集上的信息(找到合适的样本大小和最优样本集),但这一结果的获得离不开对取样误差(数据集之间差异)的有效度量。目前缺乏系统的研究和统一、有效的模型。基于取样策略的关联规则挖掘算法,乃至整个数据挖掘算法的样本集与原始数据集之间、样本集与样本集之间包含兴趣信息差异的计算是整个取样过程的一个中心问题。近些年一种使用局部敏感哈希(LSH)技术辅助关联规则挖掘的方法逐渐开始流行。这种方法借鉴了信息检索领域快速计算相似度的手段来优化关联规则挖掘中的步骤,从而达到快速挖掘的目的。这种方式采用哈希函数对数据进行压缩,能够比较好的处理海量数据。并且经过理论和实践的验证,数据压缩带来的信息损失可以控制在一定范围内,挖掘规则的精准性也可以得到保障。在保证一定精确度的前提下,取样方法显著减小了所处理数据集的规模,使得众多数据挖掘算法得以应用到大数据集以及数据流数据上。
技术实现思路
为解决现有技术中存在的问题,本专利技术设计了一种基于Eclat的关联规则挖掘方法,显著的加快关联规则挖掘速度,达到及时获取时间序列数据分析结果的目标,虽然牺牲了挖掘的精确性,但可以大大的提高挖掘效率、节约机器内存。本专利技术具体通过如下技术方案实现:一种基于Eclat的关联规则挖掘方法,其特征在于:所述方法包括:(1)生成垂直数据集;(2)生成MINHASH矩阵,MINHASH矩阵需要指定参数k,其意义是矩阵最多有k行;(3)利用MINHASH矩阵估计原始数据集中的候选项集;(4)根据最小支持度把候选集剪枝后得到频繁项集1;(5)在哈希频繁1项集两两合并生成新的频繁2项集;(6)循环步骤(4)、(5)直到无法合并,结束算法;其中,步骤(3)中使用MinHash估计集合交集大小,对于多个集合S1,S2,…Si,…,Sm,包含最多元素的集合大小为nmax=maxi|Si|,集合交集大小估计值为其中∩kmin(Si)表示使用MinHash方法抽样形成的哈希矩阵中集合Si的交集。进一步地,所述步骤(1)中,在原始事务集上经过倒排得到垂直数据集。进一步地,步骤(2)还包括释放垂直数据集以节省内存。进一步地,所述最小支持度使用MinHash估计。进一步地,所述方法应用于多元时间序列的关联规则挖掘。附图说明图1是倒排过程的示意图;图2是生成频繁1项集的示意图;图3是抽样过程的示意图;图4是生成频繁2项集的示意图;图5是MinHash计算集合交集的示意图;图6是MinHash计算集合交集的误差示意图;图7是固定最小元素K、调整误差E得到HashEclat的速度与准确率;图8是固定误差E、调整最小元素K得到HashEclat的速度与准确率;图9是在T10I4D100K上HashEclat与Eclat速度内存比较结果;图10是在T40I10D100K上HashEclat与Eclat速度内存比较结果;图11是在OnlineRetail上HashEclat与Eclat速度内存比较结果。具体实施方式下面结合附图说明及具体实施方式对本专利技术进一步说明。由于时间序列数据量大,实时产生等特点,在挖掘关联规则之前需要对数据进行压缩,也即特征表示。时间序列的特征表示是提取数据的特征,转换数据的维度。这样能达到对特征降维的作用。同时,在低维空间中的数据还可以尽可能的保留原始时间序列的信息。首先,本专利技术研究了TEO这种特征表示方法。分析时间序列的数据特点,在分段点的两边往往会有不同的变化趋势类比图像处理中图像的边缘的灰度的变化。在图像的边缘处,图像点的灰度变化率会发生变化。若时间序列上某点之前的数据有增长的趋势,该点之后的数据有减小的趋势,则在一定程度上可以认为这个点是分段点,也就是时间序列的边缘点。时间序列的TEO表示是将图像处理中的边缘检测算子与时间序列数据特点结合的一种分段线性化表示,根据设计的时间序本文档来自技高网
...
基于Eclat的多元时间序列关联规则挖掘方法

【技术保护点】
一种基于Eclat的关联规则挖掘方法,其特征在于:所述方法包括:(1)生成垂直数据集;(2)生成MINHASH矩阵,MINHASH矩阵需要指定参数k,其意义是矩阵最多有k行;(3)利用MINHASH矩阵估计原始数据集中的候选项集;(4)根据最小支持度把候选集剪枝后得到频繁项集1;(5)在哈希频繁1项集两两合并生成新的频繁2项集;(6)循环步骤(4)、(5)直到无法合并,结束算法;其中,步骤(3)中使用MinHash估计集合交集大小,对于多个集合S1,S2,…Si,…,Sm,包含最多元素的集合大小为nmax=maxi|Si|,集合交集大小估计值为

【技术特征摘要】
1.一种基于Eclat的关联规则挖掘方法,其特征在于:所述方法包括:(1)生成垂直数据集;(2)生成MINHASH矩阵,MINHASH矩阵需要指定参数k,其意义是矩阵最多有k行;(3)利用MINHASH矩阵估计原始数据集中的候选项集;(4)根据最小支持度把候选集剪枝后得到频繁项集1;(5)在哈希频繁1项集两两合并生成新的频繁2项集;(6)循环步骤(4)、(5)直到无法合并,结束算法;其中,步骤(3)中使用MinHash估计集合交集大小,对于多个集合S1,S2,…Si,…,Sm,包含最多元素的集合大小为nmax=maxi|Si...

【专利技术属性】
技术研发人员:张春慨
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1