System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于FP-Growth算法的时间序列异常检测方法技术_技高网

一种基于FP-Growth算法的时间序列异常检测方法技术

技术编号:40502703 阅读:10 留言:0更新日期:2024-02-26 19:30
本发明专利技术涉及时间序列分析研究领域,更具体的,涉及一种基于FP‑Growth算法的时间序列异常检测方法,包括以下步骤:从信息物理系统中接收时间序列数据,并对所述时间序列数据进行预处理;将经过预处理的时间序列数据,分别用多个基于统计的时间序列预测模型得到相应的多个误差序列;将多个误差序列使用相关规则生成为事务数据集;对事务数据集使用并行化FP‑growth算法挖掘频繁项集,得到异常点集,本发明专利技术采用基于统计的时间序列预测模型并引入并行化FP‑growth算法,结构简单,可以有效的检测时间序列数据中的异常点和集体异常,解决了时间序列异常检测方法存在计算量大、结构复杂的问题。

【技术实现步骤摘要】

本专利技术涉及时间序列分析研究领域,更具体地,涉及一种基于fp-growth算法的时间序列异常检测方法。


技术介绍

1、互联网的兴起引起了两种不同但是相关的现象:在线网络的存在增加,其中,其对应的用户简档对大量人员可见;以及使用这些在线网络提供内容的增加,在线网络能够收集和跟踪关于各种实体(包括组织和公司)的大量数据,例如,在线网络能够跟踪从一家公司转移到另一家公司的用户,并且因此,总体而言,这些在线网络能够确定例如在特定时间段内有多少用户离开了特定公司,额外的细节可能是已知的和/或被添加到这些类型的度量,诸如用户离开公司去了哪些公司,以及在相同时间段期间有多少用户加入了特定公司,另外,存在在线网络可以确定关于用户可能感兴趣的这些公司的许多其他度量。

2、时间序列异常检测是指从按时间排序的数据点中抽取异常的行为,随着工业界的发展,伴随着大量时间序列数据被检测和收集,事先发现出时间序列中存在的异常可以减少损失,因此,时间序列异常检测的重要性日益凸显,时间序列异常检测应用在众多领域,在医学领域,分析心电图数据异常的心脏节律或脑电活动模式,在金融领域,检测市场中的异常行为或交易模式,其主要运用场景是在工业领域,监测设备以发现设备的故障和异常,监控网络数据以发现存在异常的数据包频率、流量峰值或异常的传输行为,当异常事件发生时,它们可能导致模型无法准确预测真实观测值,从而在误差序列中产生异常值。

3、近年来,许多时间序列异常检测方法被提出,有学者提出了一种新的框架来理解时间序列相似性连接,该框架将时间序列相似性连接问题形式化为一个最长公共子序列问题,并提出了一种新的算法来计算时间序列的最长公共子序列,该方案可以检测出时间序列异常,但没有考虑时间序列数据的噪声,并且需要大量的数据才能训练(chin-chia m y,yan z,liudmila u,nurjahan b,yifei d,hoang a d,diego f s,abdullah m,eamonn jk,et al.matrix profile i:all pairs similarity joins for time series:aunifying view that includes motifs,discords and shapelets[c],industrialconference on data mining,2016:1317-1322.),在考虑序列噪声下,有学者提出了图卷积递归神经网络(gc-rnn)是一种用于多图时间序列异常检测的新模型,gc-rnn将图卷积网络(gcn)与递归神经网络(rnn)相结合,以学习图结构和时间依赖性(smith,j.,johnson,e.,&brown,d.(2020).graph convolutional recurrent neural network for multi-graph time series anomaly detection.in ieee international conference on datamining(icdm).),但这种基于神经网络的时间序列异常检测方法,计算量大,需要大量训练数据并且训练困难,难以理解,本专利技术的方法可以解决类似上述现有技术所述的时间序列异常检测方法存在计算量大、结构复杂的问题。


技术实现思路

1、本专利技术为克服上述现有技术所述的基于神经网络的时间序列异常检测方法,计算量大,需要大量训练数据并且训练困难,难以理解,提供一种基于fp-growth算法的时间序列异常检测方法。

2、本专利技术旨在至少在一定程度上解决上述技术问题。

3、为解决上述技术问题,本专利技术的技术方案如下:

4、一种基于fp-growth算法的时间序列异常检测方法,包括以下步骤:

5、s1:从信息物理系统中获取时间序列数据;

6、s2:对步骤s1获取的时间序列数据进行预处理;

7、s3:将经过预处理的时间序列数据输入多个基于统计的时间序列预测模型,得到对应的多个误差序列;

8、s4:使用步骤s3得到的多个误差序列计算事务数据集;

9、s5:对事务数据集使用并行化fp-growth算法挖掘频繁项集,得到异常点集,完成异常的时间序列的检测。

10、所述步骤s2中,所述对步骤s1获取的时间序列数据进行预处理,包括:对时间序列数据进行daubechies 4小波去噪,使用移动平均法对去噪后的时间序列数据的缺失值进行填补。

11、所述步骤s3中,多个基于统计的时间序列预测模型包括:移动平均模型、自回归模型、移动自回归模型、季节性自回归移动平均模型、自回归条件异方差模型和季节性分解模型中的任意组合。

12、步骤s3中,得到对应的多个误差序列,具体为:

13、s3.1:将步骤s2得到的预处理后的时间序列数据分为训练序列数据和测试序列数据,其中训练序列数据为t1时刻至t3时刻的时间序列数据,测试序列数据为t3时刻至t2时刻的时间序列数据,t3∈[t1,t2];

14、s3.2:用训练序列数据训练模型,根据所述时间序列数据,利用训练好的模型预测未来时间点的时间序列,得到多个对应的预测序列;

15、s3.3:将所述多个预测序列分别和所述测试序列进行相减,得到多个误差序列。

16、所述步骤s4中,使用多个误差序列计算事务数据集,具体为:

17、s4.1:将多个误差序列使用预设方法符号化,得到多个符号序列;

18、s4.2:使用哈希表统计符号序列中每个字符的出现次数,选取出现次数大于预设最小支持度阈值的所有符号,构成事务项;

19、s4.3:如果没有处理完所有的误差序列,则返回步骤s4.1;如果处理完所有的误差序列,则将所有得到的事务项合并,得到事务项数据集,结束步骤s4.3。

20、步骤s4.1的预设方法为paa和sax的组合方法。

21、所述s5步骤中,所述对事务数据集使用并行化fp-growth算法挖掘频繁项集,检测异常的时间序列,包括以下步骤:

22、s5.1:将事务数据集随机划分为多个数据切片;

23、s5.2:将每个数据切片分配给一个map任务,在每个map任务中,读取数据切片和预设最小支持度阈值;

24、s5.2:构建一个空的根节点,按照map任务的支持度降序排序,并移除支持度低于预设最小支持度阈值的map任务,按照排序顺序将每个数据切片从根节点插入,构建局部频繁模式树;

25、s5.3:对每个局部频繁模式树进行合并,写入中间文件;

26、s5.4:将中间文件上传到hdfs,使用hadoop的merge工具将中间文件合并成一个全局频繁模式树;

27、s5.5:从全局频繁模式树的根节点开始,遍历每个项的条件模式基,构建条件fp树;

28、s5.6:从条件f本文档来自技高网...

【技术保护点】

1.一种基于FP-Growth算法的时间序列异常检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于FP-Growth算法的时间序列异常检测方法,其特征在于,所述步骤S2中,所述对步骤S1获取的时间序列数据进行预处理,包括:对时间序列数据进行Daubechies 4小波去噪,使用移动平均法对去噪后的时间序列数据的缺失值进行填补。

3.根据权利要求1所述的一种基于FP-Growth算法的时间序列异常检测方法,其特征在于,所述步骤S3中,多个基于统计的时间序列预测模型包括:移动平均模型、自回归模型、移动自回归模型、季节性自回归移动平均模型、自回归条件异方差模型和季节性分解模型中的任意组合。

4.根据权利要求1所述的一种基于FP-Growth算法的时间序列异常检测方法,其特征在于,步骤S3中,得到对应的多个误差序列,具体为:

5.根据权利要求4所述的一种基于FP-Growth算法的时间序列异常检测方法,其特征在于,所述步骤S4中,使用多个误差序列计算事务数据集,具体为:

6.根据权利要求5所述的一种基于FP-Growth算法的时间序列异常检测方法,其特征在于,步骤S4.1的预设方法为PAA和SAX的组合方法。

7.根据权利要求1所述的一种基于FP-Growth算法的时间序列异常检测方法,其特征在于,所述S5步骤中,所述对事务数据集使用并行化FP-growth算法挖掘频繁项集,检测异常的时间序列,包括以下步骤:

8.根据权利要求7所述的一种基于FP-Growth算法的时间序列异常检测方法,其特征在于,所述S5.1步骤中,所述数据切片的数量由Hadoop框架根据时间序列数据的大小和集群的计算资源自动决定。

9.基于FP-Growth算法的时间序列异常检测系统,应用于如权利要求1至8任一项所述的基于FP-Growth算法的时间序列异常检测方法,其特征在于,包括:

10.根据权利要求9所述的基于FP-Growth算法的时间序列异常检测系统,其特征在于,所述检测模块中,并行化FP-growth算法使用Apache Hadoop的MapReduce编程模型来实现并行化。

...

【技术特征摘要】

1.一种基于fp-growth算法的时间序列异常检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于fp-growth算法的时间序列异常检测方法,其特征在于,所述步骤s2中,所述对步骤s1获取的时间序列数据进行预处理,包括:对时间序列数据进行daubechies 4小波去噪,使用移动平均法对去噪后的时间序列数据的缺失值进行填补。

3.根据权利要求1所述的一种基于fp-growth算法的时间序列异常检测方法,其特征在于,所述步骤s3中,多个基于统计的时间序列预测模型包括:移动平均模型、自回归模型、移动自回归模型、季节性自回归移动平均模型、自回归条件异方差模型和季节性分解模型中的任意组合。

4.根据权利要求1所述的一种基于fp-growth算法的时间序列异常检测方法,其特征在于,步骤s3中,得到对应的多个误差序列,具体为:

5.根据权利要求4所述的一种基于fp-growth算法的时间序列异常检测方法,其特征在于,所述步骤s4中,使用多个误差序列计算事务数据集,具体为:

【专利技术属性】
技术研发人员:凌捷周丹罗玉叶盛元
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1