一种基于聚类的自适应时间序列异常检测方法及装置制造方法及图纸

技术编号:19142001 阅读:33 留言:0更新日期:2018-10-13 08:57
本发明专利技术涉及数据处理技术领域,提供了一种基于聚类的自适应时间序列异常检测方法及装置,该方法包括:通过SAX方法对训练集中的时间序列进行降维和符号化,得到符号化的时间序列;根据符号化的时间序列构建前缀树;通过滑动窗口从测试集中提取测试子序列,并判断测试集中提取的测试子序列与前缀树中的一个路径匹配时,将该提取的测试子序列标记为正常。本发明专利技术通过降维来减少可能的时间和空间复杂度,并且其中的模型可在测试数据过程中自我修改并适应新的模式,适用于具有有一定规律或者周期性的数据集。

An adaptive time series anomaly detection method and device based on Clustering

The invention relates to the technical field of data processing, and provides an adaptive time series anomaly detection method and device based on clustering. The method comprises reducing dimension and symbolizing time series in training set by SAX method, obtaining symbolized time series, and constructing prefix tree according to symbolized time series. The test subsequence is extracted from the test set by sliding window. When the test subsequence extracted from the test set matches a path in the prefix tree, the test subsequence is marked as normal. The invention reduces the possible time and space complexity by reducing the dimension, and the model can self-modify and adapt to the new mode in the process of testing data, which is suitable for data sets with certain regularity or periodicity.

【技术实现步骤摘要】
一种基于聚类的自适应时间序列异常检测方法及装置
本专利技术涉及数据处理
,尤其涉及一种基于聚类的自适应时间序列异常检测方法及装置。
技术介绍
时间序列无处不在,广泛应用于医学分析,天气预报,股票预测等领域。多年来,研究人员一直在研究时间序列异常检测和数据清理。异常检测对数据分析和状态检查至关重要。例如,入侵检测系统高度依赖于异常检测,因为系统状态被看作是状态参数的时间序列。霍金斯将异常值定义为一种观察结果,它显然或从统计上偏离了其他观察结果。显然,我们可以利用这个对于时间序列异常值的定义来设计检测方案。目前,有如下几种流行的异常检测方法:1、无监督学习方法,比如KNN。无监督方法一般过于简单,他们虽然万能,但是精准度往往不高,也经常会错误地识别异常。2、金融,医疗等行业结合的算法,比如HTM。这些算法往往他们只能用于相应领域的数据,一旦偏离这个领域,算法的识别率会出现很大的限制。3、基于数据统计规律的方法,比如IMR。这些方法首先要找到数据内的统计规律,对于一维时间序列,通常是找出速度变化率,或者是垂直方位上的变化限制;对于多维的时间序列,可以找到序列之间的统计规律,比如正态分布,然后通过统计规律设计聚类算法。这一类方法的缺点在于,需要预先知道数据的统计性质,可能还需要领域专家的帮助。4、机器学习算法,比如SVM,HMM。机器学习算法是新兴的探究时间序列异常的方法,这个领域刚刚起步,有一定的发展,通过训练模型来检测待测数据的异常情况。然而,一方面,上述时间序列处理过程中占用的空间大。另一方面,如果数据是周期时间序列,上述大部分方法都有其局限性,比如无法表示其统计规律,时间序列没有简单到用常见的无监督方法检测异常。其次,时间序列可能会随着时间的推进,出现一定的变化,比如由于温度的影响,石油的某些性质发生了微弱的变化,但是时间序列依然属于正常范围。在这些可能的情况下,之前的方法可能不太适用。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述一个或多个的缺陷,提供了一种基于聚类的自适应时间序列异常检测方法及装置。为了解决上述技术问题,本专利技术提供了基于聚类的自适应时间序列异常检测方法,包括:1)通过SAX方法对训练集中的时间序列进行降维和符号化,得到符号化的时间序列;2)根据符号化的时间序列构建前缀树;3)通过滑动窗口从测试集中提取测试子序列,并判断测试集中提取的测试子序列与前缀树中的一个路径匹配时,将该提取的测试子序列标记为正常。可选地,所述步骤2)中根据符号化的时间序列构建前缀树,包括:通过滑动窗口扫描所述符号化的时间序列,得到具有相同长度字符的子序列,并根据从训练数据中提取的所述子序列构建前缀树。可选地,所述步骤3)中在判断测试集中提取的测试子序列与前缀树中的任一路径均不匹配时,将该提取的测试子序列标记为异常。可选地,所述前缀树包括红色路径和黑色路径;所述步骤2)中根据符号化的时间序列构建前缀树中的红色路径;所述步骤3)中在判断测试集中提取的测试子序列与前缀树中的任一路径均不匹配时,进一步计算该提取的测试子序列与所述前缀树中从树根到叶节点的所有红色路径之间的最小距离,当小于预设阈值时,将该提取的测试子序列标记为正常,并将该提取的测试子序列插入前缀树中作为黑色路径,当不小于预设阈值时将该提取的测试子序列标记为异常;转步骤3)提取下一个测试子序列进行检测。可选地,所述步骤3)中检测黑色路径的计数达到预设值时转换为红色路径。本专利技术还提供了一种基于聚类的自适应时间序列异常检测装置,至少包括:离散处理单元、前缀树构建单元和异常检测单元;所述离散处理单元,用于通过SAX方法对训练集中的时间序列进行降维和符号化,得到符号化的时间序列;所述前缀树构建单元,用于根据符号化的时间序列构建前缀树;所述异常检测单元,用于通过滑动窗口从测试集中提取测试子序列,并判断测试集中提取的测试子序列与前缀树中的一个路径匹配时,将该提取的测试子序列标记为正常。可选地,所述前缀树构建单元通过滑动窗口扫描所述符号化的时间序列,得到具有相同长度字符的子序列,并根据从训练数据中提取的所述子序列构建前缀树。可选地,所述异常检测单元在判断测试集中提取的测试子序列与前缀树中的任一路径均不匹配时,将该提取的测试子序列标记为异常。可选地,所述前缀树包括红色路径和黑色路径;所述前缀树构建单元中根据符号化的时间序列构建前缀树中的红色路径;所述异常检测单元中在判断测试集中提取的测试子序列与前缀树中的任一路径均不匹配时,进一步计算该提取的测试子序列与所述前缀树中从树根到叶节点的所有红色路径之间的最小距离,当小于预设阈值时,将该提取的测试子序列标记为正常,并将该提取的测试子序列插入前缀树中作为黑色路径,当不小于预设阈值时将该提取的测试子序列标记为异常;所述异常检测单元随后继续提取下一个测试子序列进行检测。可选地,所述异常检测单元检测黑色路径的计数达到预设值时转换为红色路径。实施本专利技术实施例提供的基于聚类的自适应时间序列异常检测方法及装置,至少具有如下有益效果:1、本专利技术通过降维来减少可能的时间和空间复杂度,将时间序列存储于少量、固定的数据结构中,能够极大地减少时间序列需要的存储空间,同时尽量保证时间序列波动和性质的完整性。2、本专利技术在测试数据途中,模型可以自我修改并适应新的模式,因此本专利技术既能够准确识别时间序列异常,还能够随着时间序列的变化,适应时间序列的某些正常趋势变化。附图说明图1是本专利技术实施例一所提供基于聚类的自适应时间序列异常检测方法的流程图;图2是根据从训练数据中提取的子序列构建前缀树的示意图;图3是本专利技术实施例三所提供基于聚类的自适应时间序列异常检测方法中异常检测步骤的流程图;图4是本专利技术实施例四所提供基于聚类的自适应时间序列异常检测装置的示意图。图中:401:离散处理单元;402:前缀树构建单元;403:异常检测单元。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一如图1所示,本专利技术实施例提供的基于聚类的自适应时间序列异常检测方法,可以包括以下步骤:步骤S101:通过SAX(symbolicaggregateapproximation)方法对训练集中的时间序列进行降维和符号化,得到符号化的时间序列;SAX是一种时间序列距离测量的方法,具体参见JLin等发表的“ASymbolicRepresentationofTimeSeries,withImplicationsforStreamingAlgorithms”。该方法假设原始数据具有正态分布,高斯分布曲线依据被垂直于x坐标的直线平均分割为σ个等面积的部分(σ是预先设定的字符表大小,一般取3-10),分割点由若干中断点组成,就可以简单地确定在高斯曲线下产生若干等大小的区域。因此,每个区域范围内的时间序列的区间将被一个字符替换。由此可将时间序列的多个连续时间戳(例如50个时间戳)按照上述方法转化为一个字符,从而将本文档来自技高网
...

【技术保护点】
1.一种基于聚类的自适应时间序列异常检测方法,其特征在于,包括:1)通过SAX方法对训练集中的时间序列进行降维和符号化,得到符号化的时间序列;2)根据符号化的时间序列构建前缀树;3)通过滑动窗口从测试集中提取测试子序列,并判断测试集中提取的测试子序列与前缀树中的一个路径匹配时,将该提取的测试子序列标记为正常。

【技术特征摘要】
1.一种基于聚类的自适应时间序列异常检测方法,其特征在于,包括:1)通过SAX方法对训练集中的时间序列进行降维和符号化,得到符号化的时间序列;2)根据符号化的时间序列构建前缀树;3)通过滑动窗口从测试集中提取测试子序列,并判断测试集中提取的测试子序列与前缀树中的一个路径匹配时,将该提取的测试子序列标记为正常。2.根据权利要求1所述的方法,其特征在于,所述步骤2)中根据符号化的时间序列构建前缀树,包括:通过滑动窗口扫描所述符号化的时间序列,得到具有相同长度字符的子序列,并根据从训练数据中提取的所述子序列构建前缀树。3.根据权利要求1所述的方法,其特征在于,所述步骤3)中在判断测试集中提取的测试子序列与前缀树中的任一路径均不匹配时,将该提取的测试子序列标记为异常。4.根据权利要求1所述的方法,其特征在于,所述前缀树包括红色路径和黑色路径;所述步骤2)中根据符号化的时间序列构建前缀树中的红色路径;所述步骤3)中在判断测试集中提取的测试子序列与前缀树中的任一路径均不匹配时,进一步计算该提取的测试子序列与所述前缀树中从树根到叶节点的所有红色路径之间的最小距离,当小于预设阈值时,将该提取的测试子序列标记为正常,并将该提取的测试子序列插入前缀树中作为黑色路径,当不小于预设阈值时将该提取的测试子序列标记为异常;转步骤3)提取下一个测试子序列进行检测。5.根据权利要求4所述的方法,其特征在于,所述步骤3)中检测黑色路径的计数达到预设值时转换为红色路径。6.一种基于聚类的自适应时间序列异常检测装置,其特...

【专利技术属性】
技术研发人员:王宏志杜冠宏万晓珑
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1