The invention relates to the technical field of data processing, and provides an adaptive time series anomaly detection method and device based on clustering. The method comprises reducing dimension and symbolizing time series in training set by SAX method, obtaining symbolized time series, and constructing prefix tree according to symbolized time series. The test subsequence is extracted from the test set by sliding window. When the test subsequence extracted from the test set matches a path in the prefix tree, the test subsequence is marked as normal. The invention reduces the possible time and space complexity by reducing the dimension, and the model can self-modify and adapt to the new mode in the process of testing data, which is suitable for data sets with certain regularity or periodicity.
【技术实现步骤摘要】
一种基于聚类的自适应时间序列异常检测方法及装置
本专利技术涉及数据处理
,尤其涉及一种基于聚类的自适应时间序列异常检测方法及装置。
技术介绍
时间序列无处不在,广泛应用于医学分析,天气预报,股票预测等领域。多年来,研究人员一直在研究时间序列异常检测和数据清理。异常检测对数据分析和状态检查至关重要。例如,入侵检测系统高度依赖于异常检测,因为系统状态被看作是状态参数的时间序列。霍金斯将异常值定义为一种观察结果,它显然或从统计上偏离了其他观察结果。显然,我们可以利用这个对于时间序列异常值的定义来设计检测方案。目前,有如下几种流行的异常检测方法:1、无监督学习方法,比如KNN。无监督方法一般过于简单,他们虽然万能,但是精准度往往不高,也经常会错误地识别异常。2、金融,医疗等行业结合的算法,比如HTM。这些算法往往他们只能用于相应领域的数据,一旦偏离这个领域,算法的识别率会出现很大的限制。3、基于数据统计规律的方法,比如IMR。这些方法首先要找到数据内的统计规律,对于一维时间序列,通常是找出速度变化率,或者是垂直方位上的变化限制;对于多维的时间序列,可以找到序列之间的统计规律,比如正态分布,然后通过统计规律设计聚类算法。这一类方法的缺点在于,需要预先知道数据的统计性质,可能还需要领域专家的帮助。4、机器学习算法,比如SVM,HMM。机器学习算法是新兴的探究时间序列异常的方法,这个领域刚刚起步,有一定的发展,通过训练模型来检测待测数据的异常情况。然而,一方面,上述时间序列处理过程中占用的空间大。另一方面,如果数据是周期时间序列,上述大部分方法都有其局限性,比如无 ...
【技术保护点】
1.一种基于聚类的自适应时间序列异常检测方法,其特征在于,包括:1)通过SAX方法对训练集中的时间序列进行降维和符号化,得到符号化的时间序列;2)根据符号化的时间序列构建前缀树;3)通过滑动窗口从测试集中提取测试子序列,并判断测试集中提取的测试子序列与前缀树中的一个路径匹配时,将该提取的测试子序列标记为正常。
【技术特征摘要】
1.一种基于聚类的自适应时间序列异常检测方法,其特征在于,包括:1)通过SAX方法对训练集中的时间序列进行降维和符号化,得到符号化的时间序列;2)根据符号化的时间序列构建前缀树;3)通过滑动窗口从测试集中提取测试子序列,并判断测试集中提取的测试子序列与前缀树中的一个路径匹配时,将该提取的测试子序列标记为正常。2.根据权利要求1所述的方法,其特征在于,所述步骤2)中根据符号化的时间序列构建前缀树,包括:通过滑动窗口扫描所述符号化的时间序列,得到具有相同长度字符的子序列,并根据从训练数据中提取的所述子序列构建前缀树。3.根据权利要求1所述的方法,其特征在于,所述步骤3)中在判断测试集中提取的测试子序列与前缀树中的任一路径均不匹配时,将该提取的测试子序列标记为异常。4.根据权利要求1所述的方法,其特征在于,所述前缀树包括红色路径和黑色路径;所述步骤2)中根据符号化的时间序列构建前缀树中的红色路径;所述步骤3)中在判断测试集中提取的测试子序列与前缀树中的任一路径均不匹配时,进一步计算该提取的测试子序列与所述前缀树中从树根到叶节点的所有红色路径之间的最小距离,当小于预设阈值时,将该提取的测试子序列标记为正常,并将该提取的测试子序列插入前缀树中作为黑色路径,当不小于预设阈值时将该提取的测试子序列标记为异常;转步骤3)提取下一个测试子序列进行检测。5.根据权利要求4所述的方法,其特征在于,所述步骤3)中检测黑色路径的计数达到预设值时转换为红色路径。6.一种基于聚类的自适应时间序列异常检测装置,其特...
【专利技术属性】
技术研发人员:王宏志,杜冠宏,万晓珑,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。