基于时间序列分类的业务数据异常检测方法技术

技术编号:23432092 阅读:25 留言:0更新日期:2020-02-25 13:17
本发明专利技术公开了一种基于时间序列分类的业务数据异常检测方法,包括如下步骤:S1:提取离线业务数据,对离线的业务数据按时间序列进行分类,生成包括不同类型时间序列的样本库;S2:将样本库中的不同类型时间序列与不同的时间序列异常检测算法进行关联;S3:获取在线业务数据,根据样本库中时间序列的分类对在线业务数据按时间序列进行分类;S4:根据时间序列分类与时间序列异常检测算法的关联关系对分类后的在线时间序列进行异常检测。本发明专利技术针对不同类型的时间序列自动分类识别,自动选择参数或者算法进行时间序列异常检测,在处理大规模时间序列异常检测时自动识别时间序列类型,减少告警的误报漏报,有效节省人力成本。

Business data anomaly detection method based on time series classification

【技术实现步骤摘要】
基于时间序列分类的业务数据异常检测方法
本专利技术涉及一种异常检测方法,尤其涉及一种基于时间序列分类的业务数据异常检测方法。
技术介绍
时间序列指标的异常检测是发现问题的核心环节,传统的静态阈值检测为主的方式,阈值太高,漏告警多,质量隐患难以发现,阈值太低,告警太多引发告警风暴,干扰业务运维人员的判断。针对不同类型的时间序列需要人工选择使用什么样的异常检测算法,在时间序列数量较少时可以人为选择,在需要对大规模时间序列进行异常检测时人工处理会有很大的局限性。因此,需要一种针对大规模时间序列进行分类,并依据不同的分类使用不同的参数或算法进行异常检测的方法。
技术实现思路
本专利技术要解决的技术问题是提供一种基于时间序列分类的业务数据异常检测方法,针对不同类型的时间序列自动分类识别,不同类型的时间序列自动选择参数或者算法进行时间序列异常检测。本专利技术为解决上述技术问题而采用的技术方案是提供一种基于时间序列分类的业务数据异常检测方法,包括如下步骤:S1:提取离线业务数据,对离线的业务数据按时间序列进行分类,生成包括不同类型时间序列的样本库;S2:将样本库中的不同类型时间序列与不同的时间序列异常检测算法进行关联;S3:获取在线业务数据,根据步骤S1中样本库中时间序列的分类对在线的业务数据按时间序列进行分类;S4:根据步骤S2中时间序列分类与时间序列异常检测算法的关联关系对分类后的在线时间序列进行异常检测。进一步的,所述步骤S1中时间序列的分类方式包括根据时间序列相似性进行聚类,具体包括如下步骤:S11:定义时间序列之间的距离;S12:根据步骤S11中定义的时间序列之间的距离,计算出时间序列间的距离矩阵;S13:根据步骤S12中的计算结果和给定的时间序列两两间的最大距离和每个类内的最小样本数,将时间序列分成若干类。进一步的,进行相似性聚类的时间序列的时间戳、时间间隔以及时间序列长度具有相同取值,所述时间序列之间的距离定义是基于欧氏距离,采用DTW时序对齐策略通过LBKeogh下界方法到达DTW的边界,计算时间序列间的距离;通过密度聚类算法进行时间序列的分类。进一步的,所述步骤S1中时间序列进行分类方式还包括根据时间序列的全局特征进行层次聚类,时间序列层次聚类的分类特征包括趋势、季节性、周期性、序列相关、偏度、峰度、非线性、自相似性、混沌、分解后的序列相关、分解后的非线性、分解后的偏度和分解后的峰度。进一步的,通过时间序列的全局特征进行层次聚类时,所述时间序列的时间戳、时间间隔和时间序列长度具有相同取值。进一步的,所述步骤S2具体包括选出时间序列主要的类别,作为样本库的一种时间序列类型,绑定对应的异常检测算法以及参数,并作为线上分类的依据。进一步的,所述异常检测算法包括基于预测的ARIMA算法、加权移动平均算法、小波分解算法和3-sigma算法,所述基于预测的ARIMA算法和加权移动平均算法是针对稳定的周期型的时间序列的异常检测算法;所述小波分解算法和3-sigma算法是针对不稳定的时间序列的异常检测算法。进一步的,所述步骤S4具体包括根据分类后的在线时间序列类型,获取样本库中相同类型的时间序列关联的异常检测算法并由该算法对分类后的在线时间序列进行异常检测。本专利技术对比现有技术有如下的有益效果:本专利技术提供的基于时间序列分类的业务数据异常检测方法,针对不同类型的时间序列自动分类识别,不同类型的时间序列自动选择参数或者算法进行时间序列异常检测,在处理大规模时间序列异常检测时自动识别时间序列类型,无需过多的人为参与,减少告警的误报漏报,有效节省人力成本。附图说明图1为本专利技术实施例中基于时间序列分类的业务数据异常检测方法流程图;图2为本专利技术实施例中基于时间序列分类的业务数据异常检测方法示意图;图3为本专利技术实施例中时间序列相似性聚类效果图;图4为本专利技术实施例中时间序列层次聚类效果图;图5为本专利技术实施例中基于时间序列分类的业务数据异常检测方法效果图。具体实施方式下面结合附图和实施例对本专利技术作进一步的描述。图1为本专利技术实施例中基于时间序列分类的业务数据异常检测方法流程图;图2为本专利技术实施例中基于时间序列分类的业务数据异常检测方法示意图。请参见图1和图2,本专利技术提供的基于时间序列分类的业务数据异常检测方法,包括如下步骤:S1:提取离线业务数据,对离线的业务数据按时间序列进行分类,生成包括不同类型时间序列的样本库;S2:将样本库中的不同类型时间序列与不同的时间序列异常检测算法进行关联;S3:获取在线业务数据,根据步骤S1中样本库中时间序列的分类对在线的业务数据按时间序列进行分类;S4:根据步骤S2中时间序列分类与时间序列异常检测算法的关联关系对分类后的在线时间序列进行异常检测。具体的,本专利技术提供的基于时间序列分类的业务数据异常检测方法,时间序列的分类方式包括根据时间序列相似性进行聚类,具体包括如下步骤:S11:定义时间序列之间的距离;S12:根据步骤S11中定义的时间序列之间的距离,计算出时间序列间的距离矩阵;S13:根据步骤S12中的计算结果和给定的时间序列两两间的最大距离和每个类内的最小样本数,将时间序列分成若干类。两条时间序列之间距离的定义,包括基于欧氏距离(EuclideanDistance)和基于DTW(DynamicTimeWarping)时序对齐。欧氏距离是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离),在二维和三维空间中的欧氏距离的就是两点之间的实际距离。DTW(DynamicTimeWarping,动态时间归整)算法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,用于孤立词识别。在这里用到了DTW算法,然后是聚类采用的算法是密度聚类(DBSCAN),密度聚类是一种基于密度的聚类算法,这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本,他们之间的紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。通过将紧密相连的样本划为一类,这样就得到了一个聚类类别。通过将所有各组紧密相连的样本划为各个不同的类别,则我们就得到了最终的所有聚类类别结果。该算法的作用是在给定样本两两之间的最大距离和每个类内的最小样本数,无监督地将样本总体分成若干类。具体实现过程如下:从数据库导出了16条时间序列,每条时间序列包括7000多个数据点,计算出距离矩阵,这里的距离就是DTW距离,DTW是一种度量时序相似性和非相似性的时序对齐策略,但是算法的时间复杂度为o(n2),导致在计算大量的时间序列距离时计算成本高。对上述的16条序列,要计算出距离矩阵,通过电脑需要花费了将近1小时,因此,这里用到了计算时序距离的加速算法使用LBKeogh下界方法计算DTW的边界,这个算法的时间复杂度为线性的本文档来自技高网...

【技术保护点】
1.一种基于时间序列分类的业务数据异常检测方法,其特征在于,包括如下步骤:/nS1:提取离线业务数据,对离线的业务数据按时间序列进行分类,生成包括不同类型时间序列的样本库;/nS2:将样本库中的不同类型时间序列与不同的时间序列异常检测算法进行关联;/nS3:获取在线业务数据,根据步骤S1中样本库中时间序列的分类对在线的业务数据按时间序列进行分类;/nS4:根据步骤S2中时间序列分类与时间序列异常检测算法的关联关系对分类后的在线时间序列进行异常检测。/n

【技术特征摘要】
1.一种基于时间序列分类的业务数据异常检测方法,其特征在于,包括如下步骤:
S1:提取离线业务数据,对离线的业务数据按时间序列进行分类,生成包括不同类型时间序列的样本库;
S2:将样本库中的不同类型时间序列与不同的时间序列异常检测算法进行关联;
S3:获取在线业务数据,根据步骤S1中样本库中时间序列的分类对在线的业务数据按时间序列进行分类;
S4:根据步骤S2中时间序列分类与时间序列异常检测算法的关联关系对分类后的在线时间序列进行异常检测。


2.如权利要求1所述的基于时间序列分类的业务数据异常检测方法,其特征在于,所述步骤S1中时间序列的分类方式包括根据时间序列相似性进行聚类,具体包括如下步骤:
S11:定义时间序列之间的距离;
S12:根据步骤S11中定义的时间序列之间的距离,计算出时间序列间的距离矩阵;
S13:根据步骤S12中的计算结果和给定的时间序列两两间的最大距离和每个类内的最小样本数,将时间序列分成若干类。


3.如权利要求2所述的基于时间序列分类的业务数据异常检测方法,其特征在于,进行相似性聚类的时间序列的时间戳、时间间隔以及时间序列长度具有相同取值,所述时间序列之间的距离定义是基于欧氏距离,采用DTW时序对齐策略通过LBKeogh下界方法到达DTW的边界,计算时间序列间的距离;通过密度聚类算法进行时间序列的分类。


4.如权利要求1所述的基于时间序列分类的...

【专利技术属性】
技术研发人员:程永新宋辉
申请(专利权)人:上海新炬网络信息技术股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1