基于历史表现的无监督异常检测方法及系统技术方案

技术编号：34984979 阅读：15 留言：0更新日期：2022-09-21 14:29

本发明专利技术公开了一种基于历史表现的无监督异常检测方法及系统，包括以下步骤：S1：周期性触发，获取推理样本；S2：获取训练生成的模型文件和中间变量；S3：用户可对推理结果进行纠正打标，产生的新样本用于打标模式训练的使用；S4:即时模式下获取推理样本作为当前轮次的训练样本，称为T训练样本；S5：从存储中获取上一轮次的训练样本，称为T

全部详细技术资料下载

【技术实现步骤摘要】
基于历史表现的无监督异常检测方法及系统

[0001]本专利技术涉及机器学习中无监督时序异常检测领域，尤其是涉及一种基于历史表现的无监督异常检测方法及系统。

技术介绍

[0002]异常检测是数据安全领域的一个重要分支，其定义是从正常的时间序列中识别不正常的事件或行为的过程。企业使用异常检测技术可以对网络数据、用户敏感访问和操作进行实时监测，当发现异常时，及时采取措施最终保障信息安全、减少企业损失。
[0003]现有的异常检测技术主要分为以下几类：1、基于统计预测的方法：通过预测值和实际值的误差大小来判定出现异常的位置。代表算法有EMA、AR、ARIMA。
[0004]缺陷：多维时间序列转换为多个单维时间序列分别进行预测，需要建立多个模型，当数据维度增长时，算法的计算量显著增长，不适用于数据量大、有实时性要求的异常检测场景；仅适用于平稳性较好的时序数据。
[0005]2、基于有监督分类的方法：代表算法有支持向量机、K近邻、决策树一族、深度神经网络等。
[0006]缺陷：实际工程应用中获取时序数据是否异常的标签成本高，难以落地。
[0007]3、基于无监督学习的方法：基于聚类的代表算法有K
‑
means、DBSCAN、高斯混合模型GMM等；另一方面，也有基于树的异常检测方法如孤立森林。
[0008]缺陷：传统的无监督异常检测算法的对象是无序变量，但时序数据是有序的，在建模的过程中会丢失时间维度的信息。无监督学习缺乏有效的评估指标，难以做到系统高度自动化。r/>[0009]针对以上痛点，本专利技术实现了一种针对多维时序特征的基于历史表现的无监督异常检测方法及系统：1、采用希尔伯特黄算法做时频分析，同时考虑了时间和频率维度的信息，实现同时对时域和频域进行异常检测，覆盖面广。
[0010]2、采用孤立森林无监督学习算法来检测异常，无需对时序数据进行打标，在实际工程应用中能够快速落地。
[0011]3、在同一时刻保留各个维度之间的相互关系，单模型实现多维时序特征的异常检测，快速、实时性好。
[0012]4、使用二分轮廓系数来指导参数调优，使系统能够高度自动化。自动化的参数调优让无监督算法效果也能得到保障。
[0013]5、异常检测在线学习系统高度自动化，能够实现对各类数据的异常时序和频率的检测、告警等目标。

技术实现思路

[0014]针对现有技术存在的问题，本专利技术的目的在于提供一种多维时序、基于历史、无监督、快速、高度自动化的异常检测算法方案及系统，能够实现对数据异常时序和频率的检测、告警等目标。
[0015]为实现上述目的，本专利技术提供一种基于历史表现的无监督异常检测方法，所述方法包括以下步骤：S1：周期性触发，获取推理样本；S2：获取训练生成的模型文件和中间变量，对推理样本执行希尔伯特黄
‑
孤立森林算法的推理流程；S3：用户可对推理结果进行纠正打标，产生的新样本用于打标模式训练的使用；S4: 即时模式下获取推理样本作为当前轮次的训练样本（T训练样本）；打标模式下获取最新的打标样本作为T训练样本；S5：从存储中获取上一轮次的训练样本（T
‑
1训练样本），以时间为索引对T
‑
1和T训练样本进行拼接、去重、存储，得到完整的训练样本；S6: 对训练样本进行交叉验证，计算评估指标二分轮廓系数；S7: 执行模型调优，使用网格搜索的方法重复执行S6；S8:使用二分轮廓系数最大时的模型参数训练生成希尔伯特黄
‑
孤立森林异常检测模型。
[0016]进一步，推理样本为包含时间戳和时序信息的文本数据。
[0017]进一步，推理流程生成的推理结果为包含时间戳和多维时序信息是否为异常的标签。
[0018]进一步，打标样本需要对打标为异常的时序做缺失处理，再插补缺失值。
[0019]进一步，系统启动后首次执行推理，由于尚未执行过训练，不存在模型文件和中间变量，推理结果将默认全部正常；在之后的推理任务中，将获取和使用最新一次的训练生成的模型。
[0020]进一步，网格搜索通过遍历给定的模型参数组合来优化模型表现。
[0021]进一步，打标样本为包含时间戳、时序信息和用户打标标签的文本数据。
[0022]进一步，步骤S6中，交叉验证和计算流程包括：S61: 执行保证数据连续性的数据划分，形成K次实验；S62: 对于第1～K次实验，对训练集执行希尔伯特黄
‑
孤立森林算法的训练流程，得到K个异常检测模型。
[0023]S63: 对于第1～K次实验，使用S62得到的模型对测试集上执行希尔伯特黄
‑
孤立森林算法的推理流程。
[0024]S64: 对于第1～K次实验，计算二分轮廓系数。
[0025]S65: 根据第1～K次实验得到的二分轮廓系数取均值，生成最终的二分轮廓系数。
[0026]进一步，所述方法中使用的二分轮廓系数如下：二分轮廓系数是衡量异常检测模型结果质量的评估指标。二分轮廓系数考虑的有两个因素：预测为正常的标签和预测为异常的标签的内聚度和分离度，它们的值介于[
‑
1,1]，越趋近于1则代表内聚度和分离度都相对较优。我们希望在模型预测的结果中，正常的
标签与异常的标签对应的点之间的距离足够的远，同时正常的标签对应的点簇中及异常的标签对应的点簇中的点足够的近，而不考虑正常的点簇之间与异常的点簇之间的情况。
[0027]步骤S64中计算轮廓系数的具体步骤如下：S641: 使用经典聚类算法，例如k
‑
means，分别对模型预测的正常的标签和异常的标签对应的值做聚类，得到正常的标签中值对应的具体类别和异常的标签中值对应的具体类别，按先异常再正常的顺序重构待评估数据；S642: 对于正常点簇中的每一个类别，取出对应的点集，对点集中的每个点分别计算类内与其他点的距离均值、类外到其他所有异常簇的距离之和的最小平均值，使用下述公式计算点的二分轮廓系数值；异常点簇计算类似，对于异常点簇中的每一个类别，取出对应的点集，对点集中的每个点分别计算类内与其他点的距离均值、类外到其他所有正常簇的距离之和的最小平均值，同样使用下述公式计算点的二分轮廓系数值；最后计算二分轮廓系数均值；S643: 对Step 2得到的二分轮廓系数结果集的子集，计算超过Step 1得到的二分轮廓系数均值的比例值；S644: 对Step 2得到的二分轮廓系数结果集中的每个子集的值求和，并以Step 3得到的比例值作为权重做加权求和，再除以点数做归一化，即得到模型对应的整体的二分轮廓系数的值。
[0028]本方法中步骤S2和S63中使用的希尔伯特黄
‑
孤立森林算法具体如下：S100: 对维的时序特征进行经验模态分解，得到个固有模态函数和残差，其关系满足：其中时序特征是一个时间步长为，维度为，每个元素为实数的矩阵X；是经验模态分解得到的第个固有模态函数，其矩阵表本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于历史表现的无监督异常检测方法，其特征在于，所述方法包括以下步骤：S1：周期性触发，获取推理样本；S2：获取训练生成的模型文件和中间变量，对推理样本执行希尔伯特黄
‑
孤立森林算法的推理流程；S3：用户可对推理结果进行纠正打标，产生的新样本用于打标模式训练的使用；S4: 即时模式下获取推理样本作为当前轮次的训练样本，称为T训练样本；打标模式下获取最新的打标样本作为T训练样本；S5：从存储中获取上一轮次的训练样本，称为T
‑
1训练样本，以时间为索引对T
‑
1训练样本和T训练样本进行拼接、去重和存储，得到完整的训练样本；S6: 对训练样本进行交叉验证，计算评估指标二分轮廓系数；S7: 执行模型调优，使用网格搜索的方法重复执行S6；S8:使用二分轮廓系数最大时的模型参数训练生成希尔伯特黄
‑
孤立森林异常检测模型。2.根据权利要求1所述的一种基于历史表现的无监督异常检测方法，其特征在于，推理样本为包含时间戳和时序信息的文本数据。3.根据权利要求2所述的一种基于历史表现的无监督异常检测方法，其特征在于，推理生成推理结果和日志文件。4.根据权利要求3所述的一种基于历史表现的无监督异常检测方法，其特征在于，系统启动后首次执行推理，由于尚未执行过训练，不存在模型文件和中间变量，推理结果将默认全部正常；在之后的推理任务中，将获取和使用最新一次的训练生成的模型。5.根据权利要求4所述的一种基于历史表现的无监督异常检测方法，其特征在于，所述网格搜索通过遍历给定的模型参数组合来优化模型表现。6.根据权利要求5所述的一种基于历史表现的无监督异常检测方法，其特征在于，打标样本为包含时间戳、时序信息和用户打标标签的文本数据。7.根据权利要求6所述的一种基于历史表现的无监督异常检测方法，其特征在于，步骤S6中，验证和计算流程包括：S61: 执行保证数据连续性的数据划分，形成K次实验；S62: 对于第1～K次实验，对训练集执行希尔伯特黄
‑
孤立森林算法的训练流程，得到K个异常检测模型；S63: 对于第1～K次实验，使用S62得到的模型对测试集上执行希尔伯特黄
‑
孤立森林算法...

【专利技术属性】
技术研发人员：黄铮，秦宝帅，周倩如，
申请(专利权)人：杭州比智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人