基于孤立森林动态训练的实时异常检测方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37124813 阅读:14 留言:0更新日期:2023-04-01 05:21
本申请提供一种基于孤立森林动态训练的实时异常检测方法,该方法包括:基于用户设置的历史追溯时间获取历史流量数据和当前时间窗口内产生的实时流量数据基于所述历史流量数据和所述实时流量数据生成数据集,并基于所述用户设置的采样参数,从所述数据集随机采样出样本数据;基于样本划分属性、划分值和所述用户设置的训练参数对所述样本数据进行训练并得到孤立森林模型,其中,所述孤立森林模型包括每个所述随机维度的训练结果树等步骤。本申请能够实现动态检测异常行为事件,并提高训练、检测的灵活性。检测的灵活性。检测的灵活性。

【技术实现步骤摘要】
基于孤立森林动态训练的实时异常检测方法、装置、电子设备和存储介质


[0001]本申请涉及计算机
,具体而言,涉及一种基于孤立森林动态训练的实时异常检测方法、装置、电子设备和存储介质。

技术介绍

[0002]随着社会经济发展,网络行为的场景日益多样,异常行为事件的发生频率也日益增加,针对异常个/群体检测的技术手段也日益丰富。
[0003]目前,现有技术提供一种随机森林模型的训练方法,和基于此方法的异常流量检测装置,然而该方法训练得到的基线是恒定的,除非重新开启装置再次训练,否则在一个完整的检测过程中,训练结果永远为定值,因此其无法应用在实时分心场景中。
[0004]此外,这种方法还存在用户难以参阅训练检测过程、准确性低等缺点。

技术实现思路

[0005]本申请实施例的目的在于提供一种基于孤立森林动态训练的实时异常检测方法、装置、电子设备和存储介质,用以实现动态检测异常行为事件,并提高训练、检测的灵活性。
[0006]第一方面,本专利技术提供一种基于孤立森林动态训练的实时异常检测方法,所述方法应用于实时计算框架中,其中,所述实时计算框架循环执行所述方法,每次执行所述方法为一个时间窗口,所述方法包括:
[0007]基于用户设置的历史追溯时间获取历史流量数据和当前时间窗口内产生的实时流量数据;
[0008]基于所述历史流量数据和所述实时流量数据生成数据集,并基于所述用户设置的采样参数,从所述数据集随机采样出样本数据;
[0009]基于样本划分属性、划分值和所述用户设置的训练参数对所述样本数据进行训练并得到孤立森林模型,其中,所述孤立森林模型包括每个所述随机维度的训练结果树;
[0010]将所述实时流量数据输入到所述孤立森林模型中,以使所述孤立森林模型计算所述实时流量数据的异常值分数;
[0011]基于所述用户设置的分数阈值和所述实时流量数据的异常值分数,判断所述实时流量数据是否为异常行为事件。
[0012]在本申请第一方面中,由于基于孤立森林动态训练的实时异常检测方法应用在实时计算框架中,且实时计算框架每在一个时间窗口就执行该方法一次,这样一来,伴随着实时计算框架的时间窗口的滚动,可动态训练孤立森林模型和通过孤立森林模型动态检测实时流量数据是否为异常行为事件,即本申请能够实现动态采样、动态训练和动态异常检测,从而能够应用在实时分析场景中。
[0013]另一方面,由于获取历史流量数据过程采用了基于用户设置的历史追溯时间、采样数据过程采用了用户设置的采样参数、模型训练过程采用了用户设置的训练参数、异常
行为事件判断过程采用了用户设置的分数阈值,因此用户可在整体训练检测过程中,根据实际需求调整这些参数,故本申请还具有更优的调整灵活性。而现有技术中,无法调整模型训练检测的相关参数。
[0014]再一方面,由于本申请不需要对样本数据进行数据标注,因此可避免数据标注带来的性能损耗。同时,本申请的孤立森林模型与现有技术中的随机森林模型相比,具有更高的异常检测准确性。
[0015]在可选的实施方式中,所述基于所述用户设置的分数阈值和所述实时流量数据的异常值分数,判断所述实时流量数据是否为异常行为事件,包括:
[0016]将所述实时流量数据的异常值分数与所述基于所述用户设置的分数阈值进行比较,如果所述实时流量数据的异常值分数大于所述用户设置的分数阈值,则将所述实时流量数据确定为异常行为事件。
[0017]在上述可选的实施方式中,通过将所述实时流量数据的异常值分数与所述基于所述用户设置的分数阈值进行比较,进而如果所述实时流量数据的异常值分数大于所述用户设置的分数阈值,则能够将所述实时流量数据确定为异常行为事件。
[0018]在可选的实施方式中,在所述基于样本划分属性和划分值对所述样本数据进行训练并得到孤立森林模型之前,所述方法还包括:
[0019]基于随机算法生成所述样本划分属性和所述划分值。
[0020]在上述可选的实施方式,通过随机算法可生成所述样本划分属性和所述划分值,进而能够提高孤立森林模型的灵活度和可信度。与现有技术相比,现有技术根据信息增益或者基于指数来选择划分属性和所述划分值,这种方式具有灵活度和可信度低的缺点。
[0021]在可选的实施方式中,所述孤立森林模型计算所述实时流量数据的异常值分数,包括:
[0022]计算所述实时流量数据在每个所述训练结果树的路径长度;
[0023]基于所述实时流量数据在每个所述训练结果树的路径长度,计算路径长度期望值;
[0024]基于所述路径长度期望值和标准路径长度计算所述实时流量数据的异常值分数。
[0025]在上述可选的实施方式中,通过计算所述实时流量数据在每个所述训练结果树的路径长度,进而能够基于所述实时流量数据在每个所述训练结果树的路径长度,计算路径长度期望值,进而能够基于所述路径长度期望值和标准路径长度计算所述实时流量数据的异常值分数。
[0026]第二方面,本专利技术提供一种基于孤立森林动态训练的实时异常检测装置,所述装置应用于实时计算框架中,其中,所述实时计算框架循环调用所述装置,每次调用所述装置为一个时间窗口,所述装置包括:
[0027]获取模块,用于基于用户设置的历史追溯时间获取历史流量数据和当前时间窗口内产生的实时流量数据;
[0028]第一生成模块,用于基于所述历史流量数据和所述实时流量数据生成数据集,并基于所述用户设置的采样参数,从所述数据集随机采样出样本数据;
[0029]训练模块,用于基于样本划分属性、划分值和所述用户设置的训练参数对所述样本数据进行训练并得到孤立森林模型,其中,所述孤立森林模型包括每个所述随机维度的
训练结果树;
[0030]检测模块,用于将所述实时流量数据输入到所述孤立森林模型中,以使所述孤立森林模型计算所述实时流量数据的异常值分数;
[0031]判断模块,用于基于所述用户设置的分数阈值和所述实时流量数据的异常值分数,判断所述实时流量数据是否为异常行为事件。
[0032]在本申请第二方面中,由于基于孤立森林动态训练的实时异常检测方法应用在实时计算框架中,且实时计算框架每在一个时间窗口就执行该方法一次,这样一来,伴随着实时计算框架的时间窗口的滚动,可动态训练孤立森林模型和通过孤立森林模型动态检测实时流量数据是否为异常行为事件,即本申请能够实现动态采样、动态训练和动态异常检测,从而能够应用在实时分析场景中。
[0033]另一方面,由于获取历史流量数据过程采用了基于用户设置的历史追溯时间、采样数据过程采用了用户设置的采样参数、模型训练过程采用了用户设置的训练参数、异常行为事件判断过程采用了用户设置的分数阈值,因此用户可在整体训练检测过程中,根据实际需求调整这些参数,故本申请还具有更优的调整灵活性。而现有技术中,无法调整模型训练检测的相关参数。
[0034]再一方面,由于本申请不需要对样本数据进行数据标注,因此可避免本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于孤立森林动态训练的实时异常检测方法,其特征在于,所述方法应用于实时计算框架中,其中,所述实时计算框架循环执行所述方法,每次执行所述方法为一个时间窗口,所述方法包括:基于用户设置的历史追溯时间获取历史流量数据和当前时间窗口内产生的实时流量数据;基于所述历史流量数据和所述实时流量数据生成数据集,并基于所述用户设置的采样参数,从所述数据集随机采样出样本数据;基于样本划分属性、划分值和所述用户设置的训练参数对所述样本数据进行训练并得到孤立森林模型,其中,所述孤立森林模型包括每个所述随机维度的训练结果树;将所述实时流量数据输入到所述孤立森林模型中,以使所述孤立森林模型计算所述实时流量数据的异常值分数;基于所述用户设置的分数阈值和所述实时流量数据的异常值分数,判断所述实时流量数据是否为异常行为事件。2.如权利要求1所述的方法,其特征在于,所述基于所述用户设置的分数阈值和所述实时流量数据的异常值分数,判断所述实时流量数据是否为异常行为事件,包括:将所述实时流量数据的异常值分数与所述基于所述用户设置的分数阈值进行比较,如果所述实时流量数据的异常值分数大于所述用户设置的分数阈值,则将所述实时流量数据确定为异常行为事件。3.如权利要求1所述的方法,其特征在于,在所述基于样本划分属性和划分值对所述样本数据进行训练并得到孤立森林模型之前,所述方法还包括:基于随机算法生成所述样本划分属性和所述划分值。4.如权利要求1所述的方法,其特征在于,所述孤立森林模型计算所述实时流量数据的异常值分数,包括:计算所述实时流量数据在每个所述训练结果树的路径长度;基于所述实时流量数据在每个所述训练结果树的路径长度,计算路径长度期望值;基于所述路径长度期望值和标准路径长度计算所述实时流量数据的异常值分数。5.一种基于孤立森林动态训练的实时异常检测装置,其特征在于,所述装置应用于实时计算框架中,其中,所述实时计算框架循环调用所述装置,每次调用所述装置为一个时间窗口,所述装置包括:获取模块,用于基于用户设置的历史追溯时间获取历史流量数据和当前时间窗...

【专利技术属性】
技术研发人员:李昕
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1