System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大数据日志的异常检测模型的训练方法及检测方法技术_技高网

基于大数据日志的异常检测模型的训练方法及检测方法技术

技术编号:40192724 阅读:5 留言:0更新日期:2024-01-26 23:54
本申请公开了一种基于大数据日志的异常检测模型的训练方法及检测方法,所述方法包括:对原始日志数据进行去冗余操作,以得到简化训练日志数据;将简化训练日志数据中的每条日志信息输入初始异常检测模型中的预训练语言模型,通过预训练语言模型确定每条日志信息的语义向量;将每条语义向量输入初始异常检测模型中的Transformer模型,通过Transformer模型确定每条日志信息对应的第一预测类别;基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练。本申请通过构建大数据日志的异常检测模型,使用简化训练日志数据对异常检测模型进行训练,能够提高对数以百万计甚至更多的日志数据中异常日志信息检测的准确性和效率。

【技术实现步骤摘要】

本申请涉及网络安全,特别涉及一种基于大数据日志的异常检测模型的训练方法及检测方法


技术介绍

1、系统日志对于系统故障排查、数据分析、网络安全都具有重要的作用。目前,对于大规模信息系统,通常每天产生的日志数据都以百万计,日志数据中包含正常日志信息和异常日志信息,大量的日志数据导致对每条日志信息做正常类别和异常类别标注时标注效率很慢,且通常日志数据中大部分都为正常日志信息,异常日志信息很少,难以保证在大量的日志数据中检测异常日志信息的准确度,因此需提高对数以百万计甚至更多的日志数据中异常日志信息检测的准确性和效率。

2、因而现有技术还有待改进和提高。


技术实现思路

1、本申请要解决的技术问题在于提高对数以百万计甚至更多的日志数据中异常日志信息检测的准确性和效率,针对现有技术的不足,提供一种基于大数据日志的异常检测模型的训练方法及检测方法。

2、为了解决上述技术问题,本申请实施例第一方面提供了一种基于大数据日志的异常检测模型的训练方法,其中,所述的基于大数据日志的异常检测模型的训练方法具体包括:

3、对原始日志数据进行去冗余操作,以得到简化训练日志数据;

4、将简化训练日志数据中的每条日志信息输入初始异常检测模型中的预训练语言模型,通过预训练语言模型确定每条日志信息的语义向量;

5、将每条语义向量输入所述初始异常检测模型中的transformer模型,通过transformer模型确定每条日志信息对应的第一预测类别;

<p>6、基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型。

7、在本实施例的一个实现方式中,所述基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型之后,所述方法还包括:

8、将所述将简化训练日志数据中的每条日志信息输入异常检测模型,通过异常检测模型输出每条日志信息的第二预测类别;

9、基于所述每条日志信息的第二预测类别和标注类别,在简化训练日志数据中选取不匹配日志信息;

10、接收各不匹配日志信息对应的专家标注类别,采用专家标注类别替换各不匹配日志信息的标注类别,以得到更新简化训练日志数据;

11、基于更新简化训练日志数据对所述异常检测模型进行微调。

12、在本实施例的一个实现方式中,所述方法还包括:

13、将所述更新简化训练日志数据作为简化训练日志数据,并重新执行将所述将简化训练日志数据中的每条日志信息输入异常检测模型的步骤,依次循环预设次数的微调过程。

14、在本实施例的一个实现方式中,所述对原始日志数据进行去冗余操作,以得到简化训练日志数据具体包括:

15、将原始日志数据排列为一个日志信息序列;

16、清洗位于第一位的日志信息中的重复数字,将清洗后的日志信息放入第一预设序列内,并将位于第一位的日志信息放入第二预设序列;

17、将所述位于第二位的日志信息作为目标日志信息,清洗目标日志信息中的重复数字,当清洗后的目标日志信息未包含于第一预设序列内时,将清洗后的目标信息放入第一预设序列,将目标日志信息放置于第二预设序列;

18、将所述目标日志信息的下一日志信息作为目标日志信息,并重复清洗日志信息序列中的重复数字的步骤,直至位于最后的日志信息被执行完;

19、将所述第二预设序列包括的目标日志信息作为简化训练日志数据。

20、在本实施例的一个实现方式中,所述对原始日志数据进行去冗余操作,以得到简化训练日志数据之后,所述方法还包括:

21、获取所述简化训练日志数据所包含的日志信息的数据量;

22、若所述数据量小于或等于预设数据量,则保持简化训练日志数据不变;

23、若所述数据量大于预设数据量,则对简化训练日志数据进行数据平衡处理。

24、在本实施例的一个实现方式中,所述对所述简化训练日志数据进行数据平衡处理具体包括:

25、计算所述数据量与预设数据量的数据量差值;

26、在所述简化训练日志数据中随机选取数据量差值个日志信息,其中,选取的日志信息的标注类别为正常类别;

27、将选取得到的所有日志信息从所述简化训练日志数据中删除。

28、在本实施例的一个实现方式中,所述异常检测模型的训练过程中所采用的损失函数为加权交叉熵损失函数。

29、在本实施例的一个实现方式中,所述基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型之后,所述方法还包括:

30、将所述将简化训练日志数据中的每条日志信息输入异常检测模型,通过异常检测模型输出每条日志信息的第二预测类别;

31、基于所述每条日志信息的第二预测类别和标注类别,在简化训练日志数据中选取不匹配日志信息;

32、接收各不匹配日志信息对应的专家标注类别,采用专家标注类别替换各不匹配日志信息的标注类别,以得到更新简化训练日志数据;

33、基于更新简化训练日志数据对所述异常检测模型进行微调。

34、本申请实施例第二方面提供了一种基于大数据日志的网络安全异常检测方法,应用基于所述基于大数据日志的异常检测模型的训练方法训练得到的异常检测模型,所述方法包括:

35、获取待检测日志数据,并对所述待检测日志数据进行去冗余操作以得到简化日志数据;

36、将所述简化日志数据输入经过训练的异常检测模型,通过所述异常检测模型确定所述待检测日志数据对应的异常日志信息。

37、在本实施例的一个实现方式中,所述将所述简化日志数据输入经过训练的异常检测模型,通过所述异常检测模型确定所述待检测日志数据对应的异常日志信息之后,所述方法还包括:

38、获取异常日志信息中的预测错误日志信息,并接收各预测错误日志信息对应的专家标注类别;

39、将专家标注类别作为各预测错误日志信息的标注类别,将除预测错误日志信息外的各简化日志信息的预测类别作为其标注类别,以得到微调数据集;

40、基于所述微调数据集对所述异常检测模型进行微调。

41、在本实施例的一个实现方式中,所述基于所述微调数据集对所述异常检测模型进行微调之前,所述方法还包括:

42、若所述微调数据集的数据量大于预设数据量,则对所述微调数据集进行数据平衡处理。

43、本申请实施例第三方面提供了一种终端设备,其包括:处理器和存储器;

44、所述存储器上存储有可被所述处理器执行的计算机可读程序;

45、所述处理器执行所述计算机可读程序时实现如上任一所述的基于大数据日志的异常检测模型的训练方法中的步骤。

46、有益效果:与现有技术相比,

47、1)本申请通过对原始日志数据进行去冗余操作,得到本文档来自技高网...

【技术保护点】

1.一种基于大数据日志的异常检测模型的训练方法,其特征在于,所述的基于大数据日志的异常检测模型的训练方法具体包括:

2.根据权利要求1所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型之后,所述方法还包括:

3.根据权利要求2所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述基于更新简化训练日志数据对所述异常检测模型进行微调之后,所述方法还包括:

4.根据权利要求1所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述对原始日志数据进行去冗余操作,以得到简化训练日志数据具体包括:

5.根据权利要求1所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述对原始日志数据进行去冗余操作,以得到简化训练日志数据之后,所述方法还包括:

6.根据权利要求5所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述对所述简化训练日志数据进行数据平衡处理具体包括:

7.一种基于大数据日志的网络安全异常检测方法,其特征在于,应用基于如权利要求1-6任意一项所述的基于大数据日志的异常检测模型的训练方法训练得到的异常检测模型,所述方法包括:

8.根据权利要求7所述的基于大数据日志的网络安全异常检测方法,其特征在于,将所述简化日志数据输入经过训练的异常检测模型,通过所述异常检测模型确定所述待检测日志数据对应的异常日志信息之后,所述方法还包括:

9.根据权利要求8所述的基于大数据日志的网络安全异常检测方法,其特征在于,所述基于所述微调数据集对所述异常检测模型进行微调之前,所述方法还包括:

10.一种终端设备,其特征在于,包括:处理器和存储器;

...

【技术特征摘要】

1.一种基于大数据日志的异常检测模型的训练方法,其特征在于,所述的基于大数据日志的异常检测模型的训练方法具体包括:

2.根据权利要求1所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述基于每条日志信息对应的第一预测类别和标注类别,对初始异常检测模型进行训练,以得到异常检测模型之后,所述方法还包括:

3.根据权利要求2所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述基于更新简化训练日志数据对所述异常检测模型进行微调之后,所述方法还包括:

4.根据权利要求1所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述对原始日志数据进行去冗余操作,以得到简化训练日志数据具体包括:

5.根据权利要求1所述的基于大数据日志的异常检测模型的训练方法,其特征在于,所述对原始日志数据进行去冗余操作,以得到简化训练日志数据之...

【专利技术属性】
技术研发人员:周志胜夏杰刘伟平
申请(专利权)人:深圳市网安信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1