一种基于知识库和集成学习的日志异常检测方法与系统技术方案

技术编号：34946979 阅读：18 留言：0更新日期：2022-09-17 12:22

本发明专利技术公开一种基于知识库和集成学习的日志异常检测方法和系统，其中所述方法包括：获取日志；识别所述日志的类型；基于所述知识库，针对不同日志类型对所述日志进行不同预处理；若所述日志为第一类型日志，则采用预置模板和/或预置规则进行解析；若所述日志为第二类型日志，则基于集成学习进行处理；基于日志类型，对预处理后的日志匹配相应的日志异常检测模型；输出检测结果。本发明专利技术使得本发明专利技术聚焦于日志异常检测算法在实际生产环境中面临的一些显著挑战，提出基于知识库和集成学习的日志异常检测系统，确保了准确性与可解释性；同时，本发明专利技术针对每种日志异常类型，设计并实现合适的异常检测算法，在实际日志数据集中取得了不错的效果。了不错的效果。了不错的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识库和集成学习的日志异常检测方法与系统

[0001]本专利技术属于大数据分析与数据挖掘领域，尤其涉及一种基于知识库和集成学习的日志异常检测方法与系统。

技术介绍

[0002]日志是软件系统中的一类重要数据源，详细记录了系统的运行状态和用户行为，日志异常检测，旨在发现系统中的异常行为，可以帮助工程师及时发现系统中的问题并辅助相关的故障诊断。因此，日志异常检测对服务可靠性和故障管理有重要意义。
[0003]传统监控中，工程师一般基于领域知识，通过手工设置关键字和正则表达式来检测日志异常。但是对着软件服务的规模和复杂性日益增加，通过手工规则的方法有巨大的挑战，包括以下原因。1）大规模软件服务包含多个模块（如硬件，虚拟机，数据库，网络等），会产生海量、多种多样的日志，大约每天有多达TB级别的日志量。因此手工设置规则耗时耗力；2）设置规则需要丰富的领域知识，但是有足够专家知识的工程师人数优先，而且不同的工程师在设置规则是有不同的偏好，很难有统一的标准；3）软件系统会面临频繁的软件变更，导致这些规则需要不断维护和更新。综上，通过手工规则的方法检测日志异常是耗时且易错的。
[0004]为了解决手工规则的痛点，学术界提出了很多关于日志异常检测的工作。这些工作可以分为五个部分：(1)日志收集。日志收集通常是后续日志分析的第一步。
[0005](2)模板解析。日志通常是非结构化的文本，一般需要先通过模板解析把非结构化的原始日志，变成结构化的信息，包含模板与变量。
[0006](3)日志分组。由于...

【技术保护点】

【技术特征摘要】
1.一种基于知识库和集成学习的日志异常检测方法，包括以下步骤：获取日志；识别所述日志的类型；基于所述知识库，针对不同日志类型对所述日志进行不同预处理；若所述日志为第一类型日志，则采用预置模板和/或预置规则进行解析；若所述日志为第二类型日志，则基于集成学习进行处理；基于日志类型，对预处理后的日志匹配相应的日志异常检测模型；输出检测结果。2.如权利要求1所述方法，其中所述第一类型日志包括通用日志、不适合使用模板进行解析的日志和具有关键变量的日志；第二类型日志包括未知类型的日志。3.如权利要求1所述方法，其中所述日志进行预处理包括将日志的非结构化信息进行处理，以提取结构化信息。4.如权利要求1所述方法，其中若所述日志为第二类型日志，则基于集成学习进行处理，包括：提取未知类型的日志的关键特征；基于所述关键特征，采用随机森林做分类器，为所述第二类型的日志生成匹配的日志异常检测模型。5.如权利要求4所述方法，其中所述关键特征包括模板数量、模板中实词的数量、模板出现的次数分布和模板之间的相似性。6.如权利要求4所述方法，其中所述日志异常检测模型包括：模板数量异常检测模型、模板序...

【专利技术属性】
技术研发人员：曹立，王泓琳，刘大鹏，
申请(专利权)人：北京必示科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人