基于文本分类的日志异常检测方法、系统、设备及介质技术方案

技术编号：30824301 阅读：39 留言：0更新日期：2021-11-18 12:16

本发明专利技术提供一种基于文本分类的日志异常检测方法、系统、设备及介质，方法包括：获取日志数据，并对其进行预处理；将经预处理后的日志数据输入日志预测模型组，日志预测模型组包括至少n项日志预测模型；其中，n为大于1的整数；日志预测模型是基于错误日志和错误日志对应的日志分类结果训练得到的；针对每个日志预测模型，基于经预处理后的日志数据，得到预测结果；对n项日志预测模型输出的预测结果进行投票融合，以输出预测日志分类结果。本发明专利技术通过n项日志预测模型分别对容器的日志数据进行预测，并对n个预测结果进行投票融合，以提高预测结果的准确性，从而智能识别应用日志异常点，保障现有服务水平的条件下降低系统运维成本。本。本。

全部详细技术资料下载

【技术实现步骤摘要】
基于文本分类的日志异常检测方法、系统、设备及介质

[0001]本专利技术涉及计算机技术运维
，尤其涉及一种基于文本分类的日志异常检测方法、系统、设备及介质。

技术介绍

[0002]随着电信行业环境的深刻变化，系统容器化越来越普及，自动扩缩容的容器级日志不断增加和变化，造成故障定位设计的问题种类繁多，成本管控能力将成为企业核心竞争力的重要组成部分，容量日志也引起企业越来越大的重视。
[0003]传统的日志分析是直接采集日志，并通过人为观察日志当中是否存在异常关键字，基于关键字对日志简单分类。在实际生产过程当中，企业IT系统将生成大量日志，存在人为漏判的可能。其次人为根据经验及关键字在判断异常日志的过程当中，准确率无法保证。当大批量业务请求冲击时，现有的IT系统应用日志充斥大量低级告警数据，信息冗余度高，语义级别低，无法直观展示问题的信息点，主要体现在如下问题：
[0004]缺乏日志自动分析能力，无法深入挖掘问题根因：运维监控人员提供日志聚合视图，无论是硬件线程过载、内存不足、IO读写...

【技术保护点】

【技术特征摘要】
1.一种基于文本分类的日志异常检测方法，其特征在于，包括：获取日志数据，并对其进行预处理；将经预处理后的日志数据输入日志预测模型组，所述日志预测模型组包括n项日志预测模型；其中，n为大于1的整数；所述日志预测模型是基于错误日志和错误日志对应的日志分类结果训练得到的；针对每个日志预测模型，基于所述经预处理后的日志数据，得到预测结果；对n项日志预测模型输出的预测结果进行投票融合，以输出预测日志分类结果。2.根据权利要求1所述的基于文本分类的日志异常检测方法，其特征在于，所述针对n项日志预测模型对应的预测结果进行投票融合，以输出预测日志分类结果，包括：对n个预测结果分别进行标记，将预测结果为正常的标记为1，预测结果为异常的标记为0；通过设定的投票方式，对标记后的n个预测结果进行投票融合，得到预测日志分类结果。3.根据权利要求1所述的基于文本分类的日志异常检测方法，其特征在于，所述投票方式表示为：其中，Y表示为投票结果，y
i
表示为第i个日志预测模型输出的预测结果。4.根据权利要求1所述的基于文本分类的日志异常检测方法，其特征在于，所述日志预测模型组包括极端梯度提升xgboost模型、朴素贝叶斯模型和临近算法KNN模型中的至少一项。5.根据权利要求4所述的基于文本分类的日志异常检测方法，其特征在于，在所述极端梯度提升xgboost模型中，决策树深度设置为5，学习率设置为0.01，子树数量设置为500，子算法类型设置为二项式逻辑回归binary:logistic模型，指算法模式设置为二叉查找树gbtree；在所述朴素贝叶斯模型中，平滑区间设置为1e
‑
09；在所述临近算法KNN模型中，邻近个数设置为5，权重设置为0....

【专利技术属性】
技术研发人员：易存道，
申请(专利权)人：北京宝兰德软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人