一种自动化日志异常检测方法及系统技术方案

技术编号:22056711 阅读:32 留言:0更新日期:2019-09-07 15:46
本发明专利技术公开一种自动化日志异常检测方法及系统,属于数据处理领域。所述包括:对原始日志数据进行预处理得到第一日志数据集;对第一日志数据集分组得到多个第二日志数据集,对各第二数据集进行特征提取得到对应的各特征集合;根据无监督异常点发现算法及异常操作指令在各第二日志数据集中发现对应的日志异常点;对各特征集合和对应的日志异常点进行训练,得到对应的各有监督机器学习分类模型;选取与待检测日志数据对应的有监督机器学习分类模型对待检测日志数据进行检测,得到日志异常检测结果。本发明专利技术中,克服了现有异常检测方法中判别准确性和泛化能力较低、对训练样本中未出现的故障无法预警以及需要耗费极大的时间成本和人工成本的缺陷。

An Automatic Log Anomaly Detection Method and System

【技术实现步骤摘要】
一种自动化日志异常检测方法及系统
本专利技术涉及数据处理领域,尤其涉及一种自动化日志异常检测方法及系统。
技术介绍
随着技术的快速发展,移动通信系统变得越来越复杂,系统的运营与维护由于需要大量的时间成本、人力成本,已逐渐成为各大移动通信网络运营商的主要支出。因此,实现电信网络设备的自动化异常检测与故障预警,是运营商实现利益最大化的重要途径,并已成为近些年移动通信领域中研究的热点。目前的电信网络设备中,通常存在较为完善的日志记录模块,用于记录诊断日志、操作日志、系统日志等,由于电信网络复杂度的不断提高,目前这些日志数据呈现出以下特点:(1)数据量较大,某运营商的中等省份网络数据产生速率能达到每天9亿条,占据200GByte空间;(2)结构复杂,日志数据设备厂家来源众多,没有标准日志格式模板;(3)正负样本不均,网络告警时期的数据样本占总样本比例低;(4)故障类型多样,单种故障数据样本少,且存在样本中未出现的故障。由于日志数据是电信网络安全状态重要的信息来源,因此其对网络故障预警具有重要意义。当前利用日志数据进行故障预警的方法有很多,主要包括:统计学方法、基于机器学习的方法以及基于专家知本文档来自技高网...

【技术保护点】
1.一种自动化日志异常检测方法,其特征在于,包括:步骤S1:对原始日志数据进行预处理得到第一日志数据集;步骤S2:对所述第一日志数据集进行分组得到多个第二日志数据集,对各第二数据集进行特征提取得到对应的各特征集合;步骤S3:根据无监督异常点发现算法及异常操作指令在各第二日志数据集中发现对应的日志异常点;步骤S4:对所述各特征集合和对应的日志异常点进行训练,得到对应的各有监督机器学习分类模型;步骤S5:选取与待检测日志数据对应的有监督机器学习分类模型对所述待检测日志数据进行检测,得到日志异常检测结果。

【技术特征摘要】
1.一种自动化日志异常检测方法,其特征在于,包括:步骤S1:对原始日志数据进行预处理得到第一日志数据集;步骤S2:对所述第一日志数据集进行分组得到多个第二日志数据集,对各第二数据集进行特征提取得到对应的各特征集合;步骤S3:根据无监督异常点发现算法及异常操作指令在各第二日志数据集中发现对应的日志异常点;步骤S4:对所述各特征集合和对应的日志异常点进行训练,得到对应的各有监督机器学习分类模型;步骤S5:选取与待检测日志数据对应的有监督机器学习分类模型对所述待检测日志数据进行检测,得到日志异常检测结果。2.根据权利要求1所述的方法,其特征在于,所述步骤S1,具体包括:步骤S1-1:对原始日志数据进行清洗,并保留日志正文和网元类型;步骤S1-2:对清洗后的原始日志数据进行去参数化及合并处理得到参数泛化日志正文列表;步骤S1-3:对所述参数泛化日志正文列表中的日志正文分组,并根据各组中各日志正文的长度确定各日志正文的日志模式;步骤S1-4:根据相同日志模型的日志正文之间的编辑距离确定各日志模式的模板,并根据所述模板确定各日志模式的类型号,得到含有所述网元类型、日志模式类型号的第一日志数据集。3.根据权利要求2所述的方法,其特征在于,所述步骤S2,具体包括:步骤S2-1:根据所述网元类型对所述第一日志数据集进行分组,得到各网元类型的第二日志数据集;步骤S2-2:分别统计在第一预设时间段内各第二日志数据集中每个日志模式的出现次数,得到与所述各第二日志数据集对应的由日志模式类型号和出现次数构成的各特征集合。4.根据权利要求3所述的方法,其特征在于,所述步骤S3,具体包括:步骤S3-1:根据无监督异常点发现算法,分别对各第二日志数据集进行训练得到对应的各日志异常点集合;步骤S3-2:根据历史操作指令集,并结合领域知识构建异常操作指令集;步骤S3-3:根据所述异常操作指令集,分别对所述各日志异常点集合进行验证,得到各日志异常点集合中各日志异常点的类型。5.根据权利要求4所述的方法,其特征在于,所述步骤S4,具体包括:步骤S4-1:根据所述各特征集合和对应的各日志异常点集合构建对应的各异常点训练集;步骤S4-2:根据随机森林算法,分别对所述各异常点训练集进行训练得到对应的各有监督机器学习分类模型。6.一种自动化日志异常检测系统,其特征在于,包括:预处理模块,用于对原始日志数据进行预处理得到第一日志数据集;分组模块,用于对所述预处理模块得到的第一日志数据集进行分组得到多个第二日志数据集;提取模块,用于对所述分组模块得到的各第二数据集进行特征提取得到对应的各特征集合;异常点发现模块,用于...

【专利技术属性】
技术研发人员:丁健
申请(专利权)人:北京亿阳信通科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1