一种日志归类分析方法、装置、设备及可读存储介质制造方法及图纸

技术编号:27976703 阅读:24 留言:0更新日期:2021-04-06 14:11
本发明专利技术公开了一种日志归类分析方法,该方法通过对原始日志根据数据字段进行统一结构化重排,实现不同格式不同数据内容下日志的统一处理,消除格式差异,得到结构化日志后根据其重要分词对应的编号,将日志转化为向量形式进行存储,提取共性部分保留独立信息,减少存储成本,然后调用预训练的神经网络模型对所述日志向量进行日志归类处理,实现了对海量日志分类标记,调用神经网络模型进行特征识别有利于发现日志中的规律和共性问题,方便从海量日志中排查问题,定位故障,同时为后续的功能比如日志异常检测打下基础。本发明专利技术还公开了一种日志归类分析装置、设备及可读存储介质,具有相应的技术效果。

【技术实现步骤摘要】
一种日志归类分析方法、装置、设备及可读存储介质
本专利技术涉及日志管理
,特别是涉及一种日志归类分析方法、装置、设备及可读存储介质。
技术介绍
随着互联网的飞速发展,云操作系统已经越来越流行,但由于其庞大的规模和高度的复杂性,云操作系统运行时,更容易出现各种各样的问题。因此,如何保障可靠性,已经成为系统设计和管理中的一个重要问题。在现代大规模分布式系统的管理中,系统日志一直是检测系统状态的主要来源。系统运行产生的大量日志记录通常是系统管理员排除故障的主要信息来源。由于现代系统的规模与日俱增,系统复杂度也不断提升,各种组件生成大量的日志信息,有可能出现比如系统有潜在异常,但被淹没在海量日志中;又比如新版本上线,系统行为有变化,却无法感知等情况,这对于系统管理员排障是一个巨大的挑战。综上所述,如何提供针对海量日志有效的信息分析手段,是目前本领域技术人员急需解决的技术问题。
技术实现思路
本专利技术的目的是提供一种日志归类分析方法、装置、设备及可读存储介质,可以对海量日志实现快速有效的分类标记,有利于发现日志中的规律和共性问题,方便从海量日志中排查问题定位故障以及日志的存储。为解决上述技术问题,本专利技术提供如下技术方案:一种日志归类分析方法,包括:获取待分析的原始日志;解析所述原始日志中的所有数据字段,并根据所述数据字段对所述原始日志进行结构化重排,得到结构化日志;提取所述结构化日志中的所有分词;筛选出所述分词中的重要分词,并确定所述重要分词对应的分词编号;将所述重要分词对应的分词编号,按照所述重要分词在所述原始日志中的排布顺序进行日志表示,得到日志向量;调用预训练的神经网络模型对所述日志向量进行日志归类处理,得到归类化后的日志。可选地,筛选出所述分词中的重要分词,并确定所述重要分词对应的分词编号,包括:确定所述原始日志的信息统计类型;判断是否存在所述信息统计类型对应的分词库;若存在所述分词库,判断所述分词是否在所述分词库中存在对应项;若存在对应项,将存在对应项的分词作为重要分词,并对照所述分词库提取所述重要分词对应的分词编号。可选地,所述日志归类分析方法还包括:获取所述分词中不存在对应项的分词,作为差异分词;接收用户对于所述差异分词中重要分词以及无关分词的指定;将用户指定的所述差异分词中重要分词创建对应的分词编号,并添加至所述分词库中。可选地,若不存在所述信息统计类型对应的分词库,所述日志归类分析方法包括:提取所述结构化日志中包含的分词,并删除所述分词中的重复项,生成分词全表;接收用户对于所述分词全表中无关分词的删除指令,从所述分词全表中删除所述无关分词,作为重要分词表;对所述重要分词表中各分词创建对应的分词编号,得到分词库,并执行所述判断所述分词是否在所述分词库中存在对应项的步骤。可选地,若不存在所述信息统计类型对应的分词库,所述日志归类分析方法包括:提取所述结构化日志中包含的分词,并统计各所述分词对应的出现次数,生成分词频率统计表;删除所述分词频率统计表中出现次数低于阈值的分词,生成高频分词统计表;对所述高频分词统计表中各分词创建对应的分词编号,得到分词库,并执行所述判断所述分词是否在所述分词库中存在对应项的步骤。可选地,所述解析所述原始日志中的所有数据字段,包括:确定所述原始日志的数据字段排布类型;获取所述数据字段排布类型对应的解析规则;调用所述解析规则对所述原始日志进行数据字段提取。可选地,所述调用预训练的神经网络模型对所述日志向量进行日志归类处理,得到归类化后的日志,包括:调用预训练的LVQ神经网络模型对所述日志向量进行日志归类处理,得到归类化后的日志。一种日志归类分析装置,包括:日志获取单元,用于获取待分析的原始日志;日志结构化单元,用于解析所述原始日志中的所有数据字段,并根据所述数据字段对所述原始日志进行结构化重排,得到结构化日志;分词提取单元,用于提取所述结构化日志中的所有分词;编号确定单元,用于筛选出所述分词中的重要分词,并确定所述重要分词对应的分词编号;向量表示单元,用于将所述重要分词对应的分词编号,按照所述重要分词在所述原始日志中的排布顺序进行日志表示,得到日志向量;归类分析单元,用于调用预训练的神经网络模型对所述日志向量进行日志归类处理,得到归类化后的日志。一种计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述日志归类分析方法的步骤。一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述日志归类分析方法的步骤。应用本专利技术实施例所提供的方法,通过对原始日志根据数据字段进行统一结构化重排,实现不同格式不同数据内容下日志的统一处理,消除格式差异,得到结构化日志后根据其中的重要分词对应的编号,将日志转化为向量形式进行存储,可以提取共性部分保留独立信息,减少存储成本,然后调用预训练的神经网络模型对日志向量进行日志归类处理,实现了对海量日志分类标记,调用神经网络模型进行特征识别有利于发现日志中的规律和共性问题,方便从海量日志中排查问题,定位故障,同时为后续的功能比如日志异常检测打下基础,从而保障系统运行稳定,降低系统运维的复杂度。相应地,本专利技术实施例还提供了与上述日志归类分析方法相对应的日志归类分析装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。附图说明为了更清楚地说明本专利技术实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中一种日志归类分析方法的实施流程图;图2为本专利技术实施例中一种日志归类分析装置的结构示意图;图3为本专利技术实施例中一种计算机设备的结构示意图。具体实施方式本专利技术的核心是提供一种日志归类分析方法,可以对于海量日志实现有效的信息分析。为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。申请人分析发现,目前难以根据系统日志实现有效的故障排除的一个重要原因在于是信息太多太杂不能良好归类,同时记录信息的日志,往往格式多样难以统一规范。因此申请人提出将日志采集并进行聚类模式学习,通过AI算法把海量日志划分为少数的几种模式,这样原来几千万行的日志被归类为几十条,以加快日志查看和故障排本文档来自技高网
...

【技术保护点】
1.一种日志归类分析方法,其特征在于,包括:/n获取待分析的原始日志;/n解析所述原始日志中的所有数据字段,并根据所述数据字段对所述原始日志进行结构化重排,得到结构化日志;/n提取所述结构化日志中的所有分词;/n筛选出所述分词中的重要分词,并确定所述重要分词对应的分词编号;/n将所述重要分词对应的分词编号,按照所述重要分词在所述原始日志中的排布顺序进行日志表示,得到日志向量;/n调用预训练的神经网络模型对所述日志向量进行日志归类处理,得到归类化后的日志。/n

【技术特征摘要】
1.一种日志归类分析方法,其特征在于,包括:
获取待分析的原始日志;
解析所述原始日志中的所有数据字段,并根据所述数据字段对所述原始日志进行结构化重排,得到结构化日志;
提取所述结构化日志中的所有分词;
筛选出所述分词中的重要分词,并确定所述重要分词对应的分词编号;
将所述重要分词对应的分词编号,按照所述重要分词在所述原始日志中的排布顺序进行日志表示,得到日志向量;
调用预训练的神经网络模型对所述日志向量进行日志归类处理,得到归类化后的日志。


2.根据权利要求1所述的日志归类分析方法,其特征在于,筛选出所述分词中的重要分词,并确定所述重要分词对应的分词编号,包括:
确定所述原始日志的信息统计类型;
判断是否存在所述信息统计类型对应的分词库;
若存在所述分词库,判断所述分词是否在所述分词库中存在对应项;
若存在对应项,将存在对应项的分词作为重要分词,并对照所述分词库提取所述重要分词对应的分词编号。


3.根据权利要求2所述的日志归类分析方法,其特征在于,还包括:
获取所述分词中不存在对应项的分词,作为差异分词;
接收用户对于所述差异分词中重要分词以及无关分词的指定;
将用户指定的所述差异分词中重要分词创建对应的分词编号,并添加至所述分词库中。


4.根据权利要求2所述的日志归类分析方法,其特征在于,若不存在所述信息统计类型对应的分词库,该方法包括:
提取所述结构化日志中包含的分词,并删除所述分词中的重复项,生成分词全表;
接收用户对于所述分词全表中无关分词的删除指令,从所述分词全表中删除所述无关分词,作为重要分词表;
对所述重要分词表中各分词创建对应的分词编号,得到分词库,并执行所述判断所述分词是否在所述分词库中存在对应项的步骤。


5.根据权利要求2所述的日志归类分析方法,其特征在于,若不存在所述信息统计类型对应的分词库,该方法包括:
提取所述结构化日志中包含...

【专利技术属性】
技术研发人员:孙伟源
申请(专利权)人:北京浪潮数据技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1