一种日志归类分析方法、装置、设备及可读存储介质制造方法及图纸

技术编号：27976703 阅读：39 留言：0更新日期：2021-04-06 14:11

本发明专利技术公开了一种日志归类分析方法，该方法通过对原始日志根据数据字段进行统一结构化重排，实现不同格式不同数据内容下日志的统一处理，消除格式差异，得到结构化日志后根据其重要分词对应的编号，将日志转化为向量形式进行存储，提取共性部分保留独立信息，减少存储成本，然后调用预训练的神经网络模型对所述日志向量进行日志归类处理，实现了对海量日志分类标记，调用神经网络模型进行特征识别有利于发现日志中的规律和共性问题，方便从海量日志中排查问题，定位故障，同时为后续的功能比如日志异常检测打下基础。本发明专利技术还公开了一种日志归类分析装置、设备及可读存储介质，具有相应的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种日志归类分析方法、装置、设备及可读存储介质
本专利技术涉及日志管理
，特别是涉及一种日志归类分析方法、装置、设备及可读存储介质。
技术介绍
随着互联网的飞速发展，云操作系统已经越来越流行，但由于其庞大的规模和高度的复杂性，云操作系统运行时，更容易出现各种各样的问题。因此，如何保障可靠性，已经成为系统设计和管理中的一个重要问题。在现代大规模分布式系统的管理中，系统日志一直是检测系统状态的主要来源。系统运行产生的大量日志记录通常是系统管理员排除故障的主要信息来源。由于现代系统的规模与日俱增，系统复杂度也不断提升，各种组件生成大量的日志信息，有可能出现比如系统有潜在异常，但被淹没在海量日志中；又比如新版本上线，系统行为有变化，却无法感知等情况，这对于系统管理员排障是一个巨大的挑战。综上所述，如何提供针对海量日志有效的信息分析手段，是目前本领域技术人员急需解决的技术问题。
技术实现思路
本专利技术的目的是提供一种日志归类分析方法、装置、设备及可读存储介质，可以对海量日志实现快速有效的分类标记，有...

【技术保护点】
1.一种日志归类分析方法，其特征在于，包括：/n获取待分析的原始日志；/n解析所述原始日志中的所有数据字段，并根据所述数据字段对所述原始日志进行结构化重排，得到结构化日志；/n提取所述结构化日志中的所有分词；/n筛选出所述分词中的重要分词，并确定所述重要分词对应的分词编号；/n将所述重要分词对应的分词编号，按照所述重要分词在所述原始日志中的排布顺序进行日志表示，得到日志向量；/n调用预训练的神经网络模型对所述日志向量进行日志归类处理，得到归类化后的日志。/n

【技术特征摘要】
1.一种日志归类分析方法，其特征在于，包括：
获取待分析的原始日志；
解析所述原始日志中的所有数据字段，并根据所述数据字段对所述原始日志进行结构化重排，得到结构化日志；
提取所述结构化日志中的所有分词；
筛选出所述分词中的重要分词，并确定所述重要分词对应的分词编号；
将所述重要分词对应的分词编号，按照所述重要分词在所述原始日志中的排布顺序进行日志表示，得到日志向量；
调用预训练的神经网络模型对所述日志向量进行日志归类处理，得到归类化后的日志。

2.根据权利要求1所述的日志归类分析方法，其特征在于，筛选出所述分词中的重要分词，并确定所述重要分词对应的分词编号，包括：
确定所述原始日志的信息统计类型；
判断是否存在所述信息统计类型对应的分词库；
若存在所述分词库，判断所述分词是否在所述分词库中存在对应项；
若存在对应项，将存在对应项的分词作为重要分词，并对照所述分词库提取所述重要分词对应的分词编号。

3.根据权利要求2所述的日志归类分析方法，其特征在于，还包括：
获取所述分词中不存在对应项的分词，作为差异分词；
接收用户对于所述差异分词中重要分词以及无关分词的指定；
将用户指定的所述差异分词中重要分词创建对应的分词编号，并添加至所述分词库中。

4.根据权利要求2所述的日志归类分析方法，其特征在于，若不存在所述信息统计类型对应的分词库，该方法包括：
提取所述结构化日志中包含的分词，并删除所述分词中的重复项，生成分词全表；
接收用户对于所述分词全表中无关分词的删除指令，从所述分词全表中删除所述无关分词，作为重要分词表；
对所述重要分词表中各分词创建对应的分词编号，得到分词库，并执行所述判断所述分词是否在所述分词库中存在对应项的步骤。

5.根据权利要求2所述的日志归类分析方法，其特征在于，若不存在所述信息统计类型对应的分词库，该方法包括：
提取所述结构化日志中包含...

【专利技术属性】
技术研发人员：孙伟源，
申请(专利权)人：北京浪潮数据技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人