一种日志解析方法技术

技术编号：36707585 阅读：46 留言：0更新日期：2023-03-01 09:31

本发明专利技术提供了一种日志解析方法，包括以下步骤：建立日志解析模型，日志解析模型包括语义挖掘器和联合解析器；将日志输入日志解析模型，语义挖掘器接收日志消息，并挖掘及输出日志中的显性实例级别语义和消息级别语义；联合解析器根据语义挖掘器的输出获得日志中的隐性实例级别语义，并将显性实例级别语义和隐性实例级别语义合并到最终的实例级别语义中；输出解析结果；本发明专利技术通过日志解析模型中的语义挖掘器挖掘日志中的显性实例级别语义和消息级别语义，联合解析器根据语义挖掘器的输出获得日志中的隐性实例级别语义的设置，能够使日志解析过程关注于实例，进而输出结果，解决日志解析过程中语义信息缺失的问题，从而提高日志消息解析精确度。志消息解析精确度。志消息解析精确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种日志解析方法

[0001]本专利技术涉及日志解析领域，尤其是涉及一种日志解析方法。

技术介绍

[0002]日志语句是由软件开发人员设计的，携带有关软件系统运行信息的数据。通过阅读日志，软件系统操作者和管理员可以随时监控软件状态，检测异常，定位软件错误并解决等。随着现代软件系统变得比以前更加复杂，分析人员难以人工分析每日运行产生的海量数据，因此，需要一种自动化日志分析技术。由于大多数日志分析工具都接受结构化输入，因此自动化日志分析的基本步骤是日志解析。给定原始消息，日志解析器识别一组字段(例如，详细级别、日期、时间)和消息内容，而后者表示为具有相应参数(即变量)的结构化事件模板(即常量)。
[0003]现有的日志解析技术都是基于句法分析，使用浅层特征(例如词长、日志长度、频率)进行分析，而没有考虑到日志里包含的语义信息。这种缺失的语义信息会阻碍自动化系统异常检测，或是影响到运维人员对系统故障进行根因推断。缺失的语义信息主要包含三种。第一，对重要的词关注不足。基于语法的日志解析器只区分参数和模板，但将每条日志消息视为...

【技术保护点】

【技术特征摘要】
1.一种日志解析方法，其特征在于，包括以下步骤：S1:建立日志解析模型，所述日志解析模型包括语义挖掘器和联合解析器；S2:将待解析的日志输入所述日志解析模型，所述语义挖掘器接收日志消息，并挖掘及输出日志中的显性实例级别语义和消息级别语义；所述联合解析器根据语义挖掘器的输出获得日志中的隐性实例级别语义，并将显性实例级别语义和隐性实例级别语义合并到最终的实例级别语义中；S3:输出解析结果，所述结果包括去掉实例后的日志概念化模板、最终的实例级别语义、孤立概念及孤立实例；其中所述实例指日志消息中的变量，所述实例级别语义包括实例及其所指向的概念的组合，所述显性实例级别语义指实例级别语义中，实例其所指向的概念共存于一个日志消息；所述隐性实例级别语义指实例级别语义中实例其所指向的概念不共存于一个日志消息，所述消息级别语义包括出现在日志消息中的概念的组合，所述孤立概念和孤立实例分别指未能相互匹配的概念和实例。2.如权利要求1所述的方法，其特征在于，步骤S2中，所述语义挖掘器包括上下文编码器、语义配对器、语义打分器，所述上下文编码器用于获取基于上下文的单词向量表示，所述语义配对器用于根据所述单词向量表示提取显性实例级别语义，识别日志消息中单词的实例及其所指向的概念的组合；所述语义打分器用于根据所述单词向量表示确定每个单词的语义角色，所述每个单词的语义角色为以下之一：概念、实例或既非概念也非实例。3.如权利要求2所述的方法，其特征在于，所述上下文编码器由双向长短期记忆网络构成，所述双向长短期记忆网络堆叠了前向长短期记忆网络和后向长短期记忆网络的输出。4.如权利要求3所述的方法，其特征在于，所述上下文编码器利用卷积神经网络来提取每个单词的字符级特征以及单词局部特征，并将两种特征融合输入上下文编码器，所述上下文编码器的输出由以下公式表示：；其中word
i
代表第i个单词的词嵌入向量，char
i
表示第i个单词的字符级特征，f
ilocal
表示第i个单词的单词局部特征，所述单词局部特征包括单词形状、长度的组合，LSTM指双向长短期记忆网络，m
i
指从双向长短期记忆网络得到的第i个输出。...

【专利技术属性】
技术研发人员：吕荣聪，霍茵桐，苏玉鑫，李柏橦，
申请(专利权)人：香港中文大学深圳研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人