一种日志解析方法技术

技术编号:36707585 阅读:36 留言:0更新日期:2023-03-01 09:31
本发明专利技术提供了一种日志解析方法,包括以下步骤:建立日志解析模型,日志解析模型包括语义挖掘器和联合解析器;将日志输入日志解析模型,语义挖掘器接收日志消息,并挖掘及输出日志中的显性实例级别语义和消息级别语义;联合解析器根据语义挖掘器的输出获得日志中的隐性实例级别语义,并将显性实例级别语义和隐性实例级别语义合并到最终的实例级别语义中;输出解析结果;本发明专利技术通过日志解析模型中的语义挖掘器挖掘日志中的显性实例级别语义和消息级别语义,联合解析器根据语义挖掘器的输出获得日志中的隐性实例级别语义的设置,能够使日志解析过程关注于实例,进而输出结果,解决日志解析过程中语义信息缺失的问题,从而提高日志消息解析精确度。志消息解析精确度。志消息解析精确度。

【技术实现步骤摘要】
一种日志解析方法


[0001]本专利技术涉及日志解析领域,尤其是涉及一种日志解析方法。

技术介绍

[0002]日志语句是由软件开发人员设计的,携带有关软件系统运行信息的数据。通过阅读日志,软件系统操作者和管理员可以随时监控软件状态,检测异常,定位软件错误并解决等。随着现代软件系统变得比以前更加复杂,分析人员难以人工分析每日运行产生的海量数据,因此,需要一种自动化日志分析技术。由于大多数日志分析工具都接受结构化输入,因此自动化日志分析的基本步骤是日志解析。给定原始消息,日志解析器识别一组字段(例如,详细级别、日期、时间)和消息内容,而后者表示为具有相应参数(即变量)的结构化事件模板(即常量)。
[0003]现有的日志解析技术都是基于句法分析,使用浅层特征(例如词长、日志长度、频率)进行分析,而没有考虑到日志里包含的语义信息。这种缺失的语义信息会阻碍自动化系统异常检测,或是影响到运维人员对系统故障进行根因推断。缺失的语义信息主要包含三种。第一,对重要的词关注不足。基于语法的日志解析器只区分参数和模板,但将每条日志消息视为一个字符序列,而不关注特殊的技术概念(例如容器、实例)。第二,对单条日志消息所包含的语义关注不足。虽然人类很少在沟通中使用数字等参数,但日志消息中的参数很重要,具有特定的含义。然而,基于句法的日志解析器将每个参数视为无意义的字符串。第三,缺乏对日志消息之间的关联分析。所有现有的日志解析方法都是独立处理每条日志消息,忽略日志消息之间的关系。但是,历史日志可以提供参数的领域知识,帮助解决后续日志中相同参数的隐含语义。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本专利技术的目的在于解决提高日志消息解析精确度的问题,提供一种日志解析方法。
[0006]为实现上述目的,本专利技术采用以下技术方案:
[0007]本专利技术提供了一种日志解析方法,包括以下步骤:
[0008]S1:建立日志解析模型,所述日志解析模型包括语义挖掘器和联合解析器;
[0009]S2:将待解析的日志输入所述日志解析模型,所述语义挖掘器接收日志消息,并挖掘及输出日志中的显性实例级别语义和消息级别语义;所述联合解析器根据语义挖掘器的输出获得日志中的隐性实例级别语义,并将显性实例级别语义和隐性实例级别语义合并到最终的实例级别语义中;
[0010]S3:输出解析结果,所述结果包括去掉实例后的日志概念化模板、最终的实例级别语义、孤立概念及孤立实例;
[0011]其中所述实例指日志消息中的变量,所述实例级别语义包括实例及其所指向的概念的组合,所述显性实例级别语义指实例级别语义中,实例其所指向的概念共存于一个日志消息;所述隐性实例级别语义指实例级别语义中实例其所指向的概念不共存于一个日志消息,所述消息级别语义包括出现在日志消息中的概念的组合,所述孤立概念和孤立实例分别指未能相互匹配的概念和实例。
[0012]在一些实施例中,步骤S2中,所述语义挖掘器包括上下文编码器、语义配对器、语义打分器,所述上下文编码器用于获取基于上下文的单词向量表示,所述语义配对器用于根据所述单词向量表示提取显性实例级别语义,识别日志消息中单词的实例及其所指向的概念的组合;所述语义打分器用于根据所述单词向量表示确定每个单词的语义角色,所述每个单词的语义角色为以下之一:概念、实例或既非概念也非实例。
[0013]在一些实施例中,所述上下文编码器由双向长短期记忆网络构成,所述双向长短期记忆网络堆叠了前向长短期记忆网络和后向长短期记忆网络的输出。
[0014]在一些实施例中,所述上下文编码器利用卷积神经网络来提取每个单词的字符级特征以及单词局部特征,并将两种特征融合输入上下文编码器,所述上下文编码器的输出由以下公式表示:
[0015];
[0016]其中word
i
代表第i个单词的词嵌入向量,char
i
表示第i个单词的字符级特征,f
ilocal
表示第i个单词的单词局部特征,所述单词局部特征包括单词形状、长度的组合,LSTM指双向长短期记忆网络,m
i
指从双向长短期记忆网络得到的第i个输出。
[0017]在一些实施例中,所述语义配对器提取实例级别语义的过程包括以下步骤:对于句子S=w_1,w_2,...,w_n中的第i个单词w_i,语义配对器确定前一个单词w_j是否与单词w_i有实例级别语义关系,根据所述模型的学习分数来对每个候选实例级别语义的置信度得分进行排名,分数最高的被选作显性实例级别语义,由以下公式表示:
[0018][0019][0020]其中,FFNN
a
表示神经网络,m
i
表示从双向长短期记忆网络得到的第i个输出,m
j
表示从双向长短期记忆网络得到的第j个输出,contx
i,j
表示m
i
,m
j
之间的输出上下文,w_j(0<j<i),ScoreP
i
(i,j)表示置信度得分,表示不同输入融合方式。
[0021]在一些实施例中,对语义挖掘器训练过程包括:通过最小化损失函数,所述模型学习每个标记的实例级别语义和语义角色,并使用从双向长短期记忆网络生成的共享上下文表示,由以下公式表示:
[0022];
[0023]其中,Mi'表示语义打分器的预测概率分布,Pi'表示语义配对器的预测概率分布,CELoss()表示交叉熵损失函数。
[0024]在一些实施例中,步骤S2还包括以下步骤:联合解析器根据语义挖掘器的输出,通
过使用知识数据库来获得隐性实例级别语义,所述知识数据库包括所述显性实例级别语义。
[0025]在一些实施例中,所述获得隐性实例级别语义包括以下步骤:联合解析器检查实例在知识数据库中是否有对应的概念,以发现隐性实例级别语义;所述知识数据库通过合并从语义挖掘器获取的新发现的实例级别语义来维护。
[0026]在一些实施例中,合并从语义挖掘器获取的新发现的实例级别语义,将其添加进入知识数据库。
[0027]本专利技术还提供一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述的方法的步骤。
[0028]本专利技术具有如下有益效果:
[0029]本专利技术通过日志解析模型中的语义挖掘器挖掘日志中的显性实例级别语义和消息级别语义,联合解析器根据语义挖掘器的输出获得日志中的隐性实例级别语义的设置,能够使日志解析过程关注于技术概念及日志消息中的实例,进而输出包括去掉实例后的日志概念化模板、最终的实例级别语义、孤立概念及孤立实例的结果,解决日志解析过程中语义信息缺失的问题,从而提高日志消息解析精确度。
[0030]本专利技术实施例中的其他有益效果将在下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志解析方法,其特征在于,包括以下步骤:S1:建立日志解析模型,所述日志解析模型包括语义挖掘器和联合解析器;S2:将待解析的日志输入所述日志解析模型,所述语义挖掘器接收日志消息,并挖掘及输出日志中的显性实例级别语义和消息级别语义;所述联合解析器根据语义挖掘器的输出获得日志中的隐性实例级别语义,并将显性实例级别语义和隐性实例级别语义合并到最终的实例级别语义中;S3:输出解析结果,所述结果包括去掉实例后的日志概念化模板、最终的实例级别语义、孤立概念及孤立实例;其中所述实例指日志消息中的变量,所述实例级别语义包括实例及其所指向的概念的组合,所述显性实例级别语义指实例级别语义中,实例其所指向的概念共存于一个日志消息;所述隐性实例级别语义指实例级别语义中实例其所指向的概念不共存于一个日志消息,所述消息级别语义包括出现在日志消息中的概念的组合,所述孤立概念和孤立实例分别指未能相互匹配的概念和实例。2.如权利要求1所述的方法,其特征在于,步骤S2中,所述语义挖掘器包括上下文编码器、语义配对器、语义打分器,所述上下文编码器用于获取基于上下文的单词向量表示,所述语义配对器用于根据所述单词向量表示提取显性实例级别语义,识别日志消息中单词的实例及其所指向的概念的组合;所述语义打分器用于根据所述单词向量表示确定每个单词的语义角色,所述每个单词的语义角色为以下之一:概念、实例或既非概念也非实例。3.如权利要求2所述的方法,其特征在于,所述上下文编码器由双向长短期记忆网络构成,所述双向长短期记忆网络堆叠了前向长短期记忆网络和后向长短期记忆网络的输出。4.如权利要求3所述的方法,其特征在于,所述上下文编码器利用卷积神经网络来提取每个单词的字符级特征以及单词局部特征,并将两种特征融合输入上下文编码器,所述上下文编码器的输出由以下公式表示:;其中word
i
代表第i个单词的词嵌入向量,char
i
表示第i个单词的字符级特征,f
ilocal
表示第i个单词的单词局部特征,所述单词局部特征包括单词形状、长度的组合,LSTM指双向长短期记忆网络,m
i
指从双向长短期记忆网络得到的第i个输出。...

【专利技术属性】
技术研发人员:吕荣聪霍茵桐苏玉鑫李柏橦
申请(专利权)人:香港中文大学深圳研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1