【技术实现步骤摘要】
基于孪生神经网络和固定解析树的网络日志解析方法及装置
[0001]本专利技术涉及基于孪生神经网络和固定解析树的网络日志解析方法及装置,属于自然语言处理与人工智能
技术介绍
[0002]现代软硬件系统通常会在日志中记录有价值的运行时信息(例如,重要事件和相关变量),同时也包含了诊断网络或系统异常的一些最重要的信息。当网络或系统发生异常,日志消息通常用于更复杂的向下钻取的过程,在这些过程中,运维人员会检查问题的根本原因,并决定他们应该做些什么来从故障中恢复。因此,日志对于从业者在理解软件系统的运行时行为和诊断系统故障方面起着重要的作用。然而,由于日志的大小通常非常大(例如,数十或数百gb),之前的研究已经提出了自动分析日志的方法,这些自动化的方法帮助从业人员进行各种软件维护和操作活动,如调试,异常检测,故障检测,故障预测,系统理解,性能诊断和改进。
[0003]日志是通过在源代码中的日志记录语句生成的(例如,log.info()语句)。日志记录语句由日志级别(例如,info、error等)、静态文本(例如“Received block”和“of size”等)和动态变量(如“$blockId”和IP等)组成。在系统运行期间,日志语句将生成原始日志消息,这是一行非结构化文本,其中包含静态文本和日志语句中指定的动态变量(例如“blk_7526945448667194862”)的值。日志消息还包含诸如事件发生时间(例如,“081109 210637”)等信息。换句话说,日志记录语句为在运行时生成的日志消息定义 ...
【技术保护点】
【技术特征摘要】
1.基于孪生神经网络和固定解析树的网络日志解析方法,其特征在于,包括:获取原始日志消息;对原始日志消息通过简单正则表达式进行预处理,得到预处理后的日志消息及对应的日志消息长度:根据日志消息长度来将原始日志消息划分日志组,其中每个日志组存储的日志消息长度相同;对于当前日志消息,基于划分的日志组选择到第二层节点的路径,搜寻中间节点最终搜索到最相似叶子节点;基于搜索到的最相似叶子节点,采用训练好的孪生神经网络模型确定当前日志消息与这个叶子节点最相似日志消息的相似度,得到日志消息相似度结果;根据日志消息相似度结果,通过固定深度解析树来更新日志消息模板情况;当所有日志消息解析完成,得到解析树。2.根据权利要求1所述的基于孪生神经网络和固定解析树的网络日志解析方法,其特征在于,根据日志消息长度来将原始日志消息划分日志组,包括:基于具有相同日志事件的日志消息具有相同的日志消息长度的假设,根据预处理过后日志消息的长度不同将原始日志分为不同的日志组,每个日志组存储的日志消息长度相同,其中日志消息长度定义为日志消息中令牌的数量。3.根据权利要求1所述的基于孪生神经网络和固定解析树的网络日志解析方法,其特征在于,基于划分的日志组选择到第二层节点的路径,搜寻中间节点最终搜索到最相似叶子节点,包括:从解析树的根开始向下搜索,当达到解析树中表示日志消息长度的层次,即第二层,继续向下搜索,通过日志消息开始位置的标记选择下一个内部节点;根据预设的解析树的深度参数,搜寻到固定深度的叶子节点,其中叶子节点包含日志事件组列表。4.根据权利要求1所述的基于孪生神经网络和固定解析树的网络日志解析方法,其特征在于,采用训练好的孪生神经网络模型确定当前日志消息与这个叶子节点最相似日志消息的相似度,包括:所述孪生神经网络包括两个孪生神经网络LSTMa和LSTMb,每个网络处理给定的一对句子;一个LSTM从可变长度的二维向量序列空间学习映射到每个日志消息表示为一个令牌序列x1,...,x
t
,被传递给LSTM,对于每个t∈{1,...,T},一个LSTM更新过程通过权重矩阵W
i
,W
f
,W
c
,W
o
,U
i
,U
f
,U
c
,U
o
和偏移量b
i
,b
f
,b
c
,b
o
来参数化:i
t
=sigmoid(W
i
x
t
+U
i
h
t
‑1+b
i
)f
t
=sigmoid(W
f
x
t
+U
f
h
t
‑1+b
f
)o
t
=sigmoid(W
o
x
t
+U
o
h
t
‑1+b
o
))h
t
=o
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。