结合双向切片GRU与门控注意力机制日志异常检测方法技术

技术编号:30499835 阅读:13 留言:0更新日期:2021-10-27 22:32
本发明专利技术属于日志异常检测技术领域,公开了一种结合双向切片GRU与门控注意力机制日志异常检测方法,包括:使用spell在线解析日志,通过提取日志的log key,将日志解析为结构化序列,引入双向切片与门控注意力机制构建日志异常检测模型,并将解析到得到的特征序列作为日志异常检测模型的输入进行日志异常检测模型训练,利用训练好的日志异常检测模型进行日志异常检测。本发明专利技术的日志异常检测算法,具有参数简单,收敛速度快的优点,在减少了运行时间的同时,取得了较高的准确率,在对于大型信息系统的日志分析中取得了较为理想的效果。系统的日志分析中取得了较为理想的效果。系统的日志分析中取得了较为理想的效果。

【技术实现步骤摘要】
结合双向切片GRU与门控注意力机制日志异常检测方法


[0001]本专利技术属于日志异常检测
,尤其涉及一种结合双向切片GRU与门控注意力机制日志异常检测方法。

技术介绍

[0002]目前:系统运行过程中会产生各种各样的日志,这些日志记录了系统运行时的状态和系统执行的各种操作,是在线监视和异常检测的良好信息来源。因此,将系统中存在的异常日志快速准确的检测出来,对维护系统的安全稳定意义重大。
[0003]系统日志异常检测一直是异常检测领域中的热门研究课题。系统日志由多种非固定格式的非结构化数据集组成,和统计学、自然语言处理、机器学习等众多学科都有着非常紧密的联系。近些年,各国研究人员应用了不同学科领域的各种方法来进行日志异常检测,并取得了大量杰出的研究成果。现有技术1 利用抽象语法树(Abstract Syntax Tree,AST)和主成分分析(principal ComponentAnalysis,PCA)方法来处理经过解析后产生的日志特征集,通过降低特征集的复杂度,取得了较好的异常检测准确率。但是该方法依赖于静态源代码分析来从日志中提取结构,在日志异常检测中的通用性较差。现有技术2提出一种以日志聚类为核心思想的异常检测方法——LogCluster。它拥有快速处理大量日志数据的能力,同时也能取得较高的异常检测精度。但是LogCluster对日志进行分组时,使用会话窗口的方式,这使得LogCluster只能检测带标记符的日志,限制了该方法的通用性。
[0004]近些年,深度学习的发展势头迅猛,在各个相关领域都取得了较为显著的成果,尤其在自然语言处理领域进展巨大。涌现出了大量以NLP为基础的优秀模型。现有技术3将系统日志中提取出的信息视为自然语言序列,围绕自然语言序列的处理,提出了一种基于LSTM的深度学习神经网络模型——DeepLog。该模型从正常执行中自动学习日志模型,并通过该模型,对正常执行下的日志数据进行异常监测。当检测到的日志与既定规则产生冲突时,即认定其为异常。实验结果表明,该方法在多个大型日志数据集上取得了非常高的检测精度,总体性能优于其他基于传统数据挖掘的日志异常检测方法。但该方法检测效率较低,理论上仍有一定提升空间。
[0005]通过上述分析,现有技术存在的问题及缺陷为:现有的日志异常检测方法检测速度慢,准确率不高。
[0006]解决以上问题及缺陷的难度为:不同行业领域产生的系统日志在内容以及格式方面存在较大差异,且数据量巨大,无法采用某种单一方法进行日志异常检测。对于某些没有标记符的日志,现存的一些基于标记符的日志异常检测方法无法发挥作用,且采用人工对于日志进行标记工作量巨大,难以完成。目前基于深度学习的日志异常检测模型无需对日志进行人工标记,能够自动学习异常日志特征,并基于异常日志特征进行日志异常检测,取得了良好的检测精度。但由于庞大的日志数据量,造成性能的下降以及巨大的时间开销。如何在处理海量日志数据的同时减少时间开销,是一个非常困难的问题。
[0007]解决以上问题及缺陷的意义为:通过结合双向切片GRU与门控注意力机制,减少了
日志异常检测模型的参数数量,在模型上可以双向并行处理经过切片后的日志数据,显著减少了时间开销,同时引入门控注意力机制,使得检测精度得到了进一步的提高。在对于大型信息系统的日志分析中取得了理想的效果,在检测精度以及总体性能开销方面,优于现存大部分日志异常检测方法。在大型信息系统的风险分析以及故障预测领域具有积极影响。

技术实现思路

[0008]针对现有技术存在的问题,本专利技术提供了一种结合双向切片GRU与门控注意力机制日志异常检测方法。
[0009]本专利技术是这样实现的,一种结合双向切片GRU与门控注意力机制日志异常检测方法,所述结合双向切片GRU与门控注意力机制日志异常检测方法包括:使用spell在线解析日志,通过提取日志的log key,将日志解析为结构化序列,引入双向切片与门控注意力机制构建日志异常检测模型,并将解析到得到的特征序列作为日志异常检测模型的输入进行日志异常检测模型训练,利用训练好的日志异常检测模型进行日志异常检测。
[0010]进一步,所述日志异常检测模型包括:
[0011]输入层、双向GRU层、GA

Attention层、第二GRU层、拼接层和softmax 层;
[0012]输入层,用于用Word2Vec方法生成log key单词向量x
m
;并利用x
ij
表示 logkeyX
i
的第j个单词的词向量j∈[1,MaxKey];
[0013]双向GRU层,用于对经过Word2Vec方法生成的输入序列在两个方向分别进行处理;
[0014]GA

Attention层,用于为每个logkey中经过筛选的单词分配权重;
[0015]第二GRU层,用于对于GA

Attention层的输出序列在两个方向进行处理;
[0016]拼接层,用于将计算得到顶层输出与进行拼接;
[0017]softmax层,用于基于拼接结果计算得到一个n维向量,每一维度的值代表 logkey表中的每个元素出现在当前位置的概率,并得到每个logkey出现的概率。
[0018]进一步,所述日志异常检测模型损失函数为:
[0019]Loss=

∑logp
dj

[0020]其中,d表示每条logkey,j表示标签。
[0021]进一步,所述结合双向切片GRU与门控注意力机制日志异常检测方法包括以下步骤:
[0022]步骤一,利用Spell从日志数据中解析出logkey,并利用Word2Vec工具训练log key向量;此步骤的作用是将logkey转化为转为计算机可以理解的稠密向量。
[0023]步骤二,将logkey转换成固定长度的索引,每个索引对应一个logkey序列向量;将logkey序列向量拼接成logkey序列矩阵,作为模型的嵌入层权重;此步骤的作用是产生模型的嵌入层权重。
[0024]步骤三,将日志解析出的logkey分别进行切片处理作为B i

SSGRU

GA

Attention模型的输入;此步骤的作用是将解析出的logkey进行切片,便于在模型中双向同步处理,减少模型的时间开销。
[0025]步骤四,将log key最小子序列索引表示输入嵌入层,再输入Bi

SSGRU层,提取log key子序列层次特征;此步骤的作用是利用Bi

SSGRU层,提取log key 子序列层次特征,用
于后续的异常分析。
[0026]步骤五,将每个子序列经过Bi

SSGRU提取到的特征输入到GA

Attention 层,分配相应的logk本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合双向切片GRU与门控注意力机制日志异常检测方法,其特征在于,所述结合双向切片GRU与门控注意力机制日志异常检测方法包括:使用spell在线解析日志,通过提取日志的log key,将日志解析为结构化序列,引入双向切片与门控注意力机制构建日志异常检测模型,并将解析到得到的特征序列作为日志异常检测模型的输入进行日志异常检测模型训练,利用训练好的日志异常检测模型进行日志异常检测。2.如权利要求1所述结合双向切片GRU与门控注意力机制日志异常检测方法,其特征在于,所述日志异常检测模型包括:输入层、双向GRU层、GA

Attention层、第二GRU层、拼接层和softmax层;输入层,用于用Word2Vec方法生成log key单词向量x
m
;并利用x
ij
表示logkeyX
i
的第j个单词的词向量j∈[1,MaxKey];双向GRU层,用于对经过Word2Vec方法生成的输入序列在两个方向分别进行处理;GA

Attention层,用于为每个logkey中经过筛选的单词分配权重;第二GRU层,用于对于GA

Attention层的输出序列在两个方向进行处理;拼接层,用于将计算得到顶层输出与进行拼接;softmax层,用于基于拼接结果计算得到一个n维向量,每一维度的值代表logkey表中的每个元素出现在当前位置的概率,并得到每个logkey出现的概率。3.如权利要求2所述结合双向切片GRU与门控注意力机制日志异常检测方法,其特征在于,所述日志异常检测模型损失函数为:Loss=

∑logp
dj
;其中,d表示每条logkey,j表示标签。4.如权利要求1所述结合双向切片GRU与门控注意力机制日志异常检测方法,其特征在于,所述结合双向切片GRU与门控注意力机制日志异常检测方法包括以下步骤:步骤一,利用Spell从日志数据中解析出logkey,并利用Word2Vec工具训练log key向量;步骤二,将logkey转换成固定长度的索引,每个索引对应一个logkey序列向量;将logkey序列向量拼接成logkey序列矩阵,作为模型的嵌入层权重;步骤三,将日志解析出的logkey分别进行切片处理作为Bi

SSGRU

GA

Attention模型的输入;步骤四,将log key最小子序列索引表示输入嵌入层,再输入Bi

SSGRU层,提取log key子序列层次特征;步骤五,将每个子序列经过Bi

SSGRU提取到的特征输入到GA

Attention层,分配相应的logkey序列向量权重;步骤六,经过多个网络层获取整个log key序列的特征表示,作为下一可能logkey概率表示;步骤七,将logkey表按照输出的概率值从大到小排列,选取其中前b个组成集合;若系统当前时刻输...

【专利技术属性】
技术研发人员:顾士景马超张闻彬王高洲殷齐林郭爽爽黄振刘荫韩圣亚汤琳琳于航徐浩张悦王惠剑郑海杰张凯刘培顺
申请(专利权)人:国网山东省电力公司信息通信公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1