一种基于Word2Vec的日志异常检测方法、装置及电子设备制造方法及图纸

技术编号:30013374 阅读:35 留言:0更新日期:2021-09-11 06:15
本发明专利技术公开了一种基于Word2Vec的日志异常检测方法、装置及电子设备,通过对日志进行预处理,将对于日志异常检测的无关信息剔除,留下有用的词,基于Word2Vec将上述词转化成词向量矩阵。再通过将整个日志划分为多个日志序列,分别计算上述词在日志序列中的权重,基于该权重组合成词

【技术实现步骤摘要】
一种基于Word2Vec的日志异常检测方法、装置及电子设备


[0001]本专利技术涉及日志异常检测
,特别涉及一种基于Word2Vec的日志异常检测方法、装置及电子设备。

技术介绍

[0002]系统日志记录了系统运行时的详细信息,例如时间戳,消息类型和系统运行状态。利用系统日志进行异常检测,可以有效维持系统安全,减少系统故障。
[0003]如图3所示,主流的日志的异常检测的总体框架,主要包括以下四个步骤:日志收集,日志解析,特征提取和异常检测。由于采取了对原始系统日志进行日志解析这一步骤,而现有的日志解析步骤中,基本采用了日志解析器。日志解析器并非是通用的,有的日志需要使用特定的日志解析器才能提取出相关信息,一些通用的日志解析器对于不同系统日志类型的解析精度不一,使用通用的日志解析器很容易产生解析错误,导致正常的日志消息被分类为异常的日志消息。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题。为此,本专利技术提出一种基于Word2Vec的日志异常检测方法、装置及电子设备,略过主流日志异常检测中的日志解析步骤,一方面能够节省解析时间,另一方面能够避免解析精度不高导致异常检测性能不高的问题。
[0005]第一方面,本专利技术实施例提供一种基于Word2Vec的日志异常检测方法,包括以下步骤:
[0006]对原始系统日志进行预处理,得到日志序列;
[0007]通过Word2Vec对所述日志序列中的全部词进行嵌入训练,得到由全部词对应全部词向量组成的词向量矩阵;
[0008]基于所述日志序列中的每个词所占的权重,计算词

序列权值矩阵;
[0009]将所述词向量矩阵与所述词

序列权值矩阵相乘,得到赋予权重后的日志序列特征向量;
[0010]基于所述日志序列特征向量进行日志异常检测。
[0011]根据本专利技术的实施例,至少具有如下技术效果:
[0012]日志是记录系统中的操作事件的文件或文件的集合,大多数的日志文件数据都是原始文本和非结构化文件。通过对日志进行预处理,将对于日志异常检测的无关信息剔除,留下有用的词,基于Word2Vec将上述词转化成词向量矩阵。再通过将整个日志划分为多个日志序列,分别计算上述词在日志序列中的权重,基于该权重组合成词

序列权值矩阵。取词向量矩阵和词

序列权值矩阵相乘,获得日志序列的特征向量。使用这些特征向量训练日志异常检测模型,训练好的日志异常检测模型就能对新的系统日志进行异常检测。本方法略过主流日志异常检测中的日志解析步骤,一方面能够节省解析时间,另一方面能够避免
解析精度不高导致异常检测性能不高的问题。不仅如此,本方法还采用加权序列特征向量的方式,作为异常检测模型的输入,从而解决异常检测性能不高的问题。
[0013]可选的,所述预处理包括:截取所述原始系统日志中的日志内容;通过窗口将整个所述日志内容划分为多个日志序列。
[0014]可选的,所述通过Word2Vec对所述日志序列中的全部词进行嵌入训练,得到由全部词对应全部词向量组成的词向量矩阵包括:对所述日志内容进行分词操作,获得若干个词;通过所述Word2Vec中的CBow模型计算出每个所述词的词向量;将每个所述词向量由上至下排列,生成所述词向量矩阵。
[0015]可选的,所述权重通过TF

IDF计算得到,计算公式为:
[0016][0017][0018]其中,Count(Word
i
)为词i在所有所述日志序列中出现的次数,Total(word)为所述日志中词的总数,Total(seq)为所述日志序列总数,Total(seq
i
)为包含所述词i的所述日志序列总数。
[0019]可选的,所述计算词

序列权值矩阵包括:将所述TF(Word
i
)与所述IDF(Word
i
)相乘,作为所述词i的TF

IDF值;将连续多条所述日志组成所述日志序列,其中,多个所述词i的TF

IDF值组成所述日志序列的Seq向量;将多个所述日志序列的Seq向量由上至下合并成所述词

序列权值矩阵。
[0020]可选的,通过K

means的无监督聚类方法进行日志异常检测。
[0021]第二方面,本专利技术实施例提供一种基于Word2Vec的日志异常检测装置,包括:
[0022]预处理模块,对原始系统日志进行预处理,得到日志序列;
[0023]合成矩阵模块,用于通过Word2Vec对所述日志序列中的全部词进行嵌入训练,得到由全部词对应全部词向量组成的词向量矩阵,以及用于基于所述日志序列中的每个词所占的权重,计算词

序列权值矩阵;
[0024]获取向量模块,用于将所述词向量矩阵与所述词

序列权值矩阵相乘,得到赋予权重后的日志序列特征向量;
[0025]异常检测模块,用于基于所述日志序列特征向量进行日志异常检测。
[0026]第三方面,本专利技术实施例提供了一种电子设备,包括:
[0027]存储器,用于存储计算机程序;
[0028]处理器,用于执行所述计算机程序时实现前述提供的一种基于Word2Vec的日志异常检测方法。
[0029]第四方面,本专利技术实施例提供了一种计算机可读介质,用于存储计算机程序,所述计算机程序被处理器执行时实现前述提供的一种基于Word2Vec的日志异常检测方法提供的一种基于Word2Vec的日志异常检测方法。
[0030]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0031]本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0032]图1为本专利技术实施例提供的一种基于Word2Vec的日志异常检测方法的流程图;
[0033]图2为本专利技术实施例提供的一种基于Word2Vec的日志异常检测方法的无监督的日志异常检测框架图;
[0034]图3为本专利技术实施例提供的一种基于Word2Vec的日志异常检测方法的主流异常检测框架;
[0035]图4为本专利技术实施例提供的一种基于Word2Vec的日志异常检测方法的详细流程图;
[0036]图5为本专利技术实施例提供的一种基于Word2Vec的日志异常检测方法的CBOW模型图;
[0037]图6为本专利技术实施例提供的一种基于Word2Vec的日志异常检测方法的词向量矩阵W生成示意图;
[0038]图7为本专利技术实施例提供的一种基于Word2Vec的日志异常检测方法的生成特征向量示例图;
[0039]图8为本专利技术实施例提供的一种基于Word2V本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Word2Vec的日志异常检测方法,其特征在于,包括以下步骤:对原始系统日志进行预处理,得到日志序列;通过Word2Vec对所述日志序列中的全部词进行嵌入训练,得到由全部词对应全部词向量组成的词向量矩阵;基于所述日志序列中的每个词所占的权重,计算词

序列权值矩阵;将所述词向量矩阵与所述词

序列权值矩阵相乘,得到赋予权重后的日志序列特征向量;基于所述日志序列特征向量进行日志异常检测。2.根据权利要求1所述的一种基于Word2Vec的日志异常检测方法,其特征在于,所述预处理包括:截取所述原始系统日志中的日志内容;通过窗口从所述日志内容划分出日志序列。3.根据权利要求1所述的一种基于Word2Vec的日志异常检测方法,其特征在于,所述通过Word2Vec对所述日志序列中的全部词进行嵌入训练,得到由全部词对应全部词向量组成的词向量矩阵包括:对所述日志内容进行分词操作,获得若干个词;通过所述Word2Vec中的CBow模型计算出每个所述词的词向量;对全部的所述词向量进行排列,生成所述词向量矩阵。4.根据权利要求1所述的一种基于Word2Vec的日志异常检测方法,其特征在于,所述权重通过TF

IDF计算得到,计算公式为:IDF计算得到,计算公式为:其中,Count(Word
i
)为词i在所有所述日志序列中出现的次数,Total(word)为所述日志中词的总数,Total(seq)为所述日志序列总数,Total(seq
i
)为包含所述词i的所述日志序列总数。5.根据权利要求4所述的一种基于Word2Vec的日志异...

【专利技术属性】
技术研发人员:王进赵长庆何施茗夏卓群徐超唐小勇
申请(专利权)人:长沙理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1