基于日志全语义的多特征日志异常检测方法及系统技术方案

技术编号：33778878 阅读：35 留言：0更新日期：2022-06-12 14:32

本发明专利技术公开了一种基于日志全语义的多特征日志异常检测方法及系统，属于计算机技术领域，特别涉及计算机操作系统或软件系统中日志异常检测技术。本发明专利技术对日志数据集进行初步处理，得到日志数据集中各日志序列全部语义的日志项单词组，并将其作为日志序列的语义特征；分别提取各日志序列的类型特征、时间特征和数量特征，并同语义特征编码成各日志序列的日志特征向量集；基于所有日志特征向量集训练基于注意力机制的BiGRU神经网络模型，得到训练好的BiGRU神经网络模型。将待检测的日志数据集输入训练好的BiGRU神经网络模型进行预测，并根据预测结果区分出各日志序列是正常或异常的日志序列。本发明专利技术用于日志异常检测。本发明专利技术用于日志异常检测。本发明专利技术用于日志异常检测。

全部详细技术资料下载

【技术实现步骤摘要】
基于日志全语义的多特征日志异常检测方法及系统

[0001]一种基于日志全语义的多特征日志异常检测方法及系统，用于日志异常检测，属于计算机
，特别涉及计算机操作系统或软件系统中日志异常检测技术。

技术介绍

[0002]一般来说，大部分的程序在编写的时候都会在一些位置使用“print”功能打印具备一定格式的非结构化提示或告警信息，用于开发者或者用户了解运行状态和定位错误，我们称其为日志信息，尤其是一些大规模的系统，程序规模越大，日志消息数量以及种类则越多甚至越复杂。
[0003]由于日志消息的爆炸增长同时日志的审计又对审查人员的要求很高，因而使得人工手动审查日志消息几乎不可行。最早的通过关键词正则匹配的自动化异常检测方法很多时候只能找到那些明显的单一异常，这种方法非常局限，只有在日志中有明确的标识才有作用，也无法发现那些靠关键词无法定位的异常情况。之后的一些基于聚类分析方案在无监督的日志检测方向上是一个进步，但无法应对诸如日志模板更新、异常种类多样等很多情况。随着人工智能的兴起，逐渐出现了很多基于各类神经网络的自动...

【技术保护点】

【技术特征摘要】
1.一种基于日志全语义的多特征日志异常检测方法，其特征在于，包括如下步骤：步骤1：对日志数据集进行初步处理，得到日志数据集中各日志序列全部语义的日志项单词组，并将其作为日志序列的语义特征，其中，日志数据集包括多个日志序列，日志序列是一段时间间隔或是不同进程产生的日志，各日志序列包括多个日志项；步骤2：分别提取各日志序列的类型特征、时间特征和数量特征，并同语义特征编码成各日志序列的日志特征向量集，其中，日志特征向量集包括类型特征向量、时间特征向量、数量特征向量和语义特征向量；步骤3：基于所有日志特征向量集训练基于注意力机制的BiGRU神经网络模型，得到训练好的BiGRU神经网络模型。步骤4：将待检测的日志数据集输入训练好的BiGRU神经网络模型进行预测，并根据预测结果区分出各日志序列是正常或异常的日志序列。2.根据权利要求1所述的一种基于日志全语义的多特征日志异常检测方法，其特征在于，所述步骤1的具体步骤为：步骤1.1：使用自然语言的分词对各日志序列中的各日志项进行标记，每一日志项得到一组标记后的单词集，其中，单词被标记为名词或动词；步骤1.2：使用分隔符分割标记后得到的单词集，其中，分隔符包括空格、冒号和逗号；步骤1.3：将分割后得到的单词集中的大写字母转换为小写字母，并从单词集中删除所有非字符标记，得到各日志序列全部语义的日志项单词组，即得到各日志序列的语义特征，其中，非字符包括操作符、标点符号和数字。3.根据权利要求2所述的一种基于日志全语义的多特征日志异常检测方法，其特征在于，所述步骤2的具体步骤为：步骤2.1：若各日志项中包含所属类型关键词，即获取各日志项的类型关键词作为类型特征，若不包含所属类型关键词，则根据日志项所属的进程组类型为日志项分配所属的类型关键词，并将类型关键词作为类型特征，其中，类型关键词包括INFO、WARN和ERROR；步骤2.2：提取各日志序列中日志项的时间戳，并计算各日志项距离上一条日志项的输出时间间隔，将其作为当前日志序列的时间特征，其中，第一个日志项是直接获取时间；步骤2.3：统计每一个不同日志项在日志序列中的数量作为各日志序列的数量特征；步骤2.4：使用One
‑
Hot编码的方式对类型特征、时间特征、数量特征进行向量编码，得到类型特征向量、时间特征向量和数量特征向量，同时，使用BERT和TF
‑
IDF对语义特征进行向量化处理，其中，BERT将语义特征中的单词转化为词向量，通过TF
‑
IDF给不同的词向量赋予不同的权重，得到语义信息的向量化表示，即得到语义特征向量。4.根据权利要求3所述的一种基于日志全语义的多特征日志异常检测方法，其特征在于，所述步骤3中注意力机制的BiGRU神经网络模型包括依次设置的文本向量化输入层、隐含层和输出层；隐含层包括依次设置的BiGRU层、attention层和全连接层。5.根据权利要求4所述的一种基于日志全语义的多特征日志异常检测方法，其特征在于，所述步骤4的具体步骤为：将待检测的日志数据集输入训练好的BiGRU神经网络模型进行预测，得出当前日志序列中下一条日志项出现的概率，根据概率和所训练日志数据集的实际情况，正常的日志序
列的下一个日志项通常会是确定的有限几个选择，通过确定这个选择的范围确定概率排名阈值K，若日志项出现的概率在前K项内时，判断其为正常的日志项，且日志序列内所有的日志项都为正常的日志项时，该日志序列为正常的日志序列；若日志项在K项之后的，判断为异常的日志项，则该日志序列为异常的日志序列。6.一种基于日志全语义的多...

【专利技术属性】
技术研发人员：牛伟纳，张小松，李梓慕，薛志行，赵丽睿，邵淇奥，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人