一种基于语义向量化表示的日志异常检测方法技术

技术编号：40640289 阅读：3 留言：0更新日期：2024-03-13 21:22

本发明专利技术公开了一种基于语义向量化表示的日志异常检测方法，包括如下步骤：S1、对日志数据进行预处理，除去冗余信息；S2、捕获日志消息中单词的上下文表示，提取原始日志消息的语义含义，并将其表示为语义向量；S3、采用基于自注意力机制的分类器模型进行分类，从而基于分类结果输出日志异常检测结果。本发明专利技术的优点在于：既充分的利用了日志序列语义信息又提高了异常检测的精度，提高日志异常检测的可靠性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机日志异常检测领域，特别涉及一种基于语义向量化表示的日志异常检测方法。

技术介绍

1、随着计算机技术的不断发展和应用的普及，计算机系统和网络系统在我们的日常生活和工作中扮演着越来越重要的角色。这些系统产生大量的日志数据，这些日志以文本形式记录系统的运行情况，并指示不同关键点和重要活动的状态，用于记录系统运行状态、事件和异常信息，以便帮助管理员进行系统监控、故障排查、性能优化等工作。因此，日志异常检测可以帮助定位异常并进行原因分析，以减少出错时间，保证系统的正常运行。

2、传统的日志异常检测方法主要基于规则或机器学习算法，如离群点检测、聚类和分类等方法。然而，这些方法在处理复杂、高维度的日志数据时存在一些局限性。首先，基于规则的方法往往需要依赖人工定义的规则来识别异常，而这些规则可能无法涵盖所有异常情况，且设计和维护规则本身也是一项繁琐的工作。其次，传统机器学习方法通常需要依赖于手工设计的特征工程，以提取适合用于异常检测的特征。然而，日志数据的高维度和非结构化使得特征工程过程变得非常复杂，而且很容易遗漏重要的特征。此外，传统方法在处理大规模日志数据时往往需要较长的处理时间，难以满足实时监控和快速检测异常的需求。

3、为了克服传统方法的局限性，深度学习技术成为日志异常检测领域的新研究热点。深度学习是一种基于多层神经网络的机器学习技术，其最大的优势是可以自动从数据中学习特征表示，无需依赖于人工设计的规则或特征工程。深度学习通过多层次的抽象表示来学习数据的高阶特征，可以捕捉数据中复杂的非线性关系

技术实现思路

1、本专利技术的目的在于克服现有技术的不足，提供一种基于语义向量化表示的日志异常检测方法，用于提高日志异常检测的可靠性和准确性。

2、为了实现上述目的，本专利技术采用的技术方案为：一种基于语义向量化表示的日志异常检测方法，包括如下步骤：

3、s1、对日志数据进行预处理，除去冗余信息；

4、s2、捕获日志消息中单词的上下文表示，提取原始日志消息的语义含义，并将其表示为语义向量；

5、s3、采用基于自注意力机制的分类器模型进行分类，从而基于分类结果输出日志异常检测结果。

6、步骤s1包括将原始日志消息采用分隔符拆分日志消息，将日志消息中的大写字母转换为小写字母，并删除日志消息中的所有非字符，最后得到日志消息对应的一组单词，每组单词中的每个单词称之为一个令牌。

7、所述的原始日志消息是半结构化文本，其中包含头部和内容；消息头部包括时间戳、代表事件严重等级的冗长级别和组件，日志内容由常量部分和变量部分组成。

8、步骤s2中采用bert模型捕获日志消息中单词的上下文表示，提取原始日志消息的语义含义，并将其表示为语义向量。

9、步骤s2中包括：

10、采用词汇表将日志消息中的文本转换为单词，将词汇表中没有的文本采用wordpiece模块对输入的日志消息进行标记为子单词，并形成单词和子单词的集合后送入到bert模型中并被编码成具有固定维度的向量表示。

11、所述wordpiece模块被配置为：wordpiece首先将所有字符和符号包含到其基本词汇表s中；然后利用语言模型计算句子似然概率值，定义j表示第j组日志序列，k表示日志序列中的第k个日志，则日志数据由n个字词组成，ti表示子词，若各个字词之间是独立存在的，则日志数据的语言模式似然值等价于所有字词概率的乘积：

12、

13、wordpiece每次从词表中选出两个子词tx和ty合并成新的子词tz，合并词后得到一个词库中没有的新词，然后重新计算句子的似然概率值；此时日志数据似然值的变化可表示为：

14、

15、似然值的变化就是两个字词之间的互信息，wordpiece每次选择合并的两个字词，他们具有最大的互信息值，也就是两字词在语言模型上具有较强的关联性；从基本词汇表开始训练语言模型，并选择使得语言模型概率最大的相邻子词加入词汇表；

16、合并词后得到一个词库中没有的新词，将新词添加到词汇表中，语言模型再次在新词汇表上进行训练；重复这些步骤，直到达到所需词汇表

17、所述bert模型利用bert基础模型对输入的单词和子单词的集合进行编码，其具有12层transformer编码器和每个变换器的768个隐藏单元，每个transformer层包括多头自注意和位置前馈子层，其中在两个子层中采用残差连接，随后进行层归一化。

18、将bert模型编码输出的固定维度的向量表示对应的语义向量作为输入送入到基于多头自注意力机制和卷积层的分类模型来检测日志消息的异常。

19、将日志序列的位置嵌入和日志序列的语义向量总和输入到分类器模型中进行异常检测。

20、分类器模型包括一个attention block和一个位置前馈层attention block是一种混合结构，采用多头自注意机制捕获全局上下文信息，采用卷积层提取局部上下文信息，最后，对全局上下文和局部上下文应用一个add操作来提取全局-局部上下文作为output，然后output进入fn后再进入位置前馈层，层间特征连接成前馈网络，该网络包含两个完全连接的层，每个全连接层都有一个relu激活函数，先将数据映射到高维空间再映射到低维空间，通过进行标准化处理，将数据移动到激活函数relu的作用区域，进行非线性映射学习，最后分类器模型的输出被馈送到池化层、丢弃层和全连接层，使用softmax函数识别正常/异常的日志序列。

21、本专利技术的优点在于：既充分的利用了日志序列语义信息又提高了异常检测的精度，提高日志异常检测的可靠性和准确性。可以有效地表示日志消息的语义含义。由于本文异常检测语言模型使用原始日志消息(预处理后)进行异常检测，因此可以避免日志解析不准确的问题。结果还表明，该模型可以有效地学习oov词的含义。

本文档来自技高网...

【技术保护点】

1.一种基于语义向量化表示的日志异常检测方法，其特征在于：包括如下步骤：

2.如权利要求1所示的一种基于语义向量化表示的日志异常检测方法，其特征在于：

3.如权利要求2所述的一种基于语义向量化表示的日志异常检测方法，其特征在于：

4.如权利要求1-3任一所述的一种基于语义向量化表示的日志异常检测方法，其特征在于：

5.如权利要求4所述的一种基于语义向量化表示的日志异常检测方法，其特征在于：

6.如权利要求5所述的一种基于语义向量化表示的日志异常检测方法，其特征在于：

7.如权利要求4所述的一种基于语义向量化表示的日志异常检测方法，其特征在于：

8.如权利要求1-7任一所述的一种基于语义向量化表示的日志异常检测方法，其特征在于：

9.如权利要求8所述的一种基于语义向量化表示的日志异常检测方法，其特征在于：

10.如权利要求9所述的一种基于语义向量化表示的日志异常检测方法，其特征在于：

【技术特征摘要】

1.一种基于语义向量化表示的日志异常检测方法，其特征在于：包括如下步骤：

2.如权利要求1所示的一种基于语义向量化表示的日志异常检测方法，其特征在于：

3.如权利要求2所述的一种基于语义向量化表示的日志异常检测方法，其特征在于：

4.如权利要求1-3任一所述的一种基于语义向量化表示的日志异常检测方法，其特征在于：

5.如权利要求4所述的一种基于语义向量化表示的日志异常检测方法，其特征在于：

<...

【专利技术属性】
技术研发人员：章一磊，苑淑晴，龚声望，张广泽，王俊辉，
申请(专利权)人：安徽师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人