基于词性分析的日志异常检测方法、装置和电子设备制造方法及图纸

技术编号:34271874 阅读:22 留言:0更新日期:2022-07-24 16:13
本公开提供一种基于词性分析的日志异常检测方法、装置和电子设备。通过获取原始日志,根据原始日志和词性分析策略得到合成词向量,实现通过词性分析策略对原始日志进行词性分析,将原始日志转化为具有语义信息的合成词向量,同时也根据单词在原始日志中的重要程度进行优化,达到提升判别准确度的效果。此外,该合成词向量还可以优化原始日志解析的工作量,即省去对无关紧要单词的人工剔除工作,根据合成词向量和日志异常检测模型得到预测分类结果,提升日志异常检测的准确性。提升日志异常检测的准确性。提升日志异常检测的准确性。

Log anomaly detection method, device and electronic equipment based on part of speech analysis

【技术实现步骤摘要】
基于词性分析的日志异常检测方法、装置和电子设备


[0001]本公开涉及数据处理
,尤其涉及一种基于词性分析的日志异常检测方法、装置和电子设备。

技术介绍

[0002]日志的主要目的是记录系统状态和重要的事件帮助定位系统的问题。日志对于理解系统状态和定位性能问题至关重要。因此,对于日志进行异常检测是必不可少的一环。
[0003]现有技术中,日志检测将日志转化为向量时无法对日志中单词的语义信息进行表达,进而导致根据向量对日志的异常检测结果准确性较差。
[0004]因此,提出一种日志异常检测方法将日志转化为具有语义信息的向量,根据转化后的向量对日志进行异常检测以提升日志异常检测的准确性是当前亟待解决的问题。

技术实现思路

[0005]本公开提供一种基于词性分析的日志异常检测方法、装置和电子设备,用以解决现有技术中无法对日志中单词的语义信息进行表达,导致根据向量对日志的异常检测结果准确性较差的缺陷,实现通过将日志转化为具有语义信息的向量,根据转化后的向量对日志进行异常检测以提升日志异常检测的准确性。
[0006]本公开提供一种基于词性分析的日志异常检测方法,包括:
[0007]获取原始日志;
[0008]根据所述原始日志和词性分析策略得到合成词向量;
[0009]根据所述合成词向量和日志异常检测模型得到预测分类结果;
[0010]其中,所述日志异常检测模型为根据原始日志样本和所述词性分析策略对所述初始日志异常检测模型进行训练得到。
[0011]根据本公开提供的一种基于词性分析的日志异常检测方法,所述日志异常检测模型是通过如下步骤训练得到:
[0012]获取原始日志样本;
[0013]根据所述原始日志样本和所述词性分析策略得到合成词向量样本;
[0014]根据所述合成词向量样本和初始日志异常检测模型得到分类结果样本并根据所述分类结果样本计算损失函数;
[0015]根据所述损失函数将所述初始日志异常检测模型确定为所述日志异常检测模型。
[0016]根据本公开提供的一种基于词性分析的日志异常检测方法,所述根据所述原始日志样本和词性分析策略得到合成词向量样本的步骤,包括:
[0017]根据所述原始日志样本生成原始日志模板样本;
[0018]根据所述原始日志模板样本生成初始词向量样本和词性权重向量样本;
[0019]根据所述初始词向量样本和所述词性权重向量生成所述合成词向量样本。
[0020]根据本公开提供的一种基于词性分析的日志异常检测方法,所述根据所述原始日
志模板样本生成初始词向量样本和词性权重向量样本的步骤,包括:
[0021]通过词向量提取工具对所述原始日志模板样本进行词向量提取,生成所述初始词向量样本;
[0022]将所述原始日志模板样本输入词性分析模型进行词性分析,输出词性向量样本;
[0023]根据所述词性向量样本和权重系数表确定词性权重向量样本。
[0024]根据本公开提供的一种基于词性分析的日志异常检测方法,所述通过词向量提取工具对所述原始日志模板样本进行词向量提取,生成所述初始词向量样本的步骤,包括:
[0025]通过所述词向量提取工具根据所述原始日志模板样本对应的原始日志序列样本数量和原始日志模板样本长度,以及预设的原始日志模板样本标准长度和词向量维度,对所述原始日志模板样本进行词向量提取,生成所述初始词向量样本。
[0026]根据本公开提供的一种基于词性分析的日志异常检测方法,所述通过所述词向量提取工具根据所述原始日志模板样本对应的原始日志序列样本数量和原始日志模板样本长度,以及预设的原始日志模板样本标准长度和词向量维度,对所述原始日志模板样本进行词向量提取,生成所述初始词向量样本的步骤,包括:
[0027]通过所述词向量提取工具根据所述原始日志模板样本标准长度对所述原始日志模板样本长度进行处理,得到处理后的原始日志模板样本长度;
[0028]通过所述词向量提取工具根据所述原始日志序列样本数量、所述词向量维度和所述处理后的原始日志模板样本长度生成所述初始词向量。
[0029]根据本公开提供的一种基于词性分析的日志异常检测方法,所述通过所述词向量提取工具根据所述原始日志模板样本标准长度对所述原始日志模板样本长度进行处理,得到处理后的原始日志模板样本长度的步骤,包括:
[0030]在所述原始日志模板样本长度小于所述原始日志模板样本标准长度的情况下,根据所述原始日志模板样本标准长度与所述原始日志模板样本长度的差值,对所述原始日志模板样本长度进行补充,得到所述处理后的原始日志模板样本长度;
[0031]在所述原始日志模板样本长度大于所述原始日志模板样本标准长度的情况下,根据所述原始日志模板样本长度与所述原始日志模板样本标准长度的差值,对所述原始日志模板样本长度进行删除,得到所述处理后的原始日志模板样本长度;
[0032]在所述原始日志模板样本长度等于所述原始日志模板样本标准长度的情况下,直接将所述原始日志模板样本长度作为所述处理后的原始日志模板样本长度。
[0033]根据本公开提供的一种基于词性分析的日志异常检测方法,所述根据所述合成词向量样本和初始日志异常检测模型得到分类结果样本并根据所述分类结果样本计算损失函数的步骤,包括:
[0034]将所述合成词向量样本输入所述初始日志异常检测模型,输出多个具有概率的分类结果样本;
[0035]根据所述多个具有概率的分类结果样本和所述原始日志样本对应的真实分类计算所述损失函数。
[0036]根据本公开提供的一种基于词性分析的日志异常检测方法,所述根据所述多个具有概率的分类结果样本和所述原始日志样本对应的真实分类计算所述损失函数的步骤,包括:
[0037]根据预测分类样本和所述原始日志样本对应的真实分类计算交叉熵,将所述交叉熵作为所述损失函数,其中,所述预测分类样本为所述多个具有概率的分类结果样本中概率最大的分类结果样本。
[0038]根据本公开提供的一种基于词性分析的日志异常检测方法,所述根据所述损失函数将所述初始日志异常检测模型确定为所述日志异常检测模型的步骤,包括:
[0039]在所述损失函数未达到预设阈值范围的情况下,调整所述初始日志异常检测模型的参数,并返回重新执行所述获取原始日志样本的步骤;
[0040]在所述损失函数达到预设阈值范围的情况下,确定所述初始日志异常检测模型为所述日志异常检测模型。
[0041]根据本公开提供的一种基于词性分析的日志异常检测方法,所述根据所述原始日志和词性分析策略得到合成词向量的步骤,包括:
[0042]根据所述原始日志生成原始日志模板;
[0043]根据所述原始日志模板生成初始词向量和词性权重向量;
[0044]根据所述初始词向量和所述词性权重向量生成所述合成词向量。
[0045]根据本公开提供的一种基于词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词性分析的日志异常检测方法,其特征在于,包括:获取原始日志;根据所述原始日志和词性分析策略得到合成词向量;根据所述合成词向量和日志异常检测模型得到预测分类结果;其中,所述日志异常检测模型为根据原始日志样本和所述词性分析策略对所述初始日志异常检测模型进行训练得到。2.根据权利要求1所述基于词性分析的日志异常检测方法,其特征在于,所述日志异常检测模型是通过如下步骤训练得到:获取原始日志样本;根据所述原始日志样本和所述词性分析策略得到合成词向量样本;根据所述合成词向量样本和初始日志异常检测模型得到分类结果样本并根据所述分类结果样本计算损失函数;根据所述损失函数将所述初始日志异常检测模型确定为所述日志异常检测模型。3.根据权利要求2所述的基于词性分析的日志异常检测方法,其特征在于,所述根据所述原始日志样本和词性分析策略得到合成词向量样本的步骤,包括:根据所述原始日志样本生成原始日志模板样本;根据所述原始日志模板样本生成初始词向量样本和词性权重向量样本;根据所述初始词向量样本和所述词性权重向量生成所述合成词向量样本。4.根据权利要求3所述的基于词性分析的日志异常检测方法,其特征在于,所述根据所述原始日志模板样本生成初始词向量样本和词性权重向量样本的步骤,包括:通过词向量提取工具对所述原始日志模板样本进行词向量提取,生成所述初始词向量样本;将所述原始日志模板样本输入词性分析模型进行词性分析,输出词性向量样本;根据所述词性向量样本和权重系数表确定词性权重向量样本。5.根据权利要求4所述的基于词性分析的日志异常检测方法,其特征在于,所述通过词向量提取工具对所述原始日志模板样本进行词向量提取,生成所述初始词向量样本的步骤,包括:通过所述词向量提取工具根据所述原始日志模板样本对应的原始日志序列样本数量和原始日志模板样本长度,以及预设的原始日志模板样本标准长度和词向量维度,对所述原始日志模板样本进行词向量提取,生成所述初始词向量样本。6.根据权利要求5所述的基于词性分析的日志异常检测方法,其特征在于,所述通过所述词向量提取工具根据所述原始日志模板样本对应的原始日志序列样本数量和原始日志模板样本长度,以及预设的原始日志模板样本标准长度和词向量维度,对所述原始日志模板样本进行词向量提取,生成所述初始词向量样本的步骤,包括:通过所述词向量提取工具根据所述原始日志模板样本标准长度对所述原始日志模板样本长度进行处理,得到处理后的原始日志模板样本长度;通过所述词向量提取工具根据所述原始日志序列样本数量、所述词向量维度和所述处理后的原始日志模板样本长度生成所述初始词向量。7.根据权利要求6所述的基于词性分析的日志异常检测方法,其特征在于,所述通过所
述词向量提取工具根据所述原始日志模板样本标准长度对所述原始日志模板样本长度进行处理,得到处理后的原始日志模板样本长度的步骤,包括:在所述原始日志模板样本长度小于所述原始日志模板样本标准长度的情况下,根据所述原始日志模板样本标准长度与所述原始日志模板样本长度的差值,对所述原始日志模板样本长度进行补充,得到所述处理后的原始日志模板样本长度;在所述原始日志模板样本长度大于所述原始日志模板样本标准长度的情况下,根据所述原始日志模板样本长度与所述原始日志模板样本标准长度的差值,对所述原始日志模板样本长度进行删除,得到所述处理后的原始日志模板样本长度;在所述原始日志模板样本长度等于所述原始日志模板样本标准长度的情况下,直接将所述原始日志模板样本长度作为所述处理后的原始日志模板样本长度。8.根据权利要求2所述的基于词性分析的日志异常检测方法,其特征在于,所述根据所述合成词向量样本和初始日志异常检测模型得到分类结果样本并根据所述分类结果样本计算损失函数的步骤,包括:将所述合成词向量样本输入所述初始日志异常检测模型,输出多个具有概率的分类结果样本;根据所述多个具有概率的分类结果样本和所述原始日志样本对应的真实分类计算所述损失函数。9.根据权利要求8所述的基于词性分析的日志异常检测方法,其特征在于,所述根据所述多个具有概率的分类结果样本和所述原始日志样本对应的真实分类计算所述损失函数的步骤,包括:根据预测分类样本和所述原始日志样本对应的真实分类计算交叉熵,将所述交叉熵作为所述损失函数,其中,所述预测分类样本为所述多个具有概率的分类结果样本中概率最大的分类结果...

【专利技术属性】
技术研发人员:李泽州张静张宪波
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1