一种日志模板确定方法、设备及计算机可读存储介质技术

技术编号:38095426 阅读:8 留言:0更新日期:2023-07-06 09:09
本申请实施例公开了一种日志模板确定方法,该方法包括:获取待处理日志,并对待处理日志中的词序列进行分组得到多组词序列;确定每组词序列中词的目标频次和每组词序列中每一词序列的位置信息;基于目标频次、位置信息和每组词序列,确定每组词序列中词之间的关联性;其中,目标频次表征每组词序列中词所对应的词序列的数量;基于关联性对每组词序列中的词进行分析,得到每组词序列对应的词集;针对每组词序列,从词序列对应的词集中确定目标词集,并基于目标词集和词序列确定目标模板。本申请实施例还公开了一种日志模板确定设备及计算机可读存储介质。计算机可读存储介质。计算机可读存储介质。

【技术实现步骤摘要】
一种日志模板确定方法、设备及计算机可读存储介质


[0001]本申请涉及日志模板确定领域的日志模板确定技术,尤其涉及一种日志模板确定方法、设备及计算机可读存储介质。

技术介绍

[0002]网络日志能够记录网络设备的运行和状态信息,通常可以对网络日志进行提取得到目标模板,以便根据目标模板对网络设备进行故障诊断;相关技术中,提取目标模板时具体是根据网络日志中每组词序列对应的多个字符串之间的相似度,来对每组词序列中的词序列进行聚类,并确定每一类词序列对应的目标模板;但是,基于字符串之间的相似度,对每组词序列中的词序列进行聚类时,聚类不准确,使得确定的目标模板的准确率低。

技术实现思路

[0003]为解决上述技术问题,本申请实施例期望提供一种日志模板确定方法、设备及计算机可读存储介质,解决了确定的目标模板不准确的问题,提高了确定的目标模板的准确率。
[0004]本申请的技术方案是这样实现的:
[0005]一种日志模板确定方法,所述方法包括:
[0006]获取待处理日志,并对所述待处理日志中的词序列进行分组得到多组词序列;
[0007]确定每组词序列中词的目标频次和所述每组词序列中每一词序列的位置信息;
[0008]基于所述目标频次、所述位置信息和所述每组词序列,确定每组词序列中词之间的关联性;其中,所述目标频次表征每组词序列中词所对应的词序列的数量;
[0009]基于所述关联性对所述每组词序列中的词进行分析,得到所述每组词序列对应的词集;
[0010]针对每组词序列,从词序列对应的所述词集中确定目标词集,并基于所述目标词集和词序列确定目标模板。
[0011]上述方案中,所述获取待处理日志,包括:
[0012]获取待处理设备运行时产生的初始日志;
[0013]对所述初始日志中第一类型的字符进行过滤,得到过滤后的日志;
[0014]基于所述过滤后的日志中第二类型的字符,对所述过滤后的日志中每个日志进行词提取,得到所述过滤后的日志中每个日志对应的词序列;其中,所述第一类型的字符和所述第二类型的字符不同;所述待处理日志包括多个词序列。
[0015]上述方案中,所述对所述待处理日志中的词序列进行分组得到所述多组词序列,包括:
[0016]基于每个词序列的目标位置处的字符对所述多个词序列进行分类,得到多类词序列;
[0017]针对每一类词序列,基于每个词序列的长度信息对所述每一类词序列进行分组,
得到所述多组词序列;其中,所述长度信息用于表征词序列中词的数量。
[0018]上述方案中,所述确定每组词序列中的词的目标频次,包括:
[0019]对所述每组词序列中的词进行去重处理,得到第一词;
[0020]获取每个第一词对应的词序列的数量,得到所述每组词序列中词的目标频次。
[0021]上述方案中,所述基于所述目标频次、所述位置信息和每组组词序列,确定每组词序列中词之间的关联性,包括:
[0022]对所述每组词序列进行分析,确定所述每组词序列中词序列的数量;
[0023]基于每组词序列中词的目标频次和目标频次阈值,对所述多个第一词进行筛选得到第二词;
[0024]确定所述第二词的数量,并基于所述词序列的数量和所述第二词的数量,确定初始矩阵;
[0025]基于所述初始矩阵、所述位置信息、所述每组词序列和所述第二词的目标频次,确定所述每组词序列的关联矩阵;其中,所述关联矩阵表征所述每组词序列中词之间的关联性。
[0026]上述方案中,所述基于所述初始矩阵、所述位置信息、所述每组词序列和所述第二词的目标频次,确定所述每组词序列的关联矩阵,包括:
[0027]基于位置信息对所述每组词序列中的多个词序列进行排序,得到排序后的词序列;
[0028]基于所述第二词的目标频次对多个第二词进行排序,得到排序后的第二词;
[0029]按照所述排序后的词序列的排序和所述排序后的第二词的排序,在所述排序后的词序列中的词和第二词匹配的情况下,设置所述初始矩阵中与所述排序后对应的元素的值为第一值;
[0030]按照所述排序后的词序列的排序和所述排序后的第二词的排序,在所述排序后的词序列中的词和第二词不匹配的情况下,设置所述初始矩阵中与排序对应的元素的值为第二值,得到所述关联矩阵。
[0031]上述方案中,所述基于所述关联性对所述每组词序列中的词进行分析,得到所述每组词序列对应的词集,包括:
[0032]确定所述关联矩阵中的第i列中元素的值为所述目标值所对应的第一目标行;其中,i为小于n的正整数;n为所述关联矩阵的列数,n为正整数;
[0033]从所述关联矩阵的第一目标行的元素中,获取第i+1列至第n列中每一列的元素的值为所述目标值的元素的数量,得到第二数量;其中,n等于所述关联矩阵的列数;
[0034]确定所述第二数量中满足目标数量的元素所在的目标列,并基于所述第i列元素对应的第二词和所述目标列的元素对应的第二词,确定第i列元素对应的词集;
[0035]基于所述第i列元素对应的词集以及确定的第i+1列元素至第n列元素中每一列元素对应的词集,得到所述每组词序列对应的词集。
[0036]上述方案中,所述针对每组词序列,从词序列对应的所述词集中确定目标词集,并基于所述目标词集和词序列确定目标模板,包括:
[0037]针对每组词序列,基于排序后的第二词确定多个词集之间的排序;
[0038]基于所述词集之间的排序从多个词集中确定目标词集;
[0039]将所述目标词集和每一词序列进行匹配得到匹配结果,基于所述匹配结果和所述每一词序列确定初始模板;
[0040]确定所述初始模板之间的相似度,并基于所述相似度对所述初始模板进行合并,确定所述目标模板。
[0041]上述方案中,基于所述匹配结果和所述每一词序列确定初始模板,包括:
[0042]在所述匹配结果表征所述目标词集和词序列匹配的情况下,确定与所述目标词集匹配的词序列为所述初始模板;
[0043]在所述匹配结果表征所述目标词集和词序列不匹配的情况下,对词序列进行修改得到所述初始模板;
[0044]在所述匹配结果表征存在第一词序列与所述目标词集不匹配,且存在第二词序列与所述目标词集匹配的情况下,对所述第一词序列进行修改得到修改后的第一词序列,并基于所述修改后的第一词序列和所述第二词序列得到所述初始模板。
[0045]一种日志模板确定设备,所述设备包括:处理器、存储器和通信总线;
[0046]所述通信总线用于实现所述处理器和所述存储器之间的通信连接;
[0047]所述处理器用于执行所述存储器中存储的日志模板确定程序,以实现上述日志模板确定方法的步骤。
[0048]一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述日志本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志模板确定方法,其特征在于,所述方法包括:获取待处理日志,并对所述待处理日志中的词序列进行分组得到多组词序列;确定每组词序列中词的目标频次和所述每组词序列中每一词序列的位置信息;基于所述目标频次、所述位置信息和所述每组词序列,确定每组词序列中词之间的关联性;其中,所述目标频次表征每组词序列中词所对应的词序列的数量;基于所述关联性对所述每组词序列中的词进行分析,得到所述每组词序列对应的词集;针对每组词序列,从词序列对应的所述词集中确定目标词集,并基于所述目标词集和词序列确定目标模板。2.根据权利要求1所述的方法,其特征在于,所述获取待处理日志,包括:获取待处理设备运行时产生的初始日志;对所述初始日志中第一类型的字符进行过滤,得到过滤后的日志;基于所述过滤后的日志中第二类型的字符,对所述过滤后的日志中每个日志进行词提取,得到所述过滤后的日志中每个日志对应的词序列;其中,所述第一类型的字符和所述第二类型的字符不同;所述待处理日志包括多个词序列。3.根据权利要求2所述的方法,其特征在于,所述对所述待处理日志中的词序列进行分组得到所述多组词序列,包括:基于每个词序列的目标位置处的字符对所述多个词序列进行分类,得到多类词序列;针对每一类词序列,基于每个词序列的长度信息对所述每一类词序列进行分组,得到所述多组词序列;其中,所述长度信息用于表征词序列中词的数量。4.根据权利要求1所述的方法,其特征在于,所述确定每组词序列中的词的目标频次,包括:对所述每组词序列中的词进行去重处理,得到第一词;获取每个第一词对应的词序列的数量,得到所述每组词序列中词的目标频次。5.根据权利要求4所述的方法,其特征在于,所述基于所述目标频次、所述位置信息和每组组词序列,确定每组词序列中词之间的关联性,包括:对所述每组词序列进行分析,确定所述每组词序列中词序列的数量;基于每组词序列中词的目标频次和目标频次阈值,对所述多个第一词进行筛选得到第二词;确定所述第二词的数量,并基于所述词序列的数量和所述第二词的数量,确定初始矩阵;基于所述初始矩阵、所述位置信息、所述每组词序列和所述第二词的目标频次,确定所述每组词序列的关联矩阵;其中,所述关联矩阵表征所述每组词序列中词之间的关联性。6.根据权利要求5所述的方法,其特征在于,所述基于所述初始矩阵、所述位置信息、所述每组词序列和所述第二词的目标频次,确定所述每组词序列的关联矩阵,包括:基于位置信息对所述每组词序列中的多个词序列进行排序,得到排序后的词序列;基于所述第二词的目标频次对多个第二词进行排序,得到排序后的第二词;按照所述排序后的词序列的排序和所述排序后的第二词的排序,在所述排序后的词序列中的词和第二词匹配的情况下,设置所...

【专利技术属性】
技术研发人员:徐敬文余立杨晓高飞张晓儒左一平
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1