【技术实现步骤摘要】
一种日志模板确定方法、设备及计算机可读存储介质
[0001]本申请涉及日志模板确定领域的日志模板确定技术,尤其涉及一种日志模板确定方法、设备及计算机可读存储介质。
技术介绍
[0002]网络日志能够记录网络设备的运行和状态信息,通常可以对网络日志进行提取得到目标模板,以便根据目标模板对网络设备进行故障诊断;相关技术中,提取目标模板时具体是根据网络日志中每组词序列对应的多个字符串之间的相似度,来对每组词序列中的词序列进行聚类,并确定每一类词序列对应的目标模板;但是,基于字符串之间的相似度,对每组词序列中的词序列进行聚类时,聚类不准确,使得确定的目标模板的准确率低。
技术实现思路
[0003]为解决上述技术问题,本申请实施例期望提供一种日志模板确定方法、设备及计算机可读存储介质,解决了确定的目标模板不准确的问题,提高了确定的目标模板的准确率。
[0004]本申请的技术方案是这样实现的:
[0005]一种日志模板确定方法,所述方法包括:
[0006]获取待处理日志,并对所述待处理日志中的词序列进行分组得到多组词序列;
[0007]确定每组词序列中词的目标频次和所述每组词序列中每一词序列的位置信息;
[0008]基于所述目标频次、所述位置信息和所述每组词序列,确定每组词序列中词之间的关联性;其中,所述目标频次表征每组词序列中词所对应的词序列的数量;
[0009]基于所述关联性对所述每组词序列中的词进行分析,得到所述每组词序列对应的词集;
[0010]针对 ...
【技术保护点】
【技术特征摘要】
1.一种日志模板确定方法,其特征在于,所述方法包括:获取待处理日志,并对所述待处理日志中的词序列进行分组得到多组词序列;确定每组词序列中词的目标频次和所述每组词序列中每一词序列的位置信息;基于所述目标频次、所述位置信息和所述每组词序列,确定每组词序列中词之间的关联性;其中,所述目标频次表征每组词序列中词所对应的词序列的数量;基于所述关联性对所述每组词序列中的词进行分析,得到所述每组词序列对应的词集;针对每组词序列,从词序列对应的所述词集中确定目标词集,并基于所述目标词集和词序列确定目标模板。2.根据权利要求1所述的方法,其特征在于,所述获取待处理日志,包括:获取待处理设备运行时产生的初始日志;对所述初始日志中第一类型的字符进行过滤,得到过滤后的日志;基于所述过滤后的日志中第二类型的字符,对所述过滤后的日志中每个日志进行词提取,得到所述过滤后的日志中每个日志对应的词序列;其中,所述第一类型的字符和所述第二类型的字符不同;所述待处理日志包括多个词序列。3.根据权利要求2所述的方法,其特征在于,所述对所述待处理日志中的词序列进行分组得到所述多组词序列,包括:基于每个词序列的目标位置处的字符对所述多个词序列进行分类,得到多类词序列;针对每一类词序列,基于每个词序列的长度信息对所述每一类词序列进行分组,得到所述多组词序列;其中,所述长度信息用于表征词序列中词的数量。4.根据权利要求1所述的方法,其特征在于,所述确定每组词序列中的词的目标频次,包括:对所述每组词序列中的词进行去重处理,得到第一词;获取每个第一词对应的词序列的数量,得到所述每组词序列中词的目标频次。5.根据权利要求4所述的方法,其特征在于,所述基于所述目标频次、所述位置信息和每组组词序列,确定每组词序列中词之间的关联性,包括:对所述每组词序列进行分析,确定所述每组词序列中词序列的数量;基于每组词序列中词的目标频次和目标频次阈值,对所述多个第一词进行筛选得到第二词;确定所述第二词的数量,并基于所述词序列的数量和所述第二词的数量,确定初始矩阵;基于所述初始矩阵、所述位置信息、所述每组词序列和所述第二词的目标频次,确定所述每组词序列的关联矩阵;其中,所述关联矩阵表征所述每组词序列中词之间的关联性。6.根据权利要求5所述的方法,其特征在于,所述基于所述初始矩阵、所述位置信息、所述每组词序列和所述第二词的目标频次,确定所述每组词序列的关联矩阵,包括:基于位置信息对所述每组词序列中的多个词序列进行排序,得到排序后的词序列;基于所述第二词的目标频次对多个第二词进行排序,得到排序后的第二词;按照所述排序后的词序列的排序和所述排序后的第二词的排序,在所述排序后的词序列中的词和第二词匹配的情况下,设置所...
【专利技术属性】
技术研发人员:徐敬文,余立,杨晓,高飞,张晓儒,左一平,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。