设备日志模板提取方法、装置、设备及介质制造方法及图纸

技术编号:39137713 阅读:5 留言:0更新日期:2023-10-23 14:53
本发明专利技术提供设备日志模板提取方法、装置、设备及介质,涉及人工智能领域,其中,所述设备日志模板提取方法,包括:获取设备的原始日志信息和预先设置的至少一个第一掩模,所述第一掩模为与设备日志模板无关的日志变量的模型;根据所述至少一个第一掩模,屏蔽所述原始日志信息中的与所述设备日志模板无关的日志变量,得到第一日志信息;提取所述第一日志信息对应的日志模板。本发明专利技术实施例中,通过设置与设备日志模板无关的日志变量的模型,屏蔽所述原始日志信息中的与所述设备日志模板无关的日志变量,从而能够提高日志模板提取的合理性。从而能够提高日志模板提取的合理性。从而能够提高日志模板提取的合理性。

【技术实现步骤摘要】
设备日志模板提取方法、装置、设备及介质


[0001]本专利技术涉及人工智能领域,尤其涉及设备日志模板提取方法、装置、设备及介质。

技术介绍

[0002]设备,尤其是网络系统中部署的大规模设备(例如,网络云化设备),在运行过程中会产生海量日志,例如,每小时50Gb(约1.2亿~2亿行)设备日志,设备日志记录了各个设备的运行状态。通过收集并分析日志,可以从海量信息中提取有用信息,例如,发现已发生或的或预知潜在的故障。然而由于目前日志规范不统一,日志数据呈现出非结构化,数据量大的特点,依靠人工分析效率低下,为打造快速、自动、高效、准确的日志分析,十分有必要引入AI算法,进行日志的自动解析,以达到降低运维成本,显著提升业务体验的目的。
[0003]由于非结构化的日志数据直接处理非常困难,往往需要通过日志解析得到日志的模板,然后再基于模板进行日志分析,例如,基于日志模板进行日志异常检测与根因定位。因此,日志分析的准确性与日志模版提取得是否准确/合理密切相关。
[0004]现有日志模板直接对原始日志信息进行提取处理,会出现大量业务相似的日志消息对应的却是不同模版,或不同模版之间的区分度较低等问题,即现有日志模板相似模版的聚合性或相异模版的区分度较低,也即是现有的日志模板提取准确率低、合理性差。

技术实现思路

[0005]本专利技术实施例提供设备日志模板提取方法、装置、设备及介质,以解决现有的日志模板提取准确率低的问题。
[0006]为解决上述技术问题,本专利技术是这样实现的:
[0007]第一方面,本专利技术实施例提供一种设备日志模板提取方法,所述方法包括:
[0008]获取设备的原始日志信息和预先设置的至少一个第一掩模,所述第一掩模为与设备日志模板无关的日志变量的模型;
[0009]根据所述至少一个第一掩模,屏蔽所述原始日志信息中的与所述设备日志模板无关的日志变量,得到第一日志信息;
[0010]提取所述第一日志信息对应的日志模板。
[0011]可选的,所述第一掩模包括如下至少一项:
[0012]通用日志变量的模型,网络日志变量的模型。
[0013]可选的,所述第一掩模包括如下至少一项:
[0014]第一子掩模和第二子掩模;
[0015]其中,所述第一子掩模为与所述设备日志模板无关的通用日志变量的模型,所述第二子掩模为与所述设备日志模板无关的网络日志变量的模型。
[0016]可选的,所述通用日志变量包括:日期、http地址、图片名、IP地址、文件名中的至少一项;
[0017]所述网络日志变量包括:实例标识、python执行语句、请求标识中的至少一项。
[0018]可选的,在所述第一掩模包括至少两个的情况下,所述根据所述至少一个第一掩模,屏蔽所述原始日志信息中的无关变量,得到第一日志信息,包括:
[0019]根据至少两个第一掩模的长度和/或复杂度,确定所述至少两个第一掩模的屏蔽顺序;
[0020]根据所述屏蔽顺序屏蔽所述原始日志信息中的无关变量,得到第一日志信息。
[0021]可选的,所述根据至少两个第一掩模的长度和/或复杂度,确定所述至少两个第一掩模的屏蔽顺序,包括如下一项:
[0022]将所述至少两个第一掩模按掩模长度由长到短顺序排列,确定所述至少两个第一掩模的屏蔽顺序;将所述至少两个第一掩模按掩模复杂度由高到低顺序排列,确定所述至少两个第一掩模的屏蔽顺序;
[0023]将所述至少两个第一掩模按掩模长度和复杂度的加权求和结果的大小顺序排列,确定所述至少两个第一掩模的屏蔽顺序。
[0024]可选的,所述根据所述至少一个第一掩模,屏蔽所述原始日志信息中的无关变量,得到第一日志信息之前,所述方法还包括:
[0025]对所述原始日志信息的相似语句进行一致性处理,得到第二日志信息;
[0026]所述根据所述至少一个第一掩模,屏蔽所述原始日志信息中的无关变量,得到第一日志信息,包括:
[0027]根据所述至少一个第一掩模,屏蔽所述第二日志信息中的无关变量,得到第一日志信息。
[0028]可选的,所述对所述原始日志信息的相似语句进行一致性处理,得到第二日志信息,包括:
[0029]在对所述原始日志信息进行语义分析,得到语义相同的第一语句和第二语句的情况下,将第一语句替换为第二语句;
[0030]将替换后的原始日志信息作为第二日志信息。
[0031]可选的,所述方法,还包括:
[0032]利用所述日志模板和所述日志变量,得到结构化日志;
[0033]对所述结构化日志进行特征提取,得到日志特征向量;
[0034]根据所述日志特征向量,执行所述原始日志信息的异常检测和根因定位。
[0035]第二方面,本专利技术实施例提供一种设备日志模板提取装置,包括:
[0036]获取模块,用于获取设备的原始日志信息和预先设置的至少一个第一掩模,所述第一掩模为与设备日志模板无关的日志变量的模型;
[0037]屏蔽模块,用于根据所述至少一个第一掩模,屏蔽所述原始日志信息中的与所述设备日志模板无关的日志变量,得到第一日志信息;
[0038]提取模块,用于提取所述第一日志信息对应的日志模板。
[0039]可选的,所述第一掩模包括如下至少一项:
[0040]通用日志变量的模型,网络日志变量的模型。
[0041]可选的,所述第一掩模包括如下至少一项:
[0042]第一子掩模和第二子掩模;
[0043]其中,所述第一子掩模为与所述设备日志模板无关的通用日志变量的模型,所述
第二子掩模为与所述设备日志模板无关的网络日志变量的模型。
[0044]可选的,所述通用日志变量包括:日期、http地址、图片名、IP地址、文件名中的至少一项;
[0045]所述网络日志变量包括:实例标识、python执行语句、请求标识中的至少一项。
[0046]可选的,在所述第一掩模包括至少两个的情况下,所述屏蔽模块,包括:
[0047]顺序确定模块,用于根据至少两个第一掩模的长度和/或复杂度,确定所述至少两个第一掩模的屏蔽顺序;
[0048]第一屏蔽子模块,用于根据所述屏蔽顺序屏蔽所述原始日志信息中的无关变量,得到第一日志信息。
[0049]可选的,所述顺序确定模块,包括如下一项:
[0050]第一顺序确定子模块,用于将所述至少两个第一掩模按掩模长度由长到短顺序排列,确定所述至少两个第一掩模的屏蔽顺序;
[0051]第二顺序确定子模块,用于将所述至少两个第一掩模按掩模复杂度由高到低顺序排列,确定所述至少两个第一掩模的屏蔽顺序;
[0052]第三顺序确定子模块,用于将所述至少两个第一掩模按掩模长度和复杂度的加权求和结果的大小顺序排列,确定所述至少两个第一掩模的屏蔽顺序。
[0053]可选的,所述设备还包括:
[0054]处理模块,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种设备日志模板提取方法,其特征在于,所述方法包括:获取设备的原始日志信息和预先设置的至少一个第一掩模,所述第一掩模为与设备日志模板无关的日志变量的模型;根据所述至少一个第一掩模,屏蔽所述原始日志信息中的与所述设备日志模板无关的日志变量,得到第一日志信息;提取所述第一日志信息对应的日志模板。2.根据权利要求1所述的方法,其特征在于,所述第一掩模包括如下至少一项:通用日志变量的模型,网络日志变量的模型。3.根据权利要求1

2中的任一项所述的方法,其特征在于,在所述第一掩模包括至少两个的情况下,所述根据所述至少一个第一掩模,屏蔽所述原始日志信息中的无关变量,得到第一日志信息,包括:根据至少两个第一掩模的长度和/或复杂度,确定所述至少两个第一掩模的屏蔽顺序;根据所述屏蔽顺序屏蔽所述原始日志信息中的无关变量,得到第一日志信息。4.根据权利要求3所述的方法,其特征在于,所述根据至少两个第一掩模的长度和/或复杂度,确定所述至少两个第一掩模的屏蔽顺序,包括如下一项:将所述至少两个第一掩模按掩模长度由长到短顺序排列,确定所述至少两个第一掩模的屏蔽顺序;将所述至少两个第一掩模按掩模复杂度由高到低顺序排列,确定所述至少两个第一掩模的屏蔽顺序;将所述至少两个第一掩模按掩模长度和复杂度的加权求和结果的大小顺序排列,确定所述至少两个第一掩模的屏蔽顺序。5.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个第一掩模,屏蔽所述原始日志信息中的无关变量,得到第一日志信息之前,所述方法还包括:对所述原始日志信息的相似语句进行一致性处理,得到第二日志信息;所述根据所述至少一个第一掩模,屏蔽所述原始日志信息中的无关变量,得到第一日志信息,包括:根据所述至少一个第一掩模,屏蔽所述第二日志信息中的无...

【专利技术属性】
技术研发人员:曲薇
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1