System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种日志识别方法、系统、终端设备及存储介质技术方案_技高网

一种日志识别方法、系统、终端设备及存储介质技术方案

技术编号:40196518 阅读:6 留言:0更新日期:2024-01-26 23:59
本发明专利技术公开了一种日志识别方法、系统、终端设备及存储介质,所述方法包括:从待识别日志中抽取消息体,去除所述消息体中的变量信息,得到日志主干内容;将所述日志主干内容输入到分词模型中进行分词处理,得到所述待识别日志的分词词典;将所述待识别日志的分词词典输入到分类模型中进行分类处理,得到所述待识别日志的关键词;将所述待识别日志的关键词与预先配置的关键日志表中的关键字段进行匹配,得到匹配的日志内容,根据所述关键日志表中的关键字段及其逻辑表达式和标签的对应关系,为所述匹配的日志内容设置标签,输出所述待识别日志的识别结果。采用本发明专利技术的技术方案可以提高日志筛选的精确度和日志处理的效率。

【技术实现步骤摘要】

本专利技术涉及日志处理、日志异常检测、机器学习等,尤其涉及一种日志识别方法。


技术介绍

1、随着互联网技术的快速发展,通信系统使用较为庞大的计算机集群,每小时产生数以亿计的日志数据,不同厂商的日志格式也不尽相同,如何快速阅读海量的日志数据成为了一个急需解决的问题。目前常见的日志精简方法是通过设置日志关键字,然后使用正则表达式进行日志筛选,或者通过分类的方法挑选关注的日志记录,从而降低日志的数量,达到可读的目的。

2、但是现有的分类方法筛选日志,并未减少实际的日志数量,而是把日志切成小块,缩小阅读的范围,而日志的数量多少,与分类的深度相关,这种方法不能很精确地提取特定特征的日志。虽然现有的方法通过设置关键字,再使用正则表达式筛选日志,可以解决日志过滤精细度的问题,但是过滤的效率低,而且如果需要为一条日志添加多个标签的时候,其逻辑表达式会非常复杂,需要新增标签时,则需要修改底层代码,因此无法应用于实时的日志处理系统。


技术实现思路

1、本专利技术所要解决的技术问题是,提供一种日志识别方法、系统、终端设备及存储介质,能够提高日志筛选的精确度,并快速完成日志的识别,能够应用于实时日志处理系统。

2、为了解决以上技术问题,第一方面,本专利技术提供一种日志识别方法,包括:

3、从待识别日志中抽取消息体,去除所述消息体中的变量信息,得到日志主干内容;

4、将所述日志主干内容输入到分词模型中进行分词处理,得到所述待识别日志的分词词典;

5、将所述待识别日志的分词词典输入到分类模型中进行分类处理,得到所述待识别日志的关键词;

6、当所述待识别日志的关键词与预先配置的关键日志表中的关键字段匹配时,得到匹配的日志内容,根据所述关键日志表中的关键字段的逻辑表达式和标签的对应关系,为所述匹配的日志内容设置标签,输出所述待识别日志的识别结果。

7、优选地,所述消息体中的变量信息至少包括所述待识别的日志产生的时间戳、ip地址信息、实体名称和日志类别中的一种。

8、优选地,所述分词模型通过以下步骤训练获得:

9、基于sentencepiece算法,以word形式进行分词训练,获得训练后的分词模型。

10、优选地,在将所述待识别日志的分词词典输入到分类模型中进行分类处理之前,还包括:

11、将所述待识别日志的分词词典中的单词与预先设置的关键日志表中的关键字段进行比较,得到优化后的待识别日志的分词词典。

12、优选地,所述分类模型通过以下步骤训练获得:

13、构建一个基于transformer的神经网络模型;

14、所述神经网络模型根据计算所述分词词典中单词出现的频率进行分类训练,得到训练后的分类模型;其中,所述单词出现的频率越低,所述单词成为关键词的概率越高。

15、优选地,在所述输出所述待识别日志的识别结果之后,还包括:

16、将所述待识别的日志去重,形成日志主干模板集;

17、使用所述日志主干模板集作为训练样本进行分词训练,得到优化后的分词模型;其中,所述优化后的分词模型用于下一次待识别日志主干内容的分词处理。

18、优选地,所述为所述匹配的日志内容设置标签的数量与所述关键日志表记载的关键字段及其逻辑表达式和标签的对应关系相关,根据所述对应关系,为所述匹配的日志内容一次性设置一个或多个标签。

19、第二方面,本专利技术提供了一种日志识别系统,用于实现如第一方面任意一项所述的日志识别方法,包括:

20、抽取模块,用于从待识别日志中抽取消息体,去除所述消息体中的变量信息,得到日志主干内容;

21、分词模块,用于将所述日志主干内容输入到分词模型中进行分词处理,得到所述待识别日志的分词词典;

22、分类模块,用于将所述待识别日志的分词词典输入到分类模型中进行分类处理,得到所述待识别日志的关键词;

23、识别模块,用于将所述待识别日志的关键词与预先配置的关键日志表中的关键字段进行匹配,得到匹配的日志内容,根据所述关键日志表中的关键字段及其逻辑表达式和标签的对应关系,为所述匹配的日志内容设置标签,输出所述待识别日志的识别结果。

24、第三方面,本专利技术还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述中任意一项所述的日志识别方法。

25、第四方面,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的日志识别方法。

26、相比于现有技术,本专利技术具有如下有益效果:

27、本专利技术提供了一种日志识别方法、系统、终端设备及存储介质,所述方法通过从待识别日志中抽取消息体,去除所述消息体中的变量信息,获得日志主干内容,再将所述日志主干内容输入到分词模型中进行分词处理,获得待识别日志的分词词典,然后将所述待识别日志的分词词典输入到分类模型中进行分类处理,得到待识别日志的关键词,最后将所述待识别日志的关键词与预先配置的关键日志表中的关键字段进行匹配,得到匹配的日志内容,根据所述关键日志表中的关键字段的逻辑表达式和标签的对应关系,为所述匹配的日志内容设置标签,输出所述待识别日志的识别结果。本专利技术通过训练基于sentencepiece算法的分词模型进行分词并输出分词词典,提高了日志分词的准确度;通过训练分类模型,对单词进行分类,并支持反馈机制更新训练模型,能够应用于实时日志处理系统;最后根据预先配置得关键日志表中的对应关系,可以一次性为日志设置一个或多个标签信息,从而实现了对日志的快速识别。

本文档来自技高网...

【技术保护点】

1.一种日志识别方法,其特征在于,包括:

2.如权利要求1所述的日志识别方法,其特征在于,所述消息体中的变量信息至少包括所述待识别的日志产生的时间戳、IP地址信息、实体名称和日志类别中的一种。

3.如权利要求1所述的日志识别方法,其特征在于,所述分词模型通过以下步骤训练获得:

4.如权利要求1所述的日志识别方法,其特征在于,在将所述待识别日志的分词词典输入到分类模型中进行分类处理之前,还包括:

5.如权利要求1所述的日志识别方法,其特征在于,所述分类模型通过以下步骤训练获得:

6.如权利要求1所述的日志识别方法,其特征在于,在所述输出所述待识别日志的识别结果之后,还包括:

7.如权利要求1所述的日志识别方法,其特征在于,所述为所述匹配的日志内容设置标签的数量与所述关键日志表记载的关键字段及其逻辑表达式和标签的对应关系相关,根据所述对应关系,为所述匹配的日志内容一次性设置一个或多个标签。

8.一种日志识别系统,其特征在于,用于实现如权利要求1-7任意一项所述的日志识别方法,包括:

9.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的日志识别方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的日志识别方法。

...

【技术特征摘要】

1.一种日志识别方法,其特征在于,包括:

2.如权利要求1所述的日志识别方法,其特征在于,所述消息体中的变量信息至少包括所述待识别的日志产生的时间戳、ip地址信息、实体名称和日志类别中的一种。

3.如权利要求1所述的日志识别方法,其特征在于,所述分词模型通过以下步骤训练获得:

4.如权利要求1所述的日志识别方法,其特征在于,在将所述待识别日志的分词词典输入到分类模型中进行分类处理之前,还包括:

5.如权利要求1所述的日志识别方法,其特征在于,所述分类模型通过以下步骤训练获得:

6.如权利要求1所述的日志识别方法,其特征在于,在所述输出所述待识别日志的识别结果之后,还包括:

7.如权利要求1所述的日志识别方法,其特征在...

【专利技术属性】
技术研发人员:李妙杏傅宇陈澄广黄滔黄桂泉杨盛辉
申请(专利权)人:广东宜通衡睿科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1