当前位置: 首页 > 专利查询>中山大学专利>正文

一种日志解析方法、系统及电子设备技术方案

技术编号:26377584 阅读:29 留言:0更新日期:2020-11-19 23:46
本发明专利技术提供了一种日志解析方法、系统及电子设备,其中,方法包括:对获取的日志文件进行预处理,得到每条日志的文本消息对应的记号集合;对所述记号集合进行词典过滤得到对应的单词集合;根据所述单词集合对所述日志进行聚类得到对应的日志集合;根据所述记号集合计算每个所述日志集合对应的最长公共子序列,根据所述最长公共子序列确定所述日志集合对应的日志模板;根据前缀树对所述日志模板进行聚类,得到所述日志对应的日志模板。本发明专利技术提供的日志解析方法、系统及电子设备,基于词典过滤和前缀树对日志进行分析得到相应的日志模板,在不同数据集中表现稳定,提高了日志分析的可靠性及准确度,有利于对系统运行问题进行进一步分析。

【技术实现步骤摘要】
一种日志解析方法、系统及电子设备
本专利技术涉及日志分析
,尤其是涉及一种日志解析方法、系统及电子设备。
技术介绍
日志文件是分析软件运行时行为的重要数据源。在软件源码,日志打印语句通常类似于:logging.info(“node%dterminatedbyevent%s”,node_id,event);,对应的运行时日志文本通常类似于:2020-04-2317:01:11,778INFOnode1terminatedbyeventSHUTDOWN。其中,“node%dterminatedbyevent%s”为日志的静态文本部分,又称为日志模板;而1和EVENT为日志的变量部分,每次打印日志都可能不同。这种将原始日志转换为静态文本和变量的过程称为日志文本解析。日志文本解析通常是日志分析的必要条件,日志文本解析可以将日志转化为日志模式和参数,日志模式可以看成系统运行中的事件,而日志变量可以看成系统运行时的状态。日志分析可以基于这些事件和状态来分析系统的运行问题,而不用基于非结构化的日志文本,从而大大提高了日志分析的效率和准确度。在此情况下,本文档来自技高网...

【技术保护点】
1.一种日志解析方法,其特征在于,包括:/n对获取的日志文件进行预处理,得到每条日志的文本消息对应的记号集合;/n对所述记号集合进行词典过滤得到对应的单词集合;/n根据所述单词集合对所述日志进行聚类得到对应的日志集合;/n根据所述记号集合计算每个所述日志集合对应的最长公共子序列,根据所述最长公共子序列确定所述日志集合对应的日志模板;/n根据前缀树对所述日志模板进行聚类,得到所述日志对应的日志模板。/n

【技术特征摘要】
1.一种日志解析方法,其特征在于,包括:
对获取的日志文件进行预处理,得到每条日志的文本消息对应的记号集合;
对所述记号集合进行词典过滤得到对应的单词集合;
根据所述单词集合对所述日志进行聚类得到对应的日志集合;
根据所述记号集合计算每个所述日志集合对应的最长公共子序列,根据所述最长公共子序列确定所述日志集合对应的日志模板;
根据前缀树对所述日志模板进行聚类,得到所述日志对应的日志模板。


2.根据权利要求1所述的日志解析方法,其特征在于,得到所述日志对应的日志模板之后还包括:根据所述日志模板输出模板文件和日志信息文件。


3.根据权利要求2所述的日志解析方法,其特征在于,对获取的日志文件进行预处理,得到每条日志的文本消息对应的记号集合具体包括:输入日志文件,根据预定义的正则表达式获取每条日志的文本消息和元消息,根据特定的分隔符对所述文本消息进行划分得到对应的记号集合。


4.根据权利要求1或3所述的日志解析方法,其特征在于,对所述记号集合进行词典过滤得到对应的单词集合之前还包括:对所述记号集合中的复合词记号进行分词操作。


5.根据权利要求4所述的日志解析方法,其特征在于,根据所述最长公共子序列确定所述日志集合对应的日志模板具体包括:将所述最长公共子序列作为日志模板的静态部分,将日志集合中不属于所述最长公共子序列的部分作为变量部分,得到所述日志集合对应的日志模板。


6.根据权利要求5所述的日志解析方法,其特征...

【专利技术属性】
技术研发人员:陈鹏飞敬林晓李晓芸郑子彬
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1