【技术实现步骤摘要】
一种日志解析方法、系统及电子设备
本专利技术涉及日志分析
,尤其是涉及一种日志解析方法、系统及电子设备。
技术介绍
日志文件是分析软件运行时行为的重要数据源。在软件源码,日志打印语句通常类似于:logging.info(“node%dterminatedbyevent%s”,node_id,event);,对应的运行时日志文本通常类似于:2020-04-2317:01:11,778INFOnode1terminatedbyeventSHUTDOWN。其中,“node%dterminatedbyevent%s”为日志的静态文本部分,又称为日志模板;而1和EVENT为日志的变量部分,每次打印日志都可能不同。这种将原始日志转换为静态文本和变量的过程称为日志文本解析。日志文本解析通常是日志分析的必要条件,日志文本解析可以将日志转化为日志模式和参数,日志模式可以看成系统运行中的事件,而日志变量可以看成系统运行时的状态。日志分析可以基于这些事件和状态来分析系统的运行问题,而不用基于非结构化的日志文本,从而大大提高了日志分析的效率和 ...
【技术保护点】
1.一种日志解析方法,其特征在于,包括:/n对获取的日志文件进行预处理,得到每条日志的文本消息对应的记号集合;/n对所述记号集合进行词典过滤得到对应的单词集合;/n根据所述单词集合对所述日志进行聚类得到对应的日志集合;/n根据所述记号集合计算每个所述日志集合对应的最长公共子序列,根据所述最长公共子序列确定所述日志集合对应的日志模板;/n根据前缀树对所述日志模板进行聚类,得到所述日志对应的日志模板。/n
【技术特征摘要】
1.一种日志解析方法,其特征在于,包括:
对获取的日志文件进行预处理,得到每条日志的文本消息对应的记号集合;
对所述记号集合进行词典过滤得到对应的单词集合;
根据所述单词集合对所述日志进行聚类得到对应的日志集合;
根据所述记号集合计算每个所述日志集合对应的最长公共子序列,根据所述最长公共子序列确定所述日志集合对应的日志模板;
根据前缀树对所述日志模板进行聚类,得到所述日志对应的日志模板。
2.根据权利要求1所述的日志解析方法,其特征在于,得到所述日志对应的日志模板之后还包括:根据所述日志模板输出模板文件和日志信息文件。
3.根据权利要求2所述的日志解析方法,其特征在于,对获取的日志文件进行预处理,得到每条日志的文本消息对应的记号集合具体包括:输入日志文件,根据预定义的正则表达式获取每条日志的文本消息和元消息,根据特定的分隔符对所述文本消息进行划分得到对应的记号集合。
4.根据权利要求1或3所述的日志解析方法,其特征在于,对所述记号集合进行词典过滤得到对应的单词集合之前还包括:对所述记号集合中的复合词记号进行分词操作。
5.根据权利要求4所述的日志解析方法,其特征在于,根据所述最长公共子序列确定所述日志集合对应的日志模板具体包括:将所述最长公共子序列作为日志模板的静态部分,将日志集合中不属于所述最长公共子序列的部分作为变量部分,得到所述日志集合对应的日志模板。
6.根据权利要求5所述的日志解析方法,其特征...
【专利技术属性】
技术研发人员:陈鹏飞,敬林晓,李晓芸,郑子彬,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。