当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于语义增强的多源异构日志数据解析方法技术

技术编号:37993054 阅读:9 留言:0更新日期:2023-06-30 10:07
本发明专利技术公开了一种基于语义增强的多源异构日志数据解析方法,首先采用正则匹配的方式来进行异构日志数据的预处理,包括,预设正则表达式来匹配常见的变量,使用语义一一对应的单词来替换这些变量,可以统一保留日志语句中重要的数据部分;然后定义模板树结构并构建模板树,通过固定模板树的高度节省模板树构建和查找的时间,并设定模板树每一层节点都携带相应的信息来减少模版匹配所需的时间;最后进行模板拆分与合并,从而进一步提高日志解析结果的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种基于语义增强的多源异构日志数据解析方法


[0001]本专利技术属于数据解析
,具体涉及一种基于语义增强的多源异构日志数据解析方法。

技术介绍

[0002]多源异构日志数据具有非结构化、种类繁杂等特点,它详细记录了多源异构系统的运行信息,可以帮助运维人员更好地监测系统状态,从而检测系统异常。随着计算机系统的改革与升级,依赖传统匹配规则和人为检测的方式是不适用的。因此,多源异构日志数据解析是实现多源异构日志异常检测必不可少的环节,并且日志解析的准确度将直接影响异常检测的准确率。因此需要一种多源异构日志数据解析方法,将非结构化的多源异构日志数据转换为结构化的形式,为异常检测后续的步骤做好数据准备。
[0003]多源异构日志数据解析是将日志数据从非结构化到结构化形式上发生转变,同时获取日志模板信息的过程。现有的多源异构日志数据解析方法主要是通过相似性度量的方式来获取日志模版,但是基于相似性合并模版的过程往往会忽略日志中的变量信息,从而降低了日志解析的准确性。

技术实现思路

[0004]本专利技术的目的是为解决现有技术的不足,提供一种基于语义增强的多源异构日志数据解析方法,该方法不仅提取多源异构日志结构中的变量数据,而且根据变量数据的语义信息进行拆分和合并模板,使得最终获取的日志模板信息更加准确。
[0005]本专利技术是通过以下技术方案实现的:
[0006]一种基于语义增强的多源异构日志数据解析方法,包括以下步骤:
[0007]步骤1,采用正则匹配的方式来进行异构日志数据的预处理,包括,预设正则表达式来匹配常见的变量,使用语义一一对应的单词来替换这些变量;
[0008]步骤2,定义模板树结构并构建模板树;
[0009]步骤2.1,定义模板树结构,模板树的第一层仅保存一个无数据信息的根结点;第二层为长度节点,节点保存的数据为正则匹配后的日志语句中的单词数量;第三层为前缀节点,节点保存的数据为正则匹配后的日志语句的前缀表达式,前缀表达式由日志语句的前n/2个单词组成,n为日志语句中包含的单词总数;第四层为叶子节点,节点保存的数据为日志簇信息,该日志簇包含m个日志模板;
[0010]步骤2.2,根据步骤2.1定义的模板树结构,构建模板树,包括以下步骤:
[0011]步骤2.21:根据正则匹配后的日志语句长度查找或创建模板树的第二层长度节点;
[0012]步骤2.22:根据正则匹配后的日志语句的前缀表达式查找或创建模板树的第三层前缀节点;
[0013]步骤2.23:根据前三层节点信息判断日志语句是否匹配到日志模板信息,若匹配
成功,该日志语句将新增到日志簇的日志模板集合;若匹配失败,则基于目标日志语句创建含有日志模板信息的日志簇,并添加到叶子节点;
[0014]步骤3,模板拆分与合并;其中,对于模板合并,使用通配符替换的方式对同一个日志簇的日志模板进行合并;对于模板拆分,使用Word2vec来表示日志语句的单词词向量,然后根据皮尔森线性相关系数计算同一个模板内日志语句的相似度,若小于0则对原有模板进行拆分。
[0015]在上述技术方案中,步骤1中,所述的要替换的变量包括:IP变量、数字变量、时间变量。
[0016]在上述技术方案中,步骤1中,还包括:使用正则表达式来定位原始日志数据中的所有特殊字符,使用单个空格替换特殊字符;将多个连续空格缩减为一个,将多个连续相同的替换的单词缩减为一个。
[0017]在上述技术方案中,步骤2.21中,根据目标日志语句单词数量,遍历模板树的第二层节点,若查找成功则说明完成匹配长度节点操作;若查找失败,则需要根据该单词数量新建一个长度节点。
[0018]在上述技术方案中,步骤2.22中,根据目标日志语句的前缀表达式,遍历模板树的第三层节点,根据相似度计算来判断匹配成功与否,若匹配成功则说明查找成功,若匹配失败则需要根据该前缀表达式新建一个前缀节点。
[0019]在上述技术方案中,步骤2中,使用编辑距离来计算前缀节点和日志模板的相似度。
[0020]在上述技术方案中,步骤3中,皮尔森线性相关系数公式如下:
[0021][0022]其中,X
j
表示日志语句中的单词词向量,Y
j
表示待匹配语句的单词词向量,计算结果的范围Person∈[

1,1],若小于0说明负相关,则需要对模板进行拆分,若大于则说明具有正相关性。
[0023]本专利技术还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被执行时实现上述的方法的步骤。
[0024]本专利技术的优点和有益效果为:
[0025]本专利技术的方法相比较于现有日志解析方法,具有最小化人为干预、解析速度快和解析结果精准等优点。由于多源异构日志数据具有种类繁多和结构各异等特点,传统的方法需要针对每一种日志都设定相应的匹配规则,而本专利技术提出的方法首先通过正则匹配进行初步筛选,可以统一保留日志语句中重要的数据部分,其次通过固定模板树的高度节省模板树构建和查找的时间,然后设定模板树每一层节点都携带相应的信息来减少模版匹配所需的时间,最后基于语义向量进行日志模板的合并和拆分,从而进一步提高日志解析结果的准确性。
[0026]本专利技术的有益效果主要体现在如下:一方面,降低系统架构升级以及故障定位需要花费的时间和人力成本,同时提高日志分析与处理等流程的时间效率和解析精度;另一方面,为机器学习领域的智能运维系统提供有价值的数据集,进而推动自动化分析与检测
等工程应用的实现。
附图说明
[0027]图1是本专利技术的基于语义增强的多源异构日志数据解析方法的步骤流程图。
[0028]图2是多源异构日志数据Trace1和Trace2正则匹配流程后的处理结果数据图。
[0029]图3是本专利技术的模板树的结构示意图。
[0030]图4是构建模板树的流程图。
[0031]图5是模板合并流程图。
[0032]图6是模板拆分的流程图。
[0033]图7是模板合并与拆分示例。
[0034]对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据以上附图获得其他的相关附图。
具体实施方式
[0035]为了使本
的人员更好地理解本专利技术方案,下面结合具体实施例进一步说明本专利技术的技术方案。
[0036]一种基于语义增强的多源异构日志数据解析方法,参见附图1,包括以下步骤:
[0037]步骤1,正则匹配
[0038]原始的日志数据通常由常量部分和变量部分组成,常量部分一般是采用的固定结构,变量部分则为各种各样的参数,如数字、时间、
“‑”
、“>”等变量或特殊符号。日志解析思路是去掉日志数据中的变量部分,只保留常量部分,然后对其进行整合编码等操作。其中变量部分通常是需要借助实际应用场景的专家知识来进行相应的处理,从而有效地提高挖掘日志模板的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义增强的多源异构日志数据解析方法,其特征在于,包括以下步骤:步骤1,采用正则匹配的方式来进行异构日志数据的预处理,包括,预设正则表达式来匹配常见的变量,使用语义一一对应的单词来替换这些变量;步骤2,定义模板树结构并构建模板树;步骤2.1,定义模板树结构,模板树的第一层仅保存一个无数据信息的根结点;第二层为长度节点,节点保存的数据为正则匹配后的日志语句中的单词数量;第三层为前缀节点,节点保存的数据为正则匹配后的日志语句的前缀表达式,前缀表达式由日志语句的前n/2个单词组成,n为日志语句中包含的单词总数;第四层为叶子节点,节点保存的数据为日志簇信息,该日志簇包含m个日志模板;步骤2.2,根据步骤2.1定义的模板树结构,构建模板树,包括以下步骤:步骤2.21:根据正则匹配后的日志语句长度查找或创建模板树的第二层长度节点;步骤2.22:根据正则匹配后的日志语句的前缀表达式查找或创建模板树的第三层前缀节点;步骤2.23:根据前三层节点信息判断日志语句是否匹配到日志模板信息,若匹配成功,该日志语句将新增到日志簇的日志模板集合;若匹配失败,则基于目标日志语句创建含有日志模板信息的日志簇,并添加到叶子节点;步骤3,模板拆分与合并;其中,对于模板合并,使用通配符替换的方式对同一个日志簇的日志模板进行合并;对于模板拆分,使用Word2vec来表示日志语句的单词词向量,然后根据皮尔森线性相关系数计算同一个模板内日志语句的相似度,若小于0则对原有模板进行拆分。2.根据权利要求1所述的基于语义增强的多源异构日志数据解析方法,其特征在于:步骤1中,所述的要替换的变量包括:IP变量、数字变...

【专利技术属性】
技术研发人员:周娜刘晓光王刚
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1