【技术实现步骤摘要】
一种在线日志解析方法、系统及其电子终端设备
本专利技术涉及日志解析
,具体涉及一种基于字符串聚类和模板生成树的在线日志解析方法、系统及其电子终端设备。
技术介绍
系统日志记录了系统的运行信息,作为系统在线监控和异常检测的重要数据,可帮助管理者调试系统故障及异常分析,进一步保证系统的安全性。通常日志具有海量和非结构化的特点,日志解析可以将大量非结构化的日志转换为结构化的数据,即从日志中提取模板。日志解析作为系统异常检测的第一步,提高了异常检测的效率。通常日志解析方法可分为离线方法和在线方法。离线方法是脱机解析日志的方法,需收集到系统在一个时间段内的日志,并加载到内存中训练解析模型,再利用模型解析日志。由于离线方法是脱机解析日志,不能实时解析日志,系统管理者无法及时发现系统异常行为,另外,离线方法需将日志加载到内存中训练,如果在训练后添加了新的日志类型就必须再次训练解析模型,将会消耗更多时间和人力资源。与离线方法不同的是,在线方法可以实时解析新生成日志,系统管理者能够及时发现并处理系统异常。但是当前在线日志解析方法存在两个缺点:一是现有在线方法在准确性和效率方面都有改进空间,二是这些在线方法都是为特定的日志系统设计的,各个系统的解析参数并不通用,解析效率较低,准确度较差。
技术实现思路
本专利技术的目的在于提供一种在线日志解析方法、系统及其电子终端设备,该方法基于字符串聚类和模板生成树的进行在线解析,将日志按照长度进行分类,再计算日志字符串相似度,基于日志字符串相似度对日志进行二 ...
【技术保护点】
1.一种在线日志解析方法,其特征在于,该方法包含以下步骤:/nS1、对每一条未解析日志进行日志预处理,得到多条不同日志长度的未解析日志序列,将各条未解析日志序列归为对应的第一日志组中,所述第一日志组为具有相同日志长度的日志序列的集合,所述第一日志组包含解析过的日志序列和未解析日志序列;/nS2、获取第一日志组中各日志序列的日志字符串,对所述第一日志组中的第一条未解析日志序列的日志字符串与所述第一日志组中解析过的日志序列的日志字符串分别计算日志字符串相似度,基于日志字符串相似度在线聚类,得到该条未解析日志序列所在的第二日志组;/nS3、将该条未解析日志序列作为查询项,与所述第二日志组的模板生成树中的模板匹配共同的节点,获取该条未解析日志序列的日志模板,后续未解析日志序列依次重复步骤S2和步骤S3操作获取日志模板。/n
【技术特征摘要】
1.一种在线日志解析方法,其特征在于,该方法包含以下步骤:
S1、对每一条未解析日志进行日志预处理,得到多条不同日志长度的未解析日志序列,将各条未解析日志序列归为对应的第一日志组中,所述第一日志组为具有相同日志长度的日志序列的集合,所述第一日志组包含解析过的日志序列和未解析日志序列;
S2、获取第一日志组中各日志序列的日志字符串,对所述第一日志组中的第一条未解析日志序列的日志字符串与所述第一日志组中解析过的日志序列的日志字符串分别计算日志字符串相似度,基于日志字符串相似度在线聚类,得到该条未解析日志序列所在的第二日志组;
S3、将该条未解析日志序列作为查询项,与所述第二日志组的模板生成树中的模板匹配共同的节点,获取该条未解析日志序列的日志模板,后续未解析日志序列依次重复步骤S2和步骤S3操作获取日志模板。
2.如权利要求1所述的在线日志解析方法,其特征在于,步骤S1具体包含:
利用正则表达式识别每一条未解析日志的日志头中与之匹配的变量信息并删除;
利用预先定义的分隔符对每一条未解析日志的日志内容进行划分,得到不同日志长度的未解析日志序列,将各条未解析日志序列按照不同的日志长度归为不同的第一日志组中。
3.如权利要求1所述的在线日志解析方法,其特征在于,所述步骤S2具体包含:
S21、获取第一日志组内各日志序列的日志字符串,将第一日志组内所有解析过的日志序列的日志字符串组成该第一日志组的日志字符串集;
S22、对所述第一日志组中的第一条未解析日志序列的日志字符串与所述日志字符串集中的日志字符串分别计算日志字符串相似度;
S23、基于所述日志字符串相似度在线聚类,得到该条未解析日志序列对应所在的第二日志组,所述第二日志组为各条日志序列的日志字符串相似度达到相似度阈值的日志序列的集合,一个第一日志组里包含若干个第二日志组。
4.如权利要求3所述的在线日志解析方法,其特征在于,所述步骤S21中,
所述日志字符串为日志序列中每个单词的首字母组成的字符串。
5.如权利要求4所述的在线日志解析方法,其特征在于,
当单词的首字符为数字或标识符时,用通配符来表示,当单词的首字符为字母时,用字母本身来表示。
6.如权利要求3所述的在线日志解析方法,其特征在于,所述步骤S22中日志字符串相似度的计算公式为:
其中,sim(Sm1,Sm2)表示日志字符串相似度,Sm1和Sm2分别代表一条日志字符串,len(|Sm1|,|Sm2|)代表两条日志字符串的长度,Sm1(i)代表日志字符串Sm1的第i个字符,Sm2(j)代表日志字符串Sm2的第j个字符,Ⅱf(Sm1(i),Sm2(j))定义如下:
7.如权利要求3所述的在线日志解析方法,其特征在于,所述步骤S23具体为:
设定相似度阈值,若存在日志字符串相似度大于相似度阈值的日志字符串...
【专利技术属性】
技术研发人员:吴金龙,王秀兰,何旭东,张露维,胡钧毅,陈晓璐,谢丽燕,方晓蓉,祝蓓,李静,
申请(专利权)人:国网上海市电力公司,南京航空航天大学,国家电网有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。