【技术实现步骤摘要】
计算机系统日志模板的自动生成和在线更新方法与系统
本专利技术涉及计算机系统日志模板挖掘
,尤其涉及一种基于分组聚类的计算机系统日志模板自动生成和在线更新的方法与系统。
技术介绍
系统日志是计算机系统运行维护的重要资料,日志分析是异常检测、故障诊断等运维工作不可或缺的重要手段。近年来,随着云计算、分布式技术架构的广泛应用,各企业的IT规模迅速扩大,产生了海量的系统日志。传统的采用人工方式对日志进行分析的做法变得越来越困难。即便是借助基于规则的自动化辅助分析工具,面对海量、复杂、异构、多变的系统日志数据,日志分析依然是一项巨大挑战。针对上述挑战,近年来,学术界和工业界开始尝试将机器学习等人工智能方法引入日志分析工作,辅助异常检测、根因分析以及故障预测等运维工作。日志模板挖掘是上述方法的一项基础技术。通过日志模板挖掘,可以实现对海量日志数据的抽象和简化,从而有利于提取日志数据特征,构建机器学习等算法模型。已有的一些日志模板挖掘方法与系统,大多都是基于一定规模日志数据集进行离线模板挖掘,由于数据规模的限制,往往 ...
【技术保护点】
1.一种计算机系统日志模板的自动生成和在线更新方法,包括离线挖掘阶段和在线更新阶段;离线挖掘阶段采用分组聚类方法,从给定日志数据集合中挖掘得到日志模板列表;在线更新阶段基于新采集的日志进行逐条分析,实现对现有日志模板自动更新;包括如下步骤:/n1)对计算机日志数据集LC进行预处理,生成待分析日志集LC’;/n2)进行离线挖掘,包括如下步骤:/n21)日志分组;包括:/n211)首先针对待分析日志集LC’,对每行日志进行分词,得到该行日志的TOKEN列表;统计该行的日志长度,/n212)然后根据各行日志的不同长度,将日志集划分成n个不同的分组LC
【技术特征摘要】
1.一种计算机系统日志模板的自动生成和在线更新方法,包括离线挖掘阶段和在线更新阶段;离线挖掘阶段采用分组聚类方法,从给定日志数据集合中挖掘得到日志模板列表;在线更新阶段基于新采集的日志进行逐条分析,实现对现有日志模板自动更新;包括如下步骤:
1)对计算机日志数据集LC进行预处理,生成待分析日志集LC’;
2)进行离线挖掘,包括如下步骤:
21)日志分组;包括:
211)首先针对待分析日志集LC’,对每行日志进行分词,得到该行日志的TOKEN列表;统计该行的日志长度,
212)然后根据各行日志的不同长度,将日志集划分成n个不同的分组LCS1,LCS2,…LCSn;
22)子组聚类;包括:
221)对日志集分组LCS1,LCS2,…LCSn的每个分组中的日志行,计算两行日志的严格相似度S1;计算方法具体是:
按照从前向后的顺序,比对两行日志每个位置的TOKEN;
如果两行日志的TOKEN字符及顺序完全相同,则该TOKEN位置的相似度Si=1;
如果不完全相同,则该TOKEN位置的相似度Si=0;
两行日志的严格相似度S1为两行日志各TOKEN的相似度Si的和再除以日志长度;
222)基于严格相似度对全部日志集合进行聚类分析,进行拆分,生成多个日志集合子组;具体方法是:计算S1的最大值MAX(S1),并将具有MAX(S1)的全部日志行组成为一个子组;
进行多轮迭代,直到日志集分组中的全部原始日志分析处理完,即完成子组聚类;
23)模板合并;执行如下操作:
231)对于步骤22)生成的每个日志集合子组,提取对应的日志模板;
232)对于同一分组内各子组生成的日志模板,计算近似相似度S2,并基于S2进行模板合并;逐项选择日志模板,计算其与其他日志模板的近似相似度,具体方法是:
按照从前向后的顺序,比对每个位置的TOKEN,如果TOKEN的字符及顺序完全相同,则该TOKEN位置的相似度Si=1;如果不完全相同,相似度Si为相同字符数占总字符数的比率,相似度Si<1;
两项日志模板的近似相似度S2即为各TOKEN相似度Si的和除以日志长度;
如果两项日志模板的近似相似度S2大于设定阈值,则将该两项日志模板合并为一项,即:相似度Si=1的TOKEN保留;相似度Si<1的TOKEN位置用自定义的变量替代符替代;
重复上述近似相似度计算与合并操作,直至分组内原各项日志模板都处理完毕;
对每个日志分组中的日志子组模板进行合并操作,即获得每个日志分组的日志模板集合;
每个日志分组中的日志模板长度均相同;不同日志分组的日志模板长度并不相同;
24)进行跨组整合,对满足跨组整合条件的不同日志分组的不同日志模板进行合并;
具体方法是:针对不同日志分组的日志模板进行两两比较分析:
基于变量替代符,按从前向后的顺序,将日志模板中的常量TOKEN切分成多个不同的最大常量序列LCS;如果两项日志模板且分出的多个...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。