【技术实现步骤摘要】
一种基于Apriori算法的日志分析的方法及装置
本申请涉及大数据
,尤其涉及一种基于Apriori算法的日志分析的方法及装置。
技术介绍
大数据系统在运行的过程中每天都会生成大量的日志信息,这些日志信息记录了系统不同时刻的运行状况,充分的分析和挖掘这些日志信息,可以帮助运维人员掌握大数据集群的状态,更好的维护大数据系统的稳定性。因此,为了便于运维人员掌握大数据集群的状态,目前,大数据管理系统主要在开源搜索引擎ELK(ElasticSearch+Logstash+Kibana)架构的基础上,利用关联规则算法Apriori来确定不同日志信息之间的关联关系。通常原生的Apriori算法判断日志信息之间的关联关系,是通过对全部的日志信息进行分析,计算不同日志信息之间的支持度和置信度来判断日志信息之间是否存在关联规则,进而确定日志信息之间的关联关系,由于利用原生的Apriori算法判断日志信息之间的关系,需要对所有的日志文件进行遍历,并且在日志信息关联规则计算的过程中需要对所有满足支持度和置信度的日志信息进行关联计算, ...
【技术保护点】
1.一种基于Apriori算法的日志分析的方法,其特征在于,包括:/n当检测到警告信息时,采集预设时间窗口内的异常日志,其中,所述异常日志是指包括预设异常关键词的日志;/n将所述异常日志进行预处理得到异常日志的集合;/n从所述集合中所包含的频繁项集中确定置信度和支持度都大于预设阈值的子集,并利用所述子集形成关联事件。/n
【技术特征摘要】
1.一种基于Apriori算法的日志分析的方法,其特征在于,包括:
当检测到警告信息时,采集预设时间窗口内的异常日志,其中,所述异常日志是指包括预设异常关键词的日志;
将所述异常日志进行预处理得到异常日志的集合;
从所述集合中所包含的频繁项集中确定置信度和支持度都大于预设阈值的子集,并利用所述子集形成关联事件。
2.如权利要求1所述的方法,其特征在于,所述预设时间窗口以生成所述警告信息的时间点为基准时间,并为可调整长度的时间窗口。
3.如权利要求1或2所述的方法,其特征在于,将所述异常日志进行预处理得到异常日志的集合,包括:
提取所述异常日志中message字段的字符串和生成的时间信息,并将所述字符串进行分词处理得到不同的词组;
若确定所述词组与所述预设异常关键词相同,则所述词组为异常日志关键词,基于生成所述异常日志的时间在所述词组中添加时间戳;
基于所述异常日志关键词生成所述异常日志关键词集合,并基于所述异常日志关键词的集合生成所述异常日志的集合。
4.如权利要求3所述的方法,其特征在于,基于所述异常日志关键词的集合生成所述异常日志的集合,包括:
以当前系统时间为基准,采集N个所述异常日志关键词的集合,其中,所述N为不小于2的正整数;
基于所述N个所述异常日志关键词的集合生成所述异常日志的集合。
5.如权利要求3所述的方法,其特征在于,将所述子集形成关联事件包括:
基于所述时间戳确定所述子集的时间;
基于预设的强关联规则,利用所述子集形成关联事件;其中,所述强关联规则是指时间在前的子集推出时间在后的子集。
6.一种基于Apriori算法的日志分析的装置,其特征在于,包括:
采集模块,用于当检测到警告信息时,采集预设时间窗口内的异常日志,其中,所述异常日志是指包括预设异常关键词的日志...
【专利技术属性】
技术研发人员:吴文昊,
申请(专利权)人:中移苏州软件技术有限公司,中国移动通信集团有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。