【技术实现步骤摘要】
一种基于海量日志的实时关联分析方法及系统
本专利技术涉及数据挖掘
,具体涉及一种基于海量日志的实时关联分析方法及系统。
技术介绍
关联规则挖掘是数据挖掘中的一种十分重要的方法,它的作用在于找到数据之间的相关性。随着我国信息技术的蓬勃发展,在各个领域中,数据的数量都变得越来越多,推动着我们进入了大数据的时代,因此利用关联规则来挖掘的对象常常是庞大的集中式或分布式数据库,其中当然也包括电力信息系统日志数据。一方面,为了在存储的能力、挖掘的能力方面适应大数据挖掘的要求,提出了并行方法处理海量数据的方法。另一方面,在包含海量日志数据挖掘之内的很多数据挖掘应用中,数据库都需要不断地更新,因此存在着增量更新的问题,需要在挖掘原始数据库的基础上,再对新增数据库进行挖掘。Storm是一个分布式流式计算框架,具有数据计算延迟低、吞吐高、计算逻辑表达能力灵活的优点,但是Storm计算框架中间不会有数据合并和收集的过程,这导致在数据聚集处理的场景中比如关联规则挖掘中需要自行处理相关逻辑,为此本专利技术对原有的流处理框架Storm进行 ...
【技术保护点】
1.一种基于海量日志的实时关联分析方法,其特征在于:包括:/n获取原有日志事务数据DB的所有关联分析数据,所述关联分析数据包括数据DB中的不频繁项、频繁项和关联规则;/n获取实时采集的日志数据db;/n基于改进的Storm实时计算系统进行海量日志的实时关联分析,分析过程包括:/n第一级节点启动,用于追踪流数据处理过程所有节点的任务完成情况,同时第二级节点启动,用于控制所有节点的工作顺序;/n第二级节点向第三级节点发送日志数据db的标识字段;/n第三级节点根据接收的标识字段读取数据库中对应的日志数据,并将读取数据发送到第四级节点;当第三级节点读取完成后,向所有第四级节点发送完 ...
【技术特征摘要】
1.一种基于海量日志的实时关联分析方法,其特征在于:包括:
获取原有日志事务数据DB的所有关联分析数据,所述关联分析数据包括数据DB中的不频繁项、频繁项和关联规则;
获取实时采集的日志数据db;
基于改进的Storm实时计算系统进行海量日志的实时关联分析,分析过程包括:
第一级节点启动,用于追踪流数据处理过程所有节点的任务完成情况,同时第二级节点启动,用于控制所有节点的工作顺序;
第二级节点向第三级节点发送日志数据db的标识字段;
第三级节点根据接收的标识字段读取数据库中对应的日志数据,并将读取数据发送到第四级节点;当第三级节点读取完成后,向所有第四级节点发送完成标志信息,同时将读取完的数据归入数据DB中;
第四级节点接收到数据后,统计所在节点上的所有事务中的项tij及每项频数,并转换成键值形式直接发送到第五级节点,第四级节点接收到所有第三级节点发送的完成标志信息后,向所有第五级节点发送完成标志信息;
第五级节点接收到所有第四级节点发送的完成标志信息后,对所在节点接收的所有键值对中相同的键进行合并,合并后发送到第六级节点;
第六级节点,接收所有第五级节点发送的键值对,进行键值对合并,获取日志数据db中的所有项tij及对应频数SUPk-itemset-l,获得日志数据db增加到DB中后新增的所有频繁项,形成待分析频繁项集合Glist;
第四级节点获取日志数据db和DB中所有与Glist中的项有关联的事务,并将所有与Glist中的项有关联的事务分组,每组事务传送到相同的第五级节点;
第五级节点对所在节点上接收的每组事务进行关联规则挖掘,并发送到第六级节点;
第六级节点接收所有第五级节点的关联规则,并与原有日志事务数据DB的关联规则融合,获取面向实时更新的数据DB和db的实时关联规则更新结果。
2.根据权利要求1所述的一种基于海量日志的实时关联分析方法,其特征在于:所述第四级节点获取日志数据db和DB中所有与Glist中的项有关联的事务,具体为:根据待分析频繁项集合Glist中的所有项,将日志数据db和DB中所有事务中的非Glist集合项删除,并合并相同的事务。
3.根据权利要求1所述的一种基于海量日志的实时关联分析方法,其特征在于:所述将所有与Glist中的项有关联的事务分组,具体为:
第六级节点形成待分析频繁项集合Glist后,根据预设分组组数,将Glist中的项分组,并分配对应分组号;
第四级节点利用其键值映射建立功能,建立频繁项集合Glist中的每一项和每一事务的一一映射关系,对应的,Glist中的每一项的分组号分享给与其映射的事务,获的同一分组号下的事务集合。
4.根据权利要求1所述的一种基于海量日志的实时关联分析方法,其特征在于:所述原有日志事务数据DB和实时采集的日志数据db中,对于每一项是否为频繁项的判断基于预设的加权支持度区间(SUPL,SUPU)获取,对于SUPk-itemset-l<SUPL的项tij存储在不频繁项候选集合PFZ1′中,SUPL<SUPk-itemset-l<SUPU的项tij存储在弱频繁项候选集合PF1′中,SUPk-itemset-l>SUPU的项tij存储在强频繁项候选集合P1′中。
5.根据权利要求4所述的一种基于海量日志的实时关联分析方法,其特征在于:所述加权支持度区间(SUPL,SUPU)中,SUPL和SUPU的参数大小的设置方法为:
基于层次分析法对日志数据中的所有项进行权重分配;
获取所有项的加权数值,并进行排序;
对排序后的加权数值项,为SUPL和SUPU分配两个数值实现将所有加权数值项划分不同区间。
6.根据权利要求1所述的一种基于海量日志的实时关联分析方法,其特征在于:所述原有日志事务数据DB的所有关联分析数据采用所述基于改进的Storm实时计算系统获取。
7.根据权利要求2所述的一种基于海量日志的实时关联分析方法,其特征在于:原有日...
【专利技术属性】
技术研发人员:徐海青,周刚,陈是同,周晟,吴树霖,张江龙,陶俊,吴小华,高扬,毛舒乐,梁翀,浦正国,胡心颖,郭庆,
申请(专利权)人:国网福建省电力有限公司信息通信分公司,国网福建省电力有限公司,安徽继远软件有限公司,国网信息通信产业集团有限公司,国家电网有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。