增量式频繁情节挖掘方法技术

技术编号:35831753 阅读:16 留言:0更新日期:2022-12-03 14:00
本发明专利技术公开了一种增量式频繁情节挖掘方法,本发明专利技术综合考虑情节发生的时间跨度问题、信号事件的互异性、情节的可交叉性,提出更为通用的情节定义方式:带时间约束的可交叉互异最小发生情节,并在此基础上,对动态数据采用滑动窗口完成增量式的动态频繁情节挖掘,具体地,利用OccMap数据结构实现了仅对序列进行一遍扫描即可完成情节发生的准确计数,有效弥补了现有工作的不足,大幅降低了该过程的复杂度。并且面向动态数据进行增量式的频繁情节挖掘,充分复用频繁情节挖掘结果,按照过期数据和新数据的事件类型进行情况划分,实现在仅对部分情节进行增量挖掘的情况下,完成序列数据频繁情节的更新,极大减少计算量和系统运行开销。销。销。

【技术实现步骤摘要】
增量式频繁情节挖掘方法


[0001]本专利技术涉及数据挖掘
,尤其涉及一种增量式频繁情节挖掘方法。

技术介绍

[0002]随着物联网等技术的发展,卷烟及烟草企业也同步向制造智能化、信息电子化的方向推进,由此,烟草行业内通过已有的生产监控系统收集了大量的信号序列类型的数据,对这些数据的处理技术就受到了越来越多的从业者的关注,其中,挖掘频繁情节就是这种信号序列数据的重要研究方面,而且如何发现频繁情节已成为行业内数据挖掘的热点之一。频繁情节挖掘任务,其数据类型为一长串带有发生时间的有序信号事件序列,其工作目标是从中找出事件序列中频繁出现的子序列,从而揭示相邻信号事件的关联关系和发生规律。
[0003]领域内先后研究了许多算法,如WINEPI、MINEPI、EpiBF、NONEPI、MANEPI等,这些基于最小发生、窗口发生的算法,或因为情节发生之间可能会产生重叠,导致情节发生的“过计数”问题,或将情节设置为发生时间完全独立的无交叠设定,存在情节漏记。此外,上述算法都是基于静态数据的,在进行情节挖掘时,他们基于事件的统计特性使用广度优先的搜索策略,生成候选情节,然后进行情节发生计数,满足最小支持度阈值的情节即为频繁情节。
[0004]这类方法以事件出现频率为基准,按照支持度阈值,首先将事件划分为频繁项与非频繁项,进而根据情节的向下闭合特性生成候选情节。但是动态数据流环境下,事件的出现频度时刻变化,原本频繁的事件可能会变得不频繁,而不频繁的事件可能再某些时刻转变为频繁事件,因此,以上所描述的方法无法直接应用到数据变化的动态频繁情节挖掘中。
[0005]而现有的能够应对动态数据频繁挖掘的算法极少,与一组序列数据相比,长串数据不易分割的特点,更加剧了动态频繁情节挖掘的难度。
[0006]例如MESELO算法其处理的序列是一个完整信号序列,并给出了一种基于最后一次出现的最小情节发生定义,将信号序列按照固定长度进行窗口切割划分,且每个窗口起始时刻相差为1,这使得对于长度为L的序列数据,需要建立(L

|w|+1)个窗口,其中|w|表示窗口大小。然而,在现实的场景中,其一,很难保证数据间隔的稳定性;其二,算法需要对每个时间间隔内的挖掘结果进行存储,冗余数据多,占用大量内存。而且,在各时刻点统计情节出现频率时,需要对各时段内挖掘到的情节进行统计并去除重复计数的情节。
[0007]现有还有使用有限状态自动机通过状态转移,实现对特定情节的计数工作。其工作原理是:按照情节顺序,建立状态机。在捕获到当前等待事件后,进行状态转移,转为等待情节的下一事件。当情节的最后一个事件到达时,状态机跳转到结束态,意味着一个完整情节的发生。但是,有限状态机所捕获的情节发生没有时间跨度的约束,存在一次情节发生开始事件与结束事件时间跨度较长的情况,这类情节发生不再具备较强的现实意义,而且对于交叉发生的情节不具备识别能力。
[0008]面向动态数据的频繁情节挖掘,如常规的INCSEQ方案运用滑动窗口定位需要挖掘
的数据,将挖掘结果保存在树结构中,然后利用旧窗口挖掘结果,实现了对新窗口频繁情节挖掘的增量数据更新。该方法根据过期数据的事件类型,对过期事件进行查找,删除相关的过期情节发生。根据新到达数据类型,生成新的情节树,然后与旧窗口中挖掘结果生成的树进行树的合并工作。树中节点记录情节的每次发生,可以根据上一层树中节点记录的数据,校正树中每个层级的节点,实现增量更新。但是,其处理过程繁琐,计算复杂性高,且情节定义方式为最小发生,信号事件被重复使用,不能保证情节互异性。

技术实现思路

[0009]鉴于上述,本专利技术旨在提供一种增量式频繁情节挖掘方法,以解决前述提及的技术问题。
[0010]本专利技术采用的技术方案如下:
[0011]本专利技术提供了一种增量式频繁情节挖掘方法,其中包括:
[0012]步骤S1、根据情节发生的时间跨度、情节的可交叉性以及信号事件的互异性,定义带时间约束的可交叉互异最小发生情节;
[0013]步骤S2、利用OccMap数据结构,通过单次扫描对带时间约束的可交叉互异最小发生情节进行计数:
[0014]步骤S21、基于动态数据,设置用于增量式频繁情节挖掘的滑动窗口;
[0015]步骤S22、按照过期数据与新数据的事件类型,获取当前所述滑动窗口内的频繁情节挖掘结果,并采用预先建立的前缀树结构保存频繁情节挖掘结果。
[0016]在其中至少一种可能的实现方式中,步骤S2具体包括:
[0017]建立并更新OccMap表;
[0018]在确定OccMap表中存在一个完整情节发生后,基于事件时间戳判定情节约束条件;
[0019]在完成一组选中事件的条件约束判定后,对OccMap表进行初始化处理,所述初始化处理包括:对满足约束条件发生的OccMap表初始化以及不满足约束条件发生的OccMap表初始化。
[0020]在其中至少一种可能的实现方式中,所述单次扫描包括:对于确定的频繁情节,利用OccMap表中最后一次情节发生的记录,仅从前次情节发生的时间戳开始,对滑动窗口中后续的部分数据进行扫描。
[0021]在其中至少一种可能的实现方式中,步骤S22具体包括:依据前缀树节点存储的情节发生时间戳,筛出过期的情节发生,并根据新到达的事件类型,生成新的可能频繁的情节片段。
[0022]在其中至少一种可能的实现方式中,所述筛出过期的情节发生包括:通过事件类型和时间戳对过期数据进行定位并执行简洁处理。
[0023]在其中至少一种可能的实现方式中,所述简洁处理包括:根据过期数据的事件类型及其时间戳,在前缀树中定位受影响的情节,并对受影响的情节进行数据删除操作。
[0024]在其中至少一种可能的实现方式中,所述根据新到达的事件类型,生成新的可能频繁的情节片段包括:根据新数据的事件类型进行新情节发生的增补,并仅对可能增补的情节发生进行扫描。
[0025]本专利技术的主要设计构思在于,综合考虑情节发生的时间跨度问题及信号事件的互异性、情节的可交叉性,提出更为通用的情节定义方式:带时间约束的可交叉互异最小发生情节,并在此情节定义基础上,对于动态数据采用滑动窗口,完成增量式的动态频繁情节挖掘,具体地,利用OccMap数据结构,实现了仅对序列进行一遍扫描的情况下,完成情节发生的准确计数,有效弥补了现有工作的不足。例如对于长度为n的序列,寻找长度为k的特定情节,且保证情节时间跨度小于等于δ的情况下,该过程的时间复杂度为O(nklogδ)。本专利技术面向动态数据进行增量式的频繁情节挖掘,充分复用频繁情节挖掘结果,按照过期数据和新数据的事件类型进行情况划分,实现在仅对部分情节进行增量挖掘的情况下,完成序列数据频繁情节的更新,极大减少计算量和系统运行开销。
附图说明
[0026]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步描述,其中:
[0027]图1为本专利技术实施例提供的增量式频繁本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种增量式频繁情节挖掘方法,其特征在于,包括:步骤S1、根据情节发生的时间跨度、情节的可交叉性以及信号事件的互异性,定义带时间约束的可交叉互异最小发生情节;步骤S2、利用OccMap数据结构,通过单次扫描对带时间约束的可交叉互异最小发生情节进行计数:步骤S21、基于动态数据,设置用于增量式频繁情节挖掘的滑动窗口;步骤S22、按照过期数据与新数据的事件类型,获取当前所述滑动窗口内的频繁情节挖掘结果,并采用预先建立的前缀树结构保存频繁情节挖掘结果。2.根据权利要求1所述的增量式频繁情节挖掘方法,其特征在于,步骤S2具体包括:建立并更新OccMap表;在确定OccMap表中存在一个完整情节发生后,基于事件时间戳判定情节约束条件;在完成一组选中事件的条件约束判定后,对OccMap表进行初始化处理,所述初始化处理包括:对满足约束条件发生的OccMap表初始化以及不满足约束条件发生的OccMap表初始化。3.根据权利要求2所述的增量式频繁情节挖掘方法,其特征在于,...

【专利技术属性】
技术研发人员:李威李健俊姜学峰汪炎平杜旋王正敏董惠良
申请(专利权)人:浙江中烟工业有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1