The invention provides a universal method for mining frequent episodes of event sequences. Given the definitions of event sequences, window widths, support thresholds and support degrees, all frequent episodes on event sequences are mined based on depth-first search method and shared prefix/suffix tree storage structure, taking into account multiple branches in the mining process. Holdup definition includes window occurrence, minimal occurrence, hair occurrence, total occurrence, non-interleaving occurrence, non-overlapping occurrence, minimal and non-overlapping occurrence, single-pass scanning event sequence, and no candidate frequent episodes; this universal event sequence frequent episode mining method combines multiple support definitions and scans events in a single pass. Based on the depth-first search method and shared prefix/suffix tree storage structure, all frequent scenarios on event sequences can be effectively found and stored without candidate frequent scenarios.
【技术实现步骤摘要】
普适的事件序列频繁情节挖掘方法
本专利技术涉及一种普适的事件序列频繁情节挖掘方法。
技术介绍
自频繁情节挖掘问题提出以来,众多学者对此展开了持续研究,提出了许多代表性的解决方法,如基于窗口发生的频繁情节挖掘算法WINEPI和WinMiner,基于最小发生的频繁情节挖掘算法MINEPI、EPT、PPS、Clo_episode、Ap-epi、UP-Span、DMinEpi和MELLO,基于头发生的频繁情节挖掘算法MINEPI+和EMMA,基于总发生的频繁情节挖掘算法T-freq和DiscoveryTotal,基于非交错发生的频繁情节挖掘算法Non-interleaved,基于非重叠发生的频繁情节挖掘算法Non-WinMiner、DiscoveryNonOver和Non-overlapped,基于最小且非重叠发生的频繁情节挖掘算法MANEPI、FCEMiner和2PEM。可见,基于不同发生计数的支持度定义是挖掘频繁情节时必须考虑的一个尺度。一方面,支持度定义决定着挖掘的结果,针对同一事件序列根据不同支持度定义挖掘的频繁情节不尽相同;另一方面,支持度定义影响着挖掘的过程,有些支持度定义满足单调性(若β是α的任一子情节,则β的发生次数不小于α的发生次数),有些则不然,而单调性是加快频繁情节搜索的重要依据。上述算法在各自支持度定义下具有较好的挖掘效果,但在支持度定义发生变化时却很难甚至无法直接挖掘频繁情节。为此,学者们提出了一个基于Apriori思想逐层发现频繁情节的算法FEM-BFS。该算法采用广度优先搜索策略,首先由k(k>0)层的频繁情节产生k+1 ...
【技术保护点】
1.一种普适的事件序列频繁情节挖掘方法,其特征在于:在给定事件序列、窗口宽度、支持度阈值和支持度定义的前提下,基于深度优先搜索方式和共享前/后缀树存储结构来挖掘事件序列上的所有频繁情节,挖掘过程中兼顾多种支持度定义包括窗口发生、最小发生、头发生、总发生、非交错发生、非重叠发生、最小且非重叠发生,单遍扫描事件序列,且不产生候选频繁情节。
【技术特征摘要】
1.一种普适的事件序列频繁情节挖掘方法,其特征在于:在给定事件序列、窗口宽度、支持度阈值和支持度定义的前提下,基于深度优先搜索方式和共享前/后缀树存储结构来挖掘事件序列上的所有频繁情节,挖掘过程中兼顾多种支持度定义包括窗口发生、最小发生、头发生、总发生、非交错发生、非重叠发生、最小且非重叠发生,单遍扫描事件序列,且不产生候选频繁情节。2.如权利要求1所述的普适的事件序列频繁情节挖掘方法,其特征在于:具体为,S1、初始化共享前/后缀树T;S2、扫描事件序列一遍,依据支持度定义和支持度阈值,发现所有的频繁1-情节并按字典序排列;S3、对于每个频繁1-情节α,在共享前/后缀树T中生成根结点的孩子结点Nα,每个结点包括情节名、情节发生集和孩子指针集三个域,为了兼顾考虑窗口发生、最小发生、头发生、总发生、非交错发生、非重叠发生、最小且非重叠发生的支持度定义,每个情节的发生集为其最早转移发生集;S4、分别对每个频繁1-情节α,进行如下递归处理:依次取出每个频繁1-情节β对α进行情节增长,令增长后的情节为...
【专利技术属性】
技术研发人员:朱辉生,陈琳,李金海,周爱平,俞杨建,
申请(专利权)人:泰州学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。