当前位置: 首页 > 专利查询>泰州学院专利>正文

普适的事件序列频繁情节挖掘方法技术

技术编号:19009231 阅读:65 留言:0更新日期:2018-09-22 09:05
本发明专利技术提供一种普适的事件序列频繁情节挖掘方法,在给定事件序列、窗口宽度、支持度阈值和支持度定义的前提下,基于深度优先搜索方式和共享前/后缀树存储结构来挖掘事件序列上的所有频繁情节,挖掘过程中兼顾多种支持度定义包括窗口发生、最小发生、头发生、总发生、非交错发生、非重叠发生、最小且非重叠发生,单遍扫描事件序列,且不产生候选频繁情节;该种普适的事件序列频繁情节挖掘方法,融合多种支持度定义,在单遍扫描事件序列和不产生候选频繁情节的前提下,基于深度优先搜索方式和共享前/后缀树存储结构,能够有效发现和存储事件序列上的所有频繁情节。

A universal method for mining frequent episodes in event sequences

The invention provides a universal method for mining frequent episodes of event sequences. Given the definitions of event sequences, window widths, support thresholds and support degrees, all frequent episodes on event sequences are mined based on depth-first search method and shared prefix/suffix tree storage structure, taking into account multiple branches in the mining process. Holdup definition includes window occurrence, minimal occurrence, hair occurrence, total occurrence, non-interleaving occurrence, non-overlapping occurrence, minimal and non-overlapping occurrence, single-pass scanning event sequence, and no candidate frequent episodes; this universal event sequence frequent episode mining method combines multiple support definitions and scans events in a single pass. Based on the depth-first search method and shared prefix/suffix tree storage structure, all frequent scenarios on event sequences can be effectively found and stored without candidate frequent scenarios.

【技术实现步骤摘要】
普适的事件序列频繁情节挖掘方法
本专利技术涉及一种普适的事件序列频繁情节挖掘方法。
技术介绍
自频繁情节挖掘问题提出以来,众多学者对此展开了持续研究,提出了许多代表性的解决方法,如基于窗口发生的频繁情节挖掘算法WINEPI和WinMiner,基于最小发生的频繁情节挖掘算法MINEPI、EPT、PPS、Clo_episode、Ap-epi、UP-Span、DMinEpi和MELLO,基于头发生的频繁情节挖掘算法MINEPI+和EMMA,基于总发生的频繁情节挖掘算法T-freq和DiscoveryTotal,基于非交错发生的频繁情节挖掘算法Non-interleaved,基于非重叠发生的频繁情节挖掘算法Non-WinMiner、DiscoveryNonOver和Non-overlapped,基于最小且非重叠发生的频繁情节挖掘算法MANEPI、FCEMiner和2PEM。可见,基于不同发生计数的支持度定义是挖掘频繁情节时必须考虑的一个尺度。一方面,支持度定义决定着挖掘的结果,针对同一事件序列根据不同支持度定义挖掘的频繁情节不尽相同;另一方面,支持度定义影响着挖掘的过程,有些支持度定义满足单调性(若β是α的任一子情节,则β的发生次数不小于α的发生次数),有些则不然,而单调性是加快频繁情节搜索的重要依据。上述算法在各自支持度定义下具有较好的挖掘效果,但在支持度定义发生变化时却很难甚至无法直接挖掘频繁情节。为此,学者们提出了一个基于Apriori思想逐层发现频繁情节的算法FEM-BFS。该算法采用广度优先搜索策略,首先由k(k>0)层的频繁情节产生k+1层的候选频繁情节,然后通过扫描事件序列来跟踪各个候选频繁情节状态机的状态变化,并由参数TRANSIT、COPY-AUTOMATON、JOIN-AUTOMATON、INCREMENT-FREQ和RETIRE-AUTOMATON分别控制当前状态机是否发生状态转移、当前状态机转移至下一状态前是否要复制一个副本、两个状态机转移至同一状态时是否要删除较早的状态机、当前状态机转移至终止状态时情节发生次数是否增1、情节发生次数增1后是否删除该情节的所有状态机,从而计算每个候选频繁情节在不同支持度定义下的发生次数,进而发现k+1层的频繁情节。该算法虽然兼顾了多种支持度定义,但挖掘过程中需要多遍扫描事件序列,且每遍扫描前都要存储大量的候选频繁情节,这势必导致较为昂贵的时间和空间代价。
技术实现思路
本专利技术的目的是提供一种普适的事件序列频繁情节挖掘方法解决现有技术中存在的挖掘过程中需要多遍扫描事件序列,且每遍扫描前都要存储大量的候选频繁情节,导致较为昂贵的时间和空间代价的问题。本专利技术的技术解决方案是:定义1(事件,事件序列):给定事件类型集ε={E1,E2,…,En},一个事件就是一个二元组(E,t),其中,E∈ε,t表示该事件的发生时间。定义在ε上的一个事件序列ES是按发生时间先后排列的若干事件,表示为ES=<(E1,t1),(E2,t2),…,(Em,tm)>,其中ti<tj(1≤i<j≤m)。假设在每个时间点上至多只发生一个事件。例如,ES1=<(A,1),(A,2),(A,4),(B,5),(A,6),(A,7),(C,8),(B,9),(D,11),(C,12),(A,13),(B,14),(C,15),(D,16),(A,17)>就是一个事件序列。定义2(情节,子情节):情节α是ε中若干事件类型组成的序列,记为α=<E1E2…Ek>,其中Ei(1≤i≤k)∈ε且对于所有的i和j(1≤i<j≤k)满足Ei排列在Ej之前。情节α中事件类型的个数称为α的长度(记为|α|),长度为k的情节称为k-情节。若情节β中的事件类型均来自情节α,且与α中这些事件类型的先后顺序一致,则称β是α的子情节,记作例如,<ABC>是一个3-情节,<AB>是<ABC>的子情节,而<BA>不是。定义3(窗口):给定事件序列ES=<(E1,t1),(E2,t2),…,(Em,tm)>,设ts≥t1,te≤tm,则[ts,te]是ES上的一个窗口,该窗口包含了ts到te的所有事件,te-ts称为该窗口的宽度,ts和te分别称为该窗口的起始时间和终止时间。例如,[2,8]是事件序列ES1上一个宽度为6的窗口,其起始时间为2,终止时间为8。定义4(前缀,后缀,串接):给定情节α=<E1E2…Ek>,则<E1E2…Ek-1>称为α的前缀,记为prefix(α);<E2…Ek>称为α的后缀,记为suffix(α)。给定情节α=<E1E2…En>和β=<E'1E'2...E'm>,则<E1E2...EnE'1E'2...E'm>称为α和β的串接,记为concat(α,β)。例如,<AB>和<BC>分别是情节<ABC>的前缀和后缀,concat(<AB>,<BC>)=<ABBC>。定义5(发生,最早转移发生):给定事件序列ES和情节α=<E1E2…Ek>,若<(E1,t1),(E2,t2),…,(Ek,tk)>是从ES中删除若干事件后得到,其中ti<ti+1(1≤i≤k-1),则称[t1,t2,…,tk]为α在ES上的一次发生,[t1,tk]为发生区间,tk-t1为区间长度。若[t1,t2,…,tk]是情节α=<E1E2…Ek>在事件序列ES上的一次发生,且ti(2≤i≤k)是继ti-1之后事件类型Ei的首次发生时间,则称[t1,t2,…,tk]是α在ES上的一次最早转移发生,情节α在ES上所有最早转移发生组成的集合记为eto(α)。例如,在事件序列ES1上,[4,9,12]是情节<ABC>的一次发生(但不是最早转移发生),该发生区间为[4,12],区间长度为8,eto(<ABC>)={[1,5,8],[2,5,8],[4,5,8],[6,9,12],[7,9,12],[13,14,15]}。性质1(单调性):若β是α的任一子情节,则β的发生次数不小于α的发生次数。性质2(前缀单调性):prefix(α)的发生次数不小于α的发生次数。显然,性质3(后缀单调性):suffix(α)的发生次数不小于α的发生次数。显然,定义6(基于窗口发生的支持度):给定事件序列ES=<(E1,t1),(E2,t2),…,(En,tn)>和窗口宽度w,则ES上共包含(tn-t1+w+1)个宽度为w的窗口,其本文档来自技高网
...
普适的事件序列频繁情节挖掘方法

【技术保护点】
1.一种普适的事件序列频繁情节挖掘方法,其特征在于:在给定事件序列、窗口宽度、支持度阈值和支持度定义的前提下,基于深度优先搜索方式和共享前/后缀树存储结构来挖掘事件序列上的所有频繁情节,挖掘过程中兼顾多种支持度定义包括窗口发生、最小发生、头发生、总发生、非交错发生、非重叠发生、最小且非重叠发生,单遍扫描事件序列,且不产生候选频繁情节。

【技术特征摘要】
1.一种普适的事件序列频繁情节挖掘方法,其特征在于:在给定事件序列、窗口宽度、支持度阈值和支持度定义的前提下,基于深度优先搜索方式和共享前/后缀树存储结构来挖掘事件序列上的所有频繁情节,挖掘过程中兼顾多种支持度定义包括窗口发生、最小发生、头发生、总发生、非交错发生、非重叠发生、最小且非重叠发生,单遍扫描事件序列,且不产生候选频繁情节。2.如权利要求1所述的普适的事件序列频繁情节挖掘方法,其特征在于:具体为,S1、初始化共享前/后缀树T;S2、扫描事件序列一遍,依据支持度定义和支持度阈值,发现所有的频繁1-情节并按字典序排列;S3、对于每个频繁1-情节α,在共享前/后缀树T中生成根结点的孩子结点Nα,每个结点包括情节名、情节发生集和孩子指针集三个域,为了兼顾考虑窗口发生、最小发生、头发生、总发生、非交错发生、非重叠发生、最小且非重叠发生的支持度定义,每个情节的发生集为其最早转移发生集;S4、分别对每个频繁1-情节α,进行如下递归处理:依次取出每个频繁1-情节β对α进行情节增长,令增长后的情节为...

【专利技术属性】
技术研发人员:朱辉生陈琳李金海周爱平俞杨建
申请(专利权)人:泰州学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1