【技术实现步骤摘要】
一种用于流程发现的局部日志采样方法
[0001]本专利技术属于业务流程管理领域,针对大规模事件日志的预处理问题,提出一种可用于流程发现的局部日志采样方法。
技术介绍
[0002]流程挖掘是一门旨在从企业组织的信息管理系统中提取业务流程相关见解的学科,其核心理念为发现、监测和改进真实的业务流程。流程发现是流程挖掘的一个分支领域,其主要任务是从事件日志中构建流程模型,以达到对业务流程更好的理解和分析的目的。
[0003]事件日志是提取流程模型的基础。近年来,随着物联网、大数据等技术的快速发展,企业有了更多获取和存储事件日志的手段,造成了事件日志规模的几何级别增长。现有的流程发现算法,如Alpha挖掘算法、启发式流程挖掘算法、归纳算法等,将完整的事件日志作为输入并构建相应的流程模型。然而,这些流程挖掘算法往往具有多个可调整的参数,使得流程发现成为了一个漫长的探索性过程,尤其是在将它们应用于大规模的事件日志时,可能需要较长的处理时间,导致流程发现效率低下。
[0004]为了应对大规模的事件日志,一种常见的策略是采用分而治之的思想,将流程发现问题分解为若干个规模较小的子问题;另一种做法则是利用分布式计算来提高流程发现的效率,如Evermann在MapReduce平台上重新实现了Alpha挖掘算法和启发式流程挖掘算法,使得这两种著名的流程挖掘算法得以扩展应用到大规模、分布式存储的数据集上。
[0005]除了改进现有的挖掘算法之外,对完整的事件日志进行采样则是一种从根本上提高流程发现效率的方法。这种做法的依
【技术保护点】
【技术特征摘要】
1.一种用于流程发现的局部日志采样方法,其特征在于用于从大规模事件日志中采样出包含关键信息的子集用于流程发现,该方法的具体步骤如下:S1、设置采样日志L
′
为待采样的事件日志L的子集,并初始化L
′
为空集所述事件日志L={σ1,...,σ
i
,
…
,σ
m
}是所有轨迹的集合,其中m为事件日志L中的轨迹总数,σ
i
表示事件日志L中第i条轨迹;所述轨迹为事件的有序执行构成的活动序列,用σ=<e1,
…
,e
ξ
,
…
,e
n
>表示,其中e
ξ
表示轨迹中第ξ个发生的事件,n为轨迹中的事件总数;事件e为流程执行过程中发生的活动,包括活动名称和特征属性;S2、以满足N
min
≥z2*δ*(1
‑
δ)/e2的整数值作为最小连续遍历样本数量N
min
,其中z对应于单边假设检验下置信水平1
‑
α的标准化正态随机变量,δ表示在L
‑
L
′
中发现带有新信息的轨迹的概率,e表示误差幅度;初始化事件日志L中当前遍历的轨迹索引i=1,初始化用于记录发生相似轨迹聚集次数的计数器k=1,初始化用于统计不带有新信息的连续轨迹条数的计数器count=0;S3、从事件日志L中按轨迹索引i取出轨迹σ
i
,并计算轨迹σ
i
的控制流信息Ψ
CF
(σ
i
)以及轨迹长度Len(σ
i
)和轨迹持续时间T(σ
i
)两个特征属性;所述控制流信息是与轨迹σ
i
中事件的执行次序有关的信息集合,用表示,其中表示轨迹σ
i
中出现的活动集合,>(σ
i
)表示轨迹σ
i
中事件的直接跟随关系集合,e
start
(σ
i
)和e
end
(σ
i
)分别表示轨迹σ
i
的开始和结束事件;所述轨迹长度Len(σ
i
)为轨迹σ
i
中发生的事件数量,所述轨迹持续时间T(σ
i
)为轨迹σ
i
从开始执行到结束执行经过的时间;S4、判断轨迹σ
i
是否符合第一条件、第二条件和第三条件中任意一个,其中:所述第一条件为轨迹σ
i
带有当前采样日志L
′
中未包含的控制流信...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。