一种用于流程发现的局部日志采样方法技术

技术编号:32831747 阅读:14 留言:0更新日期:2022-03-26 20:45
本发明专利技术公开了一种用于流程发现的局部日志采样方法。本发明专利技术通过量化事件之间的直接跟随关系和轨迹的特征属性,将轨迹是否带有新的流程行为作为采样标准,并基于统计理论确定了最小连续遍历样本数量。为了进一步提高预处理速度,提出了二进制指数跳跃算法来避免对重复轨迹的扫描。采用本发明专利技术的日志采样方法可以快速有效地缩小事件日志的规模,并保留关键的控制流和频率信息,同时提高流程发现算法的运行速度。速度。速度。

【技术实现步骤摘要】
一种用于流程发现的局部日志采样方法


[0001]本专利技术属于业务流程管理领域,针对大规模事件日志的预处理问题,提出一种可用于流程发现的局部日志采样方法。

技术介绍

[0002]流程挖掘是一门旨在从企业组织的信息管理系统中提取业务流程相关见解的学科,其核心理念为发现、监测和改进真实的业务流程。流程发现是流程挖掘的一个分支领域,其主要任务是从事件日志中构建流程模型,以达到对业务流程更好的理解和分析的目的。
[0003]事件日志是提取流程模型的基础。近年来,随着物联网、大数据等技术的快速发展,企业有了更多获取和存储事件日志的手段,造成了事件日志规模的几何级别增长。现有的流程发现算法,如Alpha挖掘算法、启发式流程挖掘算法、归纳算法等,将完整的事件日志作为输入并构建相应的流程模型。然而,这些流程挖掘算法往往具有多个可调整的参数,使得流程发现成为了一个漫长的探索性过程,尤其是在将它们应用于大规模的事件日志时,可能需要较长的处理时间,导致流程发现效率低下。
[0004]为了应对大规模的事件日志,一种常见的策略是采用分而治之的思想,将流程发现问题分解为若干个规模较小的子问题;另一种做法则是利用分布式计算来提高流程发现的效率,如Evermann在MapReduce平台上重新实现了Alpha挖掘算法和启发式流程挖掘算法,使得这两种著名的流程挖掘算法得以扩展应用到大规模、分布式存储的数据集上。
[0005]除了改进现有的挖掘算法之外,对完整的事件日志进行采样则是一种从根本上提高流程发现效率的方法。这种做法的依据是,事件日志中存在着大量相似或重复的行为,只有一小部分的日志记录了导致流程模型发生变动的“新信息”。因此,将大规模的事件日志采样缩减到可快速处理的大小是一种十分有效的方式。

技术实现思路

[0006]本专利技术针对现有采样技术的不足,提供了一种基于信息增量的局部日志采样方法。该方法首先从事件日志里抽象出了控制流信息和特征属性信息,用于比较轨迹携带的信息量,然后采用二进制指数跳跃算法来避免对重复或相似轨迹的遍历,达到提高预处理效率的目的。
[0007]为实现上述专利技术目的,本专利技术方法的具体技术方案如下:
[0008]一种用于流程发现的局部日志采样方法,其用于从大规模事件日志中采样出包含关键信息的子集用于流程发现,该方法的具体步骤如下:
[0009]S1、设置采样日志L

为待采样的事件日志L的子集,并初始化L

为空集所述事件日志L={σ1,


i
,


m
}是所有轨迹的集合,其中m为事件日志L中的轨迹总数,σ
i
表示事件日志L中第i条轨迹;所述轨迹为事件的有序执行构成的活动序列,用σ=<e1,

,e
ξ
,

,e
n
>表示,其中e
ξ
表示轨迹中第ξ个发生的事件,n为轨迹中的事件总数;事件e为流程执行过程
中发生的活动,包括活动名称和特征属性;
[0010]S2、以满足N
min
≥z2*δ*(1

δ)/e2的整数值作为最小连续遍历样本数量N
min
,其中z对应于单边假设检验下置信水平1

α的标准化正态随机变量,δ表示在L

L

中发现带有新信息的轨迹的概率,e表示误差幅度;初始化事件日志L中当前遍历的轨迹索引i=1,初始化用于记录发生相似轨迹聚集次数的计数器k=1,初始化用于统计不带有新信息的连续轨迹条数的计数器count=0;
[0011]S3、从事件日志L中按轨迹索引i取出轨迹σ
i
,并计算轨迹σ
i
的控制流信息Ψ
CF

i
)以及轨迹长度Len(σ
i
)和轨迹持续时间T(σ
i
)两个特征属性;
[0012]所述控制流信息是与轨迹σ
i
中事件的执行次序有关的信息集合,用表示,其中表示轨迹σ
i
中出现的活动集合,表示轨迹σ
i
中事件的直接跟随关系集合,e
start

i
)和e
end

i
)分别表示轨迹σ
i
的开始和结束事件;
[0013]所述轨迹长度Len(σ
i
)为轨迹σ
i
中发生的事件数量,所述轨迹持续时间T(σ
i
)为轨迹σ
i
从开始执行到结束执行经过的时间;
[0014]S4、判断轨迹σ
i
是否符合第一条件、第二条件和第三条件中任意一个,其中:
[0015]所述第一条件为轨迹σ
i
带有当前采样日志L

中未包含的控制流信息,满足其中为当前采样日志L

的控制流信息集合;
[0016]所述第二条件为轨迹σ
i
带有当前采样日志L

中未包含的长度信息,满足其中表示采样日志L

的轨迹长度集合;
[0017]所述第三条件为轨迹σ
i
向当前采样日志L

中引入了新的时间信息,满足d(L


i
)>λ,其中λ为松弛系数,d(L


i
)为距离函数,计算公式为:式中N表示当前采样日志L

中已有轨迹的条数;
[0018]若满足三个条件中的任意一个,则视为轨迹σ
i
是一条相对于采样日志L

带有新信息的轨迹,将轨迹σ
i
加入采样日志L

,同时对轨迹索引i进行加1,计数器k重置为1,计数器count均重置为0;若不满足三个条件中的任意一个,则不将轨迹σ
i
加入采样日志L

,计数器count进行加1后再判断是否符合count≥N
min
,若不符合则计数器k保持不变且对轨迹索引i进行加1,若符合则计数器k进行加1,并使用二进制指数跳跃算法计算下一条要遍历的轨迹索引,其中下一条要遍历的轨迹索引为i=i+random(1,2
τ
),random(1,2
τ
)表示在[1,2
τ
]区间中随机地取出一个整数,τ为上限阈值和计数器k当前值之中的最小值;
[0019]S5、不断迭代执行S3和S4对事件日志L进行遍历,直至轨迹索引i的值超出事件日志L中轨迹索引上限值后,停止遍历,最终输出包含关键信息子集的采样日志L...

【技术保护点】

【技术特征摘要】
1.一种用于流程发现的局部日志采样方法,其特征在于用于从大规模事件日志中采样出包含关键信息的子集用于流程发现,该方法的具体步骤如下:S1、设置采样日志L

为待采样的事件日志L的子集,并初始化L

为空集所述事件日志L={σ1,...,σ
i


,σ
m
}是所有轨迹的集合,其中m为事件日志L中的轨迹总数,σ
i
表示事件日志L中第i条轨迹;所述轨迹为事件的有序执行构成的活动序列,用σ=<e1,

,e
ξ


,e
n
>表示,其中e
ξ
表示轨迹中第ξ个发生的事件,n为轨迹中的事件总数;事件e为流程执行过程中发生的活动,包括活动名称和特征属性;S2、以满足N
min
≥z2*δ*(1

δ)/e2的整数值作为最小连续遍历样本数量N
min
,其中z对应于单边假设检验下置信水平1

α的标准化正态随机变量,δ表示在L

L

中发现带有新信息的轨迹的概率,e表示误差幅度;初始化事件日志L中当前遍历的轨迹索引i=1,初始化用于记录发生相似轨迹聚集次数的计数器k=1,初始化用于统计不带有新信息的连续轨迹条数的计数器count=0;S3、从事件日志L中按轨迹索引i取出轨迹σ
i
,并计算轨迹σ
i
的控制流信息Ψ
CF

i
)以及轨迹长度Len(σ
i
)和轨迹持续时间T(σ
i
)两个特征属性;所述控制流信息是与轨迹σ
i
中事件的执行次序有关的信息集合,用表示,其中表示轨迹σ
i
中出现的活动集合,>(σ
i
)表示轨迹σ
i
中事件的直接跟随关系集合,e
start

i
)和e
end

i
)分别表示轨迹σ
i
的开始和结束事件;所述轨迹长度Len(σ
i
)为轨迹σ
i
中发生的事件数量,所述轨迹持续时间T(σ
i
)为轨迹σ
i
从开始执行到结束执行经过的时间;S4、判断轨迹σ
i
是否符合第一条件、第二条件和第三条件中任意一个,其中:所述第一条件为轨迹σ
i
带有当前采样日志L

中未包含的控制流信...

【专利技术属性】
技术研发人员:俞东进倪可孙笑笑
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1