【技术实现步骤摘要】
业务过程事件日志采样方法、系统、存储介质及计算设备
[0001]本专利技术涉及对事件日志的过程挖掘的
,尤其是指一种业务过程事件日志采样方法、系统、存储介质及计算设备。
技术介绍
[0002]过程挖掘是连接数据科学和业务过程管理领域的新颖学科,其目的是从事件日志中提取关于业务过程的有效信息,发现、监控和改进真实的业务过程。过程发现是最具挑战性的过程挖掘任务之一,目前国内外研究学者已经提出了许多过程发现方法,如基于Alpha Miner、Heuristics Miner、Inductive Miner、Tsinghua
‑
Alpha、Split Miner等。但由于I/O和内存等硬件限制,大多数发现方法不再适用于使用一台机器处理整个大型数据集。若依靠当前的分布式平台来重新实现现有的过程发现算法,例如著名的MapReduce框架,又会非常耗时,并且这些方法不能一般化,需要开发人员对底层发现方法有广泛的了解,因此迫切需要一种新方法来解决这些问题。事件日志采样方法提供了一种提高发现效率的替代方法,而不是重新实施现有的发现方法。然而,已有的事件日志采样方法的性能依然不能满足实际应用的需求。本专利技术中的业务过程事件日志采样方法为上述问题提供了一种可行性方案,在保证了模型挖掘质量的基础上,大幅度地提高了日志采样效率,同时本专利技术中的事件日志采样方法保证了日志完备性,并且可以得到更简单、质量更高的过程模型。
技术实现思路
[0003]本专利技术的第一目的在于克服现有事件日志采样方法的缺点与 ...
【技术保护点】
【技术特征摘要】
1.业务过程事件日志采样方法,其特征在于,包括以下步骤:1)获取事件日志的三个集合,分别为日志直接跟随活动关系集合、开始点集合和结束点集合;2)根据步骤1)获得的三个集合,判断轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集是否都为空集;若判断结果都为空集,则结束对事件日志的轨迹遍历,输出样本日志;若判断结果不全为空集,则从完全遍历采样法、集合覆盖采样法、基于轨迹长度的采样方法、基于轨迹频次的采样方法这四种事件日志采样方法中任意选择一种;3)根据步骤2)中选择的事件日志采样方法,选择轨迹组成新的日志,新的日志即为样本日志。2.根据权利要求1所述的业务过程事件日志采样方法,其特征在于:在步骤1)中,所述事件日志是由案例组成,所述案例是由事件组成,案例中的事件用轨迹的形式来表示,事件有很多属性,用活动表示事件,所述集合定义如下:a、直接跟随活动是指在事件日志的一条轨迹中,满足活动b紧紧跟随在活动a之后,记作<a,b>,日志直接跟随活动关系集合为日志中每一条轨迹的直接跟随活动的合集,记作dfrSetLog;b、每一条轨迹的开始点构成开始点集合,日志的开始点集合记作StartSet;c、每一条轨迹的结束点构成结束点集合,日志的结束点集合记作EndSet。3.根据权利要求1所述的业务过程事件日志采样方法,其特征在于:在步骤3)中,若选择完全遍历采样法,则从事件日志的第一条轨迹开始依次遍历,当轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;若选择集合覆盖采样法,则遍历日志中所有轨迹,选择轨迹直接跟随活动关系集合与日志直接跟随活动关系集合拥有最大交集的轨迹,在满足轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集的条件下将此条轨迹加入样本日志中,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历;若选择基于轨迹长度的采样方法,其中所述轨迹长度是指轨迹所包含的活动的个数,首先统计事件日志中所有轨迹长度并进行降序排序,其次从长度最长轨迹开始依次遍历,当轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍
历;若选择基于轨迹频次的采样方法,其中所述轨迹频次是指在事件日志的轨迹遍历中轨迹是第几次出现,首先统计事件日志轨迹频次并进行去重操作,所述去重操作是指只保留相同轨迹中有最大频次的轨迹,最后按照轨迹频次进行降序排序,从轨迹频次最大的轨迹开始依次遍历,轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集至少有一个不为空集时,将此条轨迹加入样本日志,同时删除日志直接跟随关系集合中日志直接跟随活动关系集合与轨迹直接跟随活动关系集合交集、开始点集合中开始点与开始点集合交集、结束点集合中轨迹结束点与结束点集合交集,直到日志直接跟随关系集合、开始点集合、结束点集合均为空集时停止轨迹遍历。4.业务过程事件日志采样系统,其特征在于,包含事件日志数据获取模块、轨迹集合交集判断模块、事件日志采样选择模块、样本日志轨迹选择模块;所述事件日志数据获取模块用于获取日志直接跟随活动关系集合、开始点集合和结束点集合;所述轨迹集合交集判断模块用于判断轨迹开始点与开始点集合交集、轨迹结束点与结束点集合交集、轨迹直接跟随活动关系集合与日志直接跟随活动关系集合交集是否都为空集;所述事件日志采样选择模块用于从完全遍历采样法、集合覆盖采样法、基于轨迹长度的采样方法、基于轨迹频次的采样方法这四种事件日志采样方法中选择一种,或直接结束对事件日志的轨迹遍历,输出样本日志;所述样本日志轨迹选择模...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。