一种基于日志采样的流程实例下一事件预测方法与系统技术方案

技术编号:35567989 阅读:26 留言:0更新日期:2022-11-12 15:51
本发明专利技术公开了一种基于日志采样的流程实例下一事件预测方法与系统,包括:获取数据并预处理以获取标准事件日志;将标准事件日志根据任务需求按照比例划分为训练集、验证集和测试集;将训练集按照轨迹重要性将轨迹进行排序并采样;将采样后的训练集和验证集输入至深度学习网络模型中进行训练与验证;将未经过采样的测试集输入到训练和验证好的模型进行测试,得到下一事件预测任务测试结果;对深度学习网络模型进行参数调整,优化模型。本发明专利技术可实现高效的流程实例下一事件预测,规避流程操作中存在的违规风险,突破当前没有合适的事件日志完成下一事件预测任务的局限性,相较于单纯只利用深度学习模型进行预测,减少了训练量,提高决策效率。高决策效率。高决策效率。

【技术实现步骤摘要】
一种基于日志采样的流程实例下一事件预测方法与系统


[0001]本专利技术涉及流程挖掘的
,尤其是指一种基于日志采样的流程实例下一事件预测方法与系统,可以预测当前正在发生的事件的下一事件并通过日志采样技术提高预测效率。

技术介绍

[0002]业务流程管理包括支持业务流程的设计、管理和分析的方法、技术和工具,其主要任务之一是流程监控,其目标是能够洞察全面的流程。流程监视的目的之一是检测过程执行过程中的意外偏差。进程监视可以是在线或离线,离线流程监控是通过传统的监控方法来实现的,其想法是提供一个包含完整进程实例的数据集作为输入,将发现的意外偏差进行输出。
[0003]预测型流程监控的主要任务有业务流程剩余时间预测和下一事件预测等,下一事件预测其主要目的是为后续发生的事件提前分配合理的资源并防止可能出现的偏差对业务流程造成影响。传统的基于模型的预测方法和基于机器学习的预测方法,如随机Petri网、因果图最短路径、决策树、支持向量机等,在面对大规模数据量时,人工提取输入数据的特征需要花费大量的时间。随着深度学习的广泛应用,研究者舍弃了人工提取特征的方式,使用各种深度学习模型完成预测任务,如长短期记忆网络(Long Short

Term Memory,LSTM)等,其递归架构能够适应任意长度的数据序列,但使用深度学习模型对事件日志进行训练通常需要大量的数据才能达到拟合状态,这是因为大量数据中包含模型学习所需的更多特征信息,但受限于硬件设备限制,上述过程往往会使训练时间过长,使得模型预测效率较低,这并不符合业务流程的动态性要求。
[0004]对事件日志进行采样是一种实例选择过程,目的是在保证数据集质量的前提下,将原始数据减少至可接受范围内,提高过程发现的效率。若通过一个采样方法能够挖掘出日志中轨迹前缀与下一事件间的深层联系,那么可以认为经过采样后的小数据量事件日志能够包含充分的特征信息,使得深度学习算法仅通过部分数据即可快速训练出精度较高的预测模型。因此,为了更好地对业务流程进行全局把控,规避流程操作中存在的违规风险,提高决策效率,需要一种高效的业务流程剩余事件预测方案。

技术实现思路

[0005]本专利技术的第一目的在于克服目前利用深度学习模型预测下一个事件的低效率问题,提供一种基于日志采样的流程实例下一事件预测方法,可实现对业务流程下一事件进行高效预测,迅速并准确的得到当前正在进行事件的下一个最有可能发生的事件,规避业务流程中可能出现的风险。
[0006]本专利技术的第二目的在于提供一种基于日志采样的流程实例下一事件预测系统。
[0007]本专利技术的第一目的通过下述技术方案实现:一种基于日志采样的流程实例下一事件预测方法,包括以下步骤:
[0008]1)获取真实原始事件日志并对其进行预处理,该真实原始事件日志中记录了业务流程所有信息,包含业务流程事件及事件属性,该预处理是针对业务流程下一事件预测需求,保留事件及时间属性,得到标准事件日志;
[0009]2)根据步骤1)中获得的标准事件日志以轨迹为单位按照比例随机划分为训练集、验证集和测试集;
[0010]3)利用步骤2)划分好的训练集,利用LogRank++算法对事件日志按照特定采样率采样,得到采样后的训练集;
[0011]4)将步骤3)获得的采样后训练集和步骤2)划分后未经过采样的验证集输入到深度学习网络模型中进行下一事件预测的训练和验证,得到训练和验证好的深度学习网络模型以及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比;
[0012]5)将步骤2)划分后未经过采样的测试集输入到步骤4)训练和验证好的深度学习网络模型进行测试,得到下一事件预测任务的测试准确率;
[0013]6)根据步骤5)得到的下一事件预测任务的测试准确率及步骤4)得到的采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比和步骤3)设定的采样率来调整训练和验证好的深度学习网络模型的参数,从而优化模型,得到最优的深度学习网络模型,后续将下一事件预测任务输入该最优的深度学习网络模型,即可得到准确的预测结果。
[0014]进一步,在步骤1)中,获取初始数据,即原始事件日志,在获取原始事件日志之后进行预处理,将原始事件日志中不相关属性剔除,只保留与事件预测相关的事件及事件的时间属性,获得用于预测业务流程下一事件的标准事件日志;
[0015]所述事件预测中的事件是事件日志中由全部事件构成的集合,称为事件集ε,每一个事件e的执行用e=(a1,a2,...,a
m
)∈ε表示,其中a
m
表示为事件的第m个属性。
[0016]进一步,在步骤2)中,根据步骤1)获得的预测流程实例下一事件的标准事件日志划分不同的训练集、验证集及测试集,其具体步骤如下:
[0017]2.1)在预测流程实例下一事件的标准事件日志中,设定特定比例的训练集、验证集及测试集;
[0018]2.2)按照步骤2.1)设定的比例,获取标准事件日志的轨迹长度及其数量,计算训练集、验证集及测试集包含的轨迹数量,并以轨迹为单位按轨迹数量进行随机划分;
[0019]2.3)将步骤2.2)按比例划分好的训练集、验证集及测试集分别保存到三个文档中;
[0020]所述轨迹是由n个事件所构成有序序列,包含了事件及其属性信息,代表一次业务流程的完整执行,也称为流程实例。
[0021]进一步,在步骤3)中,将步骤2)获得的训练集按照特定采样率对事件日志进行采样操作,其具体步骤如下:
[0022]3.1)根据步骤2)获得的训练集大小和期望提升的效率,提前设定采样率S,其中采样率越小得到的采样后数据集越小;
[0023]3.2)通过LogRank++算法,计算轨迹中各个事件的重要性以及直接跟随事件关系的重要性;
[0024]通过计算事件日志中包含事件a的轨迹数量求得事件重要性,事件重要性的公式
为:
[0025][0026]式中,a为事件,L为事件日志,|L|为事件日志包含轨迹数,sig(a)为事件a的重要性,σ
i
表示事件日志L中的第i条轨迹;
[0027]通过计算包含直接跟随事件关系<a,b>的轨迹数量计算直接跟随事件关系的重要性,直接跟随事件关系的重要性公式为:
[0028][0029]式中,a、b为事件,<a,b>为直接跟随事件关系,sig(a,b)为直接跟随事件关系的重要性;
[0030]3.3)根据步骤3.2)得到的各个事件的重要性及直接跟随事件关系的重要性,得到事件日志中每条轨迹的重要性,计算轨迹重要性的公式如下:
[0031][0032]式中,sig(σ)为轨迹重要性,sig(σ)的数值越大代表轨迹越重要;
[0033]3.4)根据步骤3.3)计算所得的轨迹重要性,对训练集中所有轨迹按轨迹重要性从高到低本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于日志采样的流程实例下一事件预测方法,其特征在于,包括以下步骤:1)获取真实原始事件日志并对其进行预处理,该真实原始事件日志中记录了业务流程所有信息,包含业务流程事件及事件属性,该预处理是针对业务流程下一事件预测需求,保留事件及时间属性,得到标准事件日志;2)根据步骤1)中获得的标准事件日志以轨迹为单位按照比例随机划分为训练集、验证集和测试集;3)利用步骤2)划分好的训练集,利用LogRank++算法对事件日志按照特定采样率采样,得到采样后的训练集;4)将步骤3)获得的采样后训练集和步骤2)划分后未经过采样的验证集输入到深度学习网络模型中进行下一事件预测的训练和验证,得到训练和验证好的深度学习网络模型以及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比;5)将步骤2)划分后未经过采样的测试集输入到步骤4)训练和验证好的深度学习网络模型进行测试,得到下一事件预测任务的测试准确率;6)根据步骤5)得到的下一事件预测任务的测试准确率及步骤4)得到的采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比和步骤3)设定的采样率来调整训练和验证好的深度学习网络模型的参数,从而优化模型,得到最优的深度学习网络模型,后续将下一事件预测任务输入该最优的深度学习网络模型,即可得到准确的预测结果。2.根据权利要求1所述的一种基于日志采样的流程实例下一事件预测方法,其特征在于,在步骤1)中,获取初始数据,即原始事件日志,在获取原始事件日志之后进行预处理,将原始事件日志中不相关属性剔除,只保留与事件预测相关的事件及事件的时间属性,获得用于预测业务流程下一事件的标准事件日志;所述事件预测中的事件是事件日志中由全部事件构成的集合,称为事件集ε,每一个事件e的执行用e=(a1,a2,...,a
m
)∈ε表示,其中a
m
表示为事件的第m个属性。3.根据权利要求2所述的一种基于日志采样的流程实例下一事件预测方法,其特征在于,在步骤2)中,根据步骤1)获得的预测流程实例下一事件的标准事件日志划分不同的训练集、验证集及测试集,其具体步骤如下:2.1)在预测流程实例下一事件的标准事件日志中,设定特定比例的训练集、验证集及测试集;2.2)按照步骤2.1)设定的比例,获取标准事件日志的轨迹长度及其数量,计算训练集、验证集及测试集包含的轨迹数量,并以轨迹为单位按轨迹数量进行随机划分;2.3)将步骤2.2)按比例划分好的训练集、验证集及测试集分别保存到三个文档中;所述轨迹是由n个事件所构成有序序列,包含了事件及其属性信息,代表一次业务流程的完整执行,也称为流程实例。4.根据权利要求3所述的一种基于日志采样的流程实例下一事件预测方法,其特征在于,在步骤3)中,将步骤2)获得的训练集按照特定采样率对事件日志进行采样操作,其具体步骤如下:3.1)根据步骤2)获得的训练集大小和期望提升的效率,提前设定采样率S,其中采样率越小得到的采样后数据集越小;
3.2)通过LogRank++算法,计算轨迹中各个事件的重要性以及直接跟随事件关系的重要性;通过计算事件日志中包含事件a的轨迹数量求得事件重要性,事件重要性的公式为:式中,a为事件,L为事件日志,|L|为事件日志包含轨迹数,sig(a)为事件a的重要性,σ
i
表示事件日志L中的第i条轨迹;通过计算包含直接跟随事件关系<a,b>的轨迹数量计算直接跟随事件关系的重要性,直接跟随事件关系的重要性公式为:式中,a、b为事件,<a,b>为直接跟随事件关系,sig(a,b)为直接跟随事件关系的重要性;3.3)根据步骤3.2)得到的各个事件的重要性及直接跟随事件关系的重要性,得到事件日志中每条轨迹的重要性,计算轨迹重要性的公式如下:式中,sig(σ)为轨迹重要性,sig(σ)的数值越大代表轨迹越重要;3.4)根据步骤3.3)计算所得的轨迹重要性,对训练集中所有轨迹按轨迹重要性从高到低排序,并按照步骤3.1)设定的采样率S选取训练集前S条轨迹,得到采样后的训练集。5.根据权利要求4所述的一种基于日志采样的流程实例下一事件预测方法,其特征在于,在步骤4)中,根据步骤3)获得的采样后训练集和步骤2)划分后的验证集输入到深度学习网络模型中进行训练,其具体步骤如下:4.1)将步骤3)获得的采样后训练集的事件日志进行轨迹前缀的提取和拷贝,并将轨迹前缀输入深度学习网络模型中特征提取阶段进行特征提取,得到轨迹的特征及事件信息;4.2)根据步骤4.1)获得的采样后训练集的事件日志的特征信息,对轨迹前缀进行下一事件预测,并计算准确率acc;其中,预测下一事件的结果有四种不同类型,分别为真阳性TP、假阳性FP、真阴性TN、假阴性FN,选定准确率acc作为衡量算法评价指标,其计算方式如下:通过计算轨迹前缀下一事件预测结果在验证集中的准确率acc,能够反映出预测结果的准确性,acc越大,说明下一事件预测结果越准确;4.3)计算深度学习网络模型的交叉熵损失和根据步骤4.2)获得的轨迹前缀下一事件预测的准确率,通过验证集进行交叉验证,提高预测准确率,得到训练和验证好的深度学习网络模型;其中,所述轨迹前缀是代表一条轨迹前k个有序事件序列,表示为σ(k)=<e1,
e2,...,e
k
,...,e
n
>,k∈[1,n),e
k
为轨迹中第k个事件;所述交叉熵是能够衡量下一事件预测概率分布与真实值概率分布的差异程度,能够表示预测效果,交叉熵的数值越小表示模型的效果越好;评价流程实例下一事件预测方法的优劣不仅需要评估其预测的准确性,还需要从时间花费角度进行分析;为评估预测效率,设定采样后的训练、验证时间和事件日志采样时间与采样前训练、验证时间之比R作为评估时间性能的指标;设原始数据集中未经采样训练和验证耗时为T
P
,采样阶段耗时为T
S
,在采样后的数据集中训练和验证耗时为T

P
,T
ALL
为每次训练、验证和采样的平均总耗时,为减少模型训练、验证和采样时带来的误差,取5次计算平均数,其计算方式为:式中,j为采样和训练、验证模型的次数;评估...

【专利技术属性】
技术研发人员:刘聪董乐乐陆婷李会玲郭娜任崇广
申请(专利权)人:山东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1