一种基于轨迹重演的业务流程剩余活动序列预测方法技术

技术编号:30428785 阅读:15 留言:0更新日期:2021-10-24 17:17
本发明专利技术公开了一种基于轨迹重演的业务流程剩余活动序列预测方法。该方法首先使用轨迹重演技术模拟流程轨迹在真实环境中的执行情况,并基于提取的执行上下文信息从历史事件日志中选取与当前流程实例执行情况最相似的候选前缀轨迹集合。之后,方法对流程轨迹中每个属性的重要性进行量化,即计算属性权重矩阵。最后,方法基于属性权重矩阵,在候选前缀轨迹集合筛选出综合属性相似度最高的一条前缀轨迹,将其后缀活动序列作为当前轨迹的剩余活动序列。此方法具有预测相似度高、适用性广泛、鲁棒性强等特点,能够有效地解决复杂业务流程的剩余活动序列预测问题,从而为流程管理者提供有效信息来优化流程并且避免流程异常以及资源竞争等。源竞争等。源竞争等。

【技术实现步骤摘要】
一种基于轨迹重演的业务流程剩余活动序列预测方法


[0001]本专利技术涉及业务流程监控领域,尤其涉及一种基于轨迹重演的业务流程剩余活动序列预测方法。

技术介绍

[0002]流程挖掘作为数据挖掘技术在业务流程管理中的应用,通过分析业务流程的事件日志,实现对业务流程的发现、建模、监控和改进。作为流程挖掘子领域之一,预测性业务流程监控基于历史事件日志构建预测模型,从而为在线流程实例提供未来执行信息,其研究旨在优化流程执行以及降低流程违规的风险。本专利技术主要进行业务流程剩余活动序列的预测,即预测业务流程未完成实例的未来执行活动序列,有助于加深参与者对流程执行状态的了解,并且有利于管理者发现流程早期的执行偏差与潜在的资源短缺,并及时采取有效措施。
[0003]然而,目前针对业务流程剩余活动序列预测的研究工作较少,大多数研究基于迭代进行下一活动预测进而实现序列预测,而中间预测偏差会导致整条序列与真实序列不相符。因此研究一种高相似度且符合业务流程实际执行情况的剩余活动序列预测方法意义重大。

技术实现思路

[0004]为了克服上述现有技术的不足,本专利技术提供一种基于轨迹重演的业务流程剩余活动序列预测方法,可有效解决上述问题。本专利技术具体采用的技术方案如下:
[0005]一种基于轨迹重演的业务流程剩余活动序列预测方法,其包括以下步骤:
[0006]S1.输入原始日志文件其中由条流程轨迹σ=<e1,e2,e3,


e|σ|
>组成,每条流程轨迹σ由|σ|个事件e=(caseID,Activity,Resource,startTime,completeTime,attr1,attr2,

attr
N
)组成,其中代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,startTime和completetime分别代表该事件的开始时间和结束时间,attr1,attr2,...attr
N
代表该事件的其余N个属性,日志的活动集合被记为A;
[0007]S2.根据CompleteTime对中的流程轨迹排序后生成训练数据;
[0008]S3.将训练数据中的流程轨迹拆分为前缀轨迹和对应的后缀轨迹,前缀轨迹pt=<e1,e2,...,e
k
>为轨迹σ的前k个事件,而其对应的后缀轨迹st为轨迹σ的后|σ|

k个事件;
[0009]S4.使用过程挖掘算法从训练数据中挖掘Petri网PN;
[0010]S5.使用轨迹重演技术将训练数据中的每个前缀轨迹pt在S4挖掘得到的Petri网上逐个进行轨迹重演得到Petri网中托肯的分布情况,记为执行上下文BehavContext(pt);轨迹重演过程中,遍历pt的每个事件对应的变迁t,判断其是否满足使能条件即其输入集合的库所是否都持有托肯;对于不满足使能条件即没有持有托肯的库所p
i
采用以下方法使其满足托肯要求:首先判断是否有库所p
j
与其存在由隐藏变迁组成的最短路径,如果存在则
触发该条路径上的隐藏变迁,即p
j
中的托肯数目减一,p
i
中的托肯数目加一,如果不存在,则将p
i
中的托肯数目额外加一;
[0011]S6.基于步骤S5得到的执行上下文BehavContext(pt),计算其与训练数据中其他所有前缀轨迹的执行相似度TBS(σ1,σ2),然后从中为其选取TBS(σ1,σ2)最大的候选前缀轨迹集合S
pt
,其计算公式如下所示:
[0012][0013][0014]其中,Eq
ij
表示两条轨迹σ1,σ2在执行第i个活动之后在第j个库所的托肯数量的等价性,BehavContext(σ1)
ij
表示σ1在执行第i个活动之后在第j个库所的托肯数量,BehavContext(σ2)
ij
表示σ2在执行第i个活动之后在第j个库所的托肯数量,|σ1|和|σ2|分别代表轨迹σ1和σ2的事件数;
[0015]S7.对流程轨迹中每个属性的重要性即属性权重进行计算,具体步骤如下:
[0016]S71.首先对流程轨迹的属性进行筛选,删除无关属性后形成新属性集合
[0017]S72.从训练数据中随机选择部分流程轨迹,并将它们的前缀轨迹集合记为S

pt
,对于S

pt
中的每条前缀轨迹,根据以下属性序列相似度计算公式为其从剩余的训练数据中选取条最相似的前缀轨迹记为SimPT
i
,其中属性序列相似度计算公式如下:
[0018][0019]其中和为流程轨迹σ1和σ2中由属性的属性值构成的有序序列,即属性序列;表示经过归一化的和之间的欧式距离,表示和之间的Demerau

Levinstain距离;
[0020]S73.对于每个属性统计S

pt
中所有前缀轨迹的剩余活动序列与SimpT
i
的剩余活动序列之间的相似度CD
i
,从而得到相似度向量根据该相似度向量计算得到最终的属性权重向量W,具体公式如下:
[0021][0022][0023]其中,ActSeq1和ActSeq2代表两条活动序列,DL_Dist(ActSeq1,ActSeq2)表示两条活动序列的Demerau

Levinstain距离,l1和l2分别代表两条活动序列的长度;W是属性权重向量,为新属性集合,为新属性的数量,w
i
表示属性的权重;
[0024]S8.针对待预测的当前流程轨迹,计算其与所述候选前缀轨迹集合S
pt
中的每条流
程轨迹之间基于属性的轨迹相似度TS(σ1,σ2,W),即两者之间所有属性序列相似度的加权和,其计算公式如下:
[0025][0026]S9.经过S8的计算后,筛选出S
pt
中基于属性的轨迹相似度最大的一条流程轨迹,并将其剩余活动序列作为当前流程轨迹的预测剩余活动序列。
[0027]作为优选,所述S4中使用过程挖掘算法从训练数据中挖掘Petri网PN的方法为Inductive Miner算法,其挖掘得到的Petri网表达式如下:
[0028]PN=(P,T,F,A,π,M)
[0029]其中P={p0,p1,...,p
|P|
‑1}为Petri网中的库所集合,|P|表示Petri网中库所的数量,每个库所持有非负数量的托肯,库所p
i
持有的托肯数目被记为β(p
i
);T={t0,t1,...,t
|T|
‑1}为Petri网中的变迁本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于轨迹重演的业务流程剩余活动序列预测方法,其特征在于包括以下步骤:S1.输入原始日志文件其中由条流程轨迹σ=<e1,e2,e3,...,e
|σ|
>组成,每条流程轨迹σ由|σ|个事件e=(CaseID,Activity,Resource,StartTime,CompleteTime,attr1,attr2,...attr
N
)组成,其中CaseID代表事件所属的实例,Activity代表事件执行的活动,Resource代表事件执行所需的资源,StartTime和CompleteTime分别代表该事件的开始时间和结束时间,attr1,attr2,...attr
N
代表该事件的其余N个属性,日志的活动集合被记为A;S2.根据CompleteTime对中的流程轨迹排序后生成训练数据;S3.将训练数据中的流程轨迹拆分为前缀轨迹和对应的后缀轨迹,前缀轨迹pt=<e1,e2,...,e
k
>为轨迹σ的前k个事件,而其对应的后缀轨迹st为轨迹σ的后|σ|

k个事件;S4.使用过程挖掘算法从训练数据中挖掘Petri网PN;S5.使用轨迹重演技术将训练数据中的每个前缀轨迹pt在S4挖掘得到的Petri网上逐个进行轨迹重演得到Petri网中托肯的分布情况,记为执行上下文BehavContext(pt);轨迹重演过程中,遍历pt的每个事件对应的变迁t,判断其是否满足使能条件即其输入集合的库所是否都持有托肯;对于不满足使能条件即没有持有托肯的库所p
i
采用以下方法使其满足托肯要求:首先判断是否有库所p
j
与其存在由隐藏变迁组成的最短路径,如果存在则触发该条路径上的隐藏变迁,即p
j
中的托肯数目减一,p
i
中的托肯数目加一,如果不存在,则将p
i
中的托肯数目额外加一;S6.基于步骤S5得到的执行上下文BehavContext(pt),计算其与训练数据中其他所有前缀轨迹的执行相似度TBS(σ1,σ2),然后从中为其选取TBS(σ1,σ2)最大的候选前缀轨迹集合S
pt
,其计算公式如下所示:所示:其中,Eq
ij
表示两条轨迹σ1,σ2在执行第i个活动之后在第j个库所的托肯数量的等价性,BehavContext(σ1)
ij
表示σ1在执行第i个活动之后在第j个库所的托肯数量,BehavContext(σ2)
ij
表示σ2在执行第i个活动之后在第j个库所的托肯数量,|σ1|和|σ2|分别代表轨迹σ1和σ2的事件数;S7.对流程轨迹中每个属性的重要性即属性权重进行计算,具体步骤如下:S71.首先对流程轨迹的属性进行筛选,删除无关属性后形成新属性集合S72.从训练数据中随机选择部分流程轨迹,并将它们的前缀轨迹集合记为S

pt
,对于S

pt
中的每条前缀轨迹,根据以下属性序列相似度计算公式为其从剩余的训练数据中选取条最相似的前缀轨迹记为SimPT
i
,其中属性序列相似度计算公式如下:
其中和为流程轨迹σ1和σ2中由属性的属性值构成的有序序列,即属性序列;表示经过归一化的和之间的欧式距离,表示和之间的Demerau

Levinstain距离;S73.对于每个属性统计S

pt
中所有前缀轨迹的剩余活动序列与SimpT
i
的剩余活动序列之间的相似度CD
i
,从而得到相似度向量根据该相似度向量计算得到最终的属性权重向量W,具体公式如下:计算得到最终的属性权重向量W,具体公式如下:其中,ActSeq1和ActSeq2代表两条活动序列,DL_Dist(ActSeq1,ActSeq2)表示两条活动序列的Demerau

Levinstain距离,l1和l2分别代表两条活动序列的长度;W是属性权重向量,为新属性集合,为新属性的数量,w
i
表示属性的权重;S8.针对待预测的当前流程轨迹,计算其...

【专利技术属性】
技术研发人员:孙笑笑杨思青应钰柯俞东进
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1