一种基于循环神经网络的流程预测方法技术

技术编号:39000232 阅读:7 留言:0更新日期:2023-10-07 10:32
本发明专利技术公开了一种基于循环神经网络的流程预测方法,包括以下步骤:S1、全量采集企业的历史流程日志,并对采集到的企业历史流程日志进行排序;S2、对排序后的企业历史流程日志中的每行日志数据进行编码处理,并将得到的数据划分为训练集和测试集;S3、构造基于循环神经网络的Selective Bi

【技术实现步骤摘要】
一种基于循环神经网络的流程预测方法


[0001]本专利技术涉及自动化流程监测的
,尤其是指一种基于循环神经网络的流程预测方法。

技术介绍

[0002]近年来,随着海量企业日志的产生以及流程挖掘技术的进步使得从历史数据训练数学模型并对未来实例的各种特征进行准确估计成为可能。在特定的上下文中,预测监控是根据有关完整流程实例的记录信息预测部分流程实例特征的任务。部分流程实例特征包括流程要执行的下一个活动、该活动与下个一个活动的耗时、整个流程实例的完成时间以及案例中的最后一个活动的结果。如果准确估计,这些案例特征可以指导流程所有者做出重要决策,并改善托管流程的组织内部的运营。因此,准确的预测监控技术广受欢迎。
[0003]早期的预测模型侧重于使用机器学习模型从统计数据中得出预测。例如,使用一系列统计指标来预测下一个病例是否会超时;使用序列模式树来预测完成时间和下一个活动;使用决策树来预测患者是否会恢复与否;结合随机森林和逻辑回归对结构化和非结构化属性进行评分;使用SVR模型来预测运行案例的剩余时间。需要强调的是,这些模型的弱点之一是它们假设了一个静态过程,也就是说其中用于训练的事件日志没有数据上的突变。与之相悖的是,这种假设通常不适用于现实生活中的情况。
[0004]现如今,基于循环神经网络的流程预测模型已经成为了在时序任务上不可忽视的模型,例如机器翻译、语音识别、出租车需求预测都出现了它们的身影。但由于流程预测任务的输入往往采用了一种独特的编码方式,即将固有属性列和扩展属性列编码成一个固定长度的向量,现有模型没有考虑扩展变量中不同属性之间的相互作用,这会给流程预测的准确性带来极大的挑战。

技术实现思路

[0005]本专利技术目的在于克服现有技术的不足,提出了一种基于循环神经网络的流程预测方法,消除流程预测任务中独特的编码方式所引发的低预测准确度的影响。
[0006]为实现上述目的,本专利技术所提供的技术方案如下:一种基于循环神经网络的流程预测方法,包括以下步骤:
[0007]S1、全量采集企业的历史流程日志,并对采集到的企业历史流程日志进行排序;
[0008]S2、对排序后的企业历史流程日志中的每行日志数据进行编码处理,并将得到的数据划分为训练集和测试集;
[0009]S3、构造基于循环神经网络的Selective Bi

LSTM流程预测网络,将训练集输入到Selective Bi

LSTM流程预测网络中,得到训练后的流程预测模型;
[0010]S4、使用步骤S2得到的测试集对训练后的流程预测模型进行测试,并调整训练参数,得到优化后的流程预测模型;
[0011]S5、将实时采集的流程日志数据输入到步骤S4中得到的优化后的流程预测模型
中,对流程日志进行实时的流程预测。
[0012]进一步,所述步骤S1包括以下步骤:
[0013]设定为采集的流程日志,所述中包括CaseID、TimeStamp和Activity三列数据,设定为Activity的集合,为TimeStamp的集合,为其它属性列,l为每行日志数据,因此l=(α,τ,d1,d2,

,d
n
),其中α为的子集,τ为的子集,d
i
为的子集,且1≤i≤b;再对采集到的企业历史流程日志按照从小到大进行排序。
[0014]进一步,所述步骤S2包括以下步骤:
[0015]对每行日志数据l中的α字段编码为一个独热向量,设定为独热向量,的维度为活动的个数,即
[0016]对每行日志数据l中的τ编码为一个6维向量
[0017]对每行日志数据l中其他类别属性列编码为独热向量;
[0018]对每行日志数据l中其他数值属性列编码作min

max归一化处理;
[0019]最后将上述得到的数据的70%作为训练集,30%作为测试集。
[0020]进一步,所述对每行日志数据l中的τ编码为一个6维向量包括以下步骤:
[0021]设定τ1为当前α与前一个α的时间差,τ2为当前α对应CaseID的第一个α的时间差,τ3为当前α与中第一个α的时间差,τ4为当前α与当天00:00的时间差,τ5为当前α与上一个周末00:00的时间差,τ6为当前α与上一年年底00:00之间的时间差,最后将这6个时间纬度作min

max归一化处理。
[0022]进一步,对每行日志数据l中其他类别属性列编码为独热向量,包括以下步骤:
[0023]设定类别属性列d
i
的索引字典为d
i

{1,

,|d
i
|},其中每个索引对应一个独一无二的属性名称,索引字典的尺寸和独热向量编码的长度一致都为|d
i
|,将当前的行l中的d
i
属性列中的值与d
i

{1,

,|d
i
|}作对比,获取与字典中值一致的索引ξ,则d
i
的独热向量编码的第ξ个位置的值为1,其余都为0。
[0024]进一步,所述步骤S3包括以下步骤:
[0025]所述Selective Bi

LSTM流程预测网络包括选择元素层和选择事件层,设定输入数据为将输入数据输入到编码器中,选择元素层重新校准编码器中各个输出h
i
中前向传输输出和后向传输输出的比例,设定校准后选择元素层输出为h=(h1,h2,

,h
t
);将h和t

1时刻隐藏单元的输出h

t
‑1输入到选择事件层中,选择事件层将捕获到的依赖关系重新映射到h中各个输出单元中;设定映射后的选择事件层输出为解码器会根据h

t
‑1、以及t

1时刻的预测y
t
‑1做出t时刻的预测。
[0026]进一步,所述选择元素层重新校准编码器中各个输出h
i
中前向传输输出和后向传
输输出的比例,包括以下步骤:
[0027]S6.11、设定编码器第i个输出h
i
中重新校准前的前向传输输出和后向传输输出分别为和首先通过元素求和的方式整合和到融合特征μ的第i个元素μ
i
中,μ
i
的计算表达式为:
[0028]S6.12、使用具有激活函数的全连接层计算得到μ的一个长度为d收缩特征k,其计算表达式为:
[0029]S6.13、使用Softmax函数自适应的重新校准和在h
i
中的响应,而和的校准权重是由收缩特征k的第i个元素k
i
来引导的,其计算表达式如下:
[0030][0031]其中,A
i
为的sof本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于循环神经网络的流程预测方法,其特征在于,包括以下步骤:S1、全量采集企业的历史流程日志,并对采集到的企业历史流程日志进行排序;S2、对排序后的企业历史流程日志中的每行日志数据进行编码处理,并将得到的数据划分为训练集和测试集;S3、构造基于循环神经网络的Selective Bi

LSTM流程预测网络,将训练集输入到Selective Bi

LSTM流程预测网络中,得到训练后的流程预测模型;S4、使用步骤S2得到的测试集对训练后的流程预测模型进行测试,并调整训练参数,得到优化后的流程预测模型;S5、将实时采集的流程日志数据输入到步骤S4中得到的优化后的流程预测模型中,对流程日志进行实时的流程预测。2.根据权利要求1所述的一种基于循环神经网络的流程预测方法,其特征在于,所述步骤S1包括以下步骤:设定为采集的流程日志,所述中包括CaseID、TimeStamp和Activity三列数据,设定为Activity的集合,为TimeStamp的集合,为其它属性列,l为每行日志数据,因此其中α为的子集,为的子集,d
i
为的子集,且1≤i≤n;再对采集到的企业历史流程日志按照从小到大进行排序。3.根据权利要求1所述的一种基于循环神经网络的流程预测方法,其特征在于,所述步骤S2包括以下步骤:对每行日志数据l中的α字段编码为一个独热向量,设定为独热向量,的维度为活动的个数,即对每行日志数据l中的编码为一个6维向量对每行日志数据l中其他类别属性列编码为独热向量;对每行日志数据l中其他数值属性列编码作min

max归一化处理;最后将上述得到的数据的70%作为训练集,30%作为测试集。4.根据权利要求3所述的一种基于循环神经网络的流程预测方法,其特征在于,所述对每行日志数据l中的编码为一个6维向量包括以下步骤:设定为当前α与前一个α的时间差,为当前α对应CaseID的第一个α的时间差,为当前α与中第一个α的时间差,为当前α与当天00:00的时间差,为当前α与上一个周末00:00的时间差,为当前α与上一年年底00:00之间的时间差,最后将这6个时间纬度作min

max归一化处理。5.根据权利要求3所述的一种基于循环神经网络的流程预测方法,其特征在于,对每行日志数据l中其他类别属性列编码为独热向量,包括以下步骤:设定类别属性列d
i
的索引字典为d
i

{1,

,|d
i
|},其中每个索引对应一个独一无二的属性名称,索引字典的尺寸和独热向量编码的长度一致都为|d
i
|,将当前的行l中的d
i
属性
列中的值与d
i

{1,

,|d
i
|}作对比,获取与字典中值一致的索引ξ,则d
i
的独热向量编码的第ξ个位置的值为1,其余都为0。6.根据权利要求1所述的一种基于循环神经网络的流程预测方法,其特征在于,所述步骤S3包括以下步骤:所述Selective Bi

LSTM流程预测网络包括选择元素层和选择事件层,设定输入数据为将输入数据输入到编码器中,选择元素层重新校准编码器中各个输出h
i
中前向传输输出和后向传输输出的比例,设定校准后选择元素层输出为h=(h1,h2,

,h
t
);将h和t

1时刻隐藏单元的输出h

t
‑1输入到选...

【专利技术属性】
技术研发人员:白杰陈志强梅珂胡兵
申请(专利权)人:北京杰成合力科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1