一种基于依赖关联度去噪的分层多实例工作流建模方法技术

技术编号:38642004 阅读:29 留言:0更新日期:2023-08-31 18:34
本发明专利技术涉及智能服务技术领域,具体涉及一种基于依赖关联度去噪的分层多实例工作流建模方法,具体实现方法分为三个步骤:首先,计算事件日志中事件的局部关联度和整体关联度,并将其进行融合得到混合关联度;其次,根据混合关联度设定噪声阈值,对事件日志进行去噪处理,最后得到去噪日志;最后,对去噪日志进行任务嵌套关系的识别并得到嵌套关系树,然后对事件日志进行分层构造并识别其中的多实例子日志,采用IM算法对其进行模型挖掘,最终得到工作流模型,并通过实验验证该方法的有效性。确保数据去噪的精度和有效性;采用噪声阈值的方式进行去噪处理,优化了多实例子日志中的各个事件之间的关系,提高了工作流模型的准确性和可靠性。可靠性。可靠性。

【技术实现步骤摘要】
一种基于依赖关联度去噪的分层多实例工作流建模方法


[0001]本专利技术涉及智能服务
,具体涉及一种基于依赖关联度去噪的分层多实例工作流建模方法。

技术介绍

[0002]在工作流模型的实际运行过程中,必然会记录错误的或流程执行异常时产生的数据,这些数据统一称为噪声。而流程挖掘技术是基于事件日志数据提取其中与流程相关的信息进而发现流程模型的方法。若直接对含有噪声的事件日志进行建模,噪声数据不仅会使建模结果的复杂度增高,同时也会降低模型的精确度。在现有的流程挖掘技术中,存在以下问题:
[0003]噪声数据处理不足:在处理噪声数据时,通常会将带有噪声数据的整条轨迹进行去除,导致部分正确的数据被丢失,同时也会影响模型的精度。现有的方法在处理噪声时常常只是简单地去除整条轨迹,无法有效保留其他正确数据。
[0004]对多实例子日志的建模效果不佳:现有的流程挖掘算法中,IM算法是处理多实例子日志的最佳方法,但是其在拟合度和精确度的平衡上及噪声过滤上仍有欠缺。
[0005]算法复杂度较高:一些流程挖掘算法具有较高的时间和空间复杂度本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于依赖关联度去噪的分层多实例工作流建模方法,其特征在于,包括以下步骤:S1:计算事件日志中事件的局部关联度和整体关联度,再将其进行融合得到混合关联度;S2:针对步骤S1所得混合关联度设定噪声阈值,对事件日志进行去噪处理,最后得到去噪日志;S3:针对步骤S2所得去噪日志进行任务嵌套关系的识别并得到嵌套关系树,然后对事件日志进行分层构造并识别其中的多实例子日志;对识别后的事件日志采用IM算法对其进行模型挖掘,最终得到工作流模型,并通过实验验证该方法的有效性。2.如权利要求1所述的一种基于依赖关联度去噪的分层多实例工作流建模方法,其特征在于:所述步骤S2中去噪处理具体包括局部关联度计算、整体关联度计算以及混合关联度计算三个步骤,并在得到混合关联度后对事件日志进行阈值去噪。3.如权利要求2所述的一种基于依赖关联度去噪的分层多实例工作流建模方法,其特征在于:所述局部关联度计算主要思路是通过两个事件之间的发生频率和依赖关系的发生频率来判断依赖关系内部的紧密程度;假设附图2所示模型执行所产生的事件日志为W,其包含的事件为W={A,B,C,D,E},事件B在事件A执行后执行,则事件A与事件B在事件日志W中的依赖关系表示为A>
W
B;因此,可得到附图3所示模型对应的依赖频次表为
ο
W;在依赖频次表中,每行数值之和为该行表头事件作为前驱事件的频次和,每列数值之和为该列表头事件作为后继事件的频次和;通过这两个频次和的数值可以计算该事件的前驱密度和后继密度,前驱密度ρ
·
C
和后继密度ρ
C
·
计算公式为:前驱密度:后继密度:其中,Sum
·
C
和Sum
C
·
分别表示事件C所在行的数值之和,以及所在列的数值之和,
ο
W
·
C

ο
W
C
·
为事件C作为前驱事件及后继事件的依赖关系种类数;在得到前驱密度和后继密度后,通过依赖频次表可计算得到该日志中两事件的局部关联程度,即局部关联度;在频次依赖表οW中,依赖关系A>
W
B的局部关联度γW
AB
的计算公式为:在模型正常执行条件下,任一事件的执行频次值应与其前驱密度和后继密度值差异较小;因此,在式3中,如果|οW
AB
|<ρ
A
·
,则说明对于事件A来说,依赖关系A>
W
B,依赖关系A>
W
B为不频繁行为,则在局部范围内可将其判定为噪声;同理,如果|οW
AB
|<ρ
·
B
,则表示对事件B来说,依赖关系A>
W
B中为不频繁行为;由此,若说明依赖关系A>
W
B在局部相关性中,事件A和事件B的关联性不强,判定其可能为噪声数据。4.如权利要求2所述的一种基于依赖关联度去噪的分层多实例工作流建模方法,其特
征在于:所述整体关联度计算的主要思想是:通过计算依赖关系在整个日志集合中所占的比例,来判定低频数据在整体范围内是否属于噪声数据;由于在工作流模型执行过程中,噪声数据相对于其他正确行为数据发生的频率较低,因此,在频次依赖表中,噪声行为的发生频次会明显低于其他正常行为的发生频次;据此,假设流程模型中所有行为的发生概率是相同的,则轨迹中的依赖关系发生的频次符合正态分布;因此,依赖关系的频次阈值t应该满足式4:t= argmax (F(X=x)<ε),x∈U (4)式中,U表示日志中依赖关系的频次集合,ε为噪声因子,一般值为0.2,F为x的分布函数;所以,在整体范围内只要出现次数少于t次的依赖关系,则会被判定为噪声数据;对应到依赖关系A>
W
B时,其整体依赖关联度γU
AB
...

【专利技术属性】
技术研发人员:廖伟智程月铃阴艳超武晓东徐宁波包壁祯
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1