一种多并发三角形2度循环的过程模型挖掘方法技术

技术编号:19745474 阅读:36 留言:0更新日期:2018-12-12 04:47
本发明专利技术提供了一种多并发三角形2度循环的过程模型挖掘方法,首先,根据三角形2度循环的定义提出三角形2度循环并发块的概念,并且依据数量特征将活动分为主体活动和回调活动,然后,依据活动首次在迹中首次出现的位置,采用剪枝的思想将不正确的活动匹配删除,从而得到正确的活动匹配。该方法实现简单,易于操作,对日志完备性依赖程度低,准确性高,不会挖掘出日志中不存在的关系。经过实验分析,验证了本文算法能够正确有效的挖掘多并发三角形2度循环,并且该方法得到的模型有着更高的精确度和拟合度。

【技术实现步骤摘要】
一种多并发三角形2度循环的过程模型挖掘方法
本专利技术涉及多并发三角形2度循环过程模型挖掘领域,具体涉及一种多并发三角形2度循环的过程模型挖掘方法。
技术介绍
随着计算机、互联网的发展,越来越多的企业采用信息系统处理业务,这些信息系统会产生大量的日志文件。过程挖掘作为一门新兴学科,旨在从这些日志文件中提取有价值的过程相关信息。过程挖掘主要有过程发现(ProcessDiscovery)、合规性检查(ProcessConformance)和过程改进(ProcessEnhancement)三个方面的应用。过程发现是过程挖掘中最富有挑战性的任务之一。通常,过程发现就是使用不包括任何先验信息的事件日志生成模型的过程。在得到模型后,一般采用拟合度、精确度、简化度和泛化度这四个标准评价过程模型。拟合度表示日志中的迹在模型中重演的能力;精确度表示模型重演日志的能力;简化度表示模型的复杂程度;泛化度表示模型允许未来行为的能力。拟合度和精确度是判断过程模型最重要的两个标准。不同背景下,针对过程发现中出现的不同问题,国内外学者提出了诸多过程发现的算法。文献:WilVDA,WeijtersT,MarusterL.Workflowmining:discoveringprocessmodelsfromeventlogs.IEEETransactionsonKnowledge&DataEngineering[J],2004,16(9):1128-1142,提出的Alpha算法,该算法根据活动的次序判断活动之间的关系,但是该算法无法挖掘短循环(只含有一个活动或者两个活动组成的循环)。文献:WENLijie,VANDERAALSTWMP,WANGJianmin,etal.Miningprocessmodelswithnon-free-choiceconstructs[J].DataMingingandKnowledgeDiscoverry,2007,15(2):145-180,提出Alpha++算法,解决了非自由选择结构的问题。文献:WeijtersAJMM,DongenBFV,MedeirosAKA.ProcessMining:Extendingthe–algorithmtoMineShortLoops[C].SpringerBerlinHeidelberg,2004:151-165,提出Alpha+算法来挖掘短循环(循环中活动少于三个),但是要求日志是完全完备的。然而,当日志只满足局部完备性,并且不含有明显的“aba”等循环显式行为时,Alpha及其扩展算法均不能挖掘出正确的模型。文献:WeijtersAJMM,AalstWMP,MedeirosAKA.ProcessMingingwiththeHeuristicsMinerAlgorithm[J].EindhovenUniversityofTechnology,2006:1-34,提出启发式过程挖掘算法,该算法根据依赖关系重演日志,算法在不完备的、有噪声的日志处理上有很大优势,但是对于短循环处理能力一般。文献:MedeirosAKAD,WeijtersAJMM,AalstWMPVD.Geneticprocessmining:anexperimentalevaluation[M].DataMining&KnowledgeDiscovery,2007,14(2):245-304,将遗传算法思想用于过程挖掘,该方法有着良好的并行能力,日志处理速度快,但是当短循环隐藏在规模很大的模型中时,效率并不是很高。文献:J.M.E.M.vanderWerf,DongenBFV,HurkenCAJ,etal.ProcessDiscoveryUsingIntegerLinearProgramming[J].FundamentaInformaticae,2008,94(3):368-387,提出ILP算法(整数线性规划算法),该算法一定程度上能解决短循环挖掘问题,但是对日志完备性要求较高。文献:林雷蕾,周华,代飞,等.一种挖掘二度循环的扩展Alpha算法[J].计算机集成制造系统,2018,24(03):591-601,创新性地将2度循环划分为三角形2度循环和菱形2度循环,并提出紧邻度模型解决无循环显式行为时的2度短循环挖掘。紧邻度模型在一定程度上能够解决该问题。但是紧邻度模型是依据相关性计算的概率模型,依赖于大量日志。当日志量比较少或者三角形2度循环中的活动紧邻行为较少时,识别三角形2度循环存在一定局限性,即对于多个三角形2度循环并发时,匹配三角形2度循环中的活动很容易出现偏差。
技术实现思路
针对现有的多并发三角形2度循环在挖掘时,存在挖掘的结果模型很容易与原模型出现偏差的问题,本专利技术的目的都是提供了一种多并发三角形2度循环的过程模型挖掘方法。本专利技术采用以下的技术方案:一种多并发三角形2度循环的过程模型挖掘方法,包括以下步骤:步骤1:根据三角形2度循环的定义提出三角形2度循环并发块,依据数量特征将活动分为主体活动和回调活动;定义三角形2度循环,用Δ>L或<ΔL表示;设N=(P,T;F,M)是一个Petri网模型,a,b是N中的两个变迁,aΔ>Lb或b<ΔLa当且仅当:(1)(2)假设M1∈R(M0),使得M1[a>M2,且不存在M1[σ>M2,其中σ为发生序列,则仅存在M2[b>M1,若M2非最终标识且存在M2[x>M3,其中x∈T,a≠x≠b;设活动ai,bi构成三角形2度循环,满足aiΔ>Lbi或bi<Δiai,ai为主体活动,bi为回调活动,称所有主体活动构成的集合和所有回调活动的集合分别为主体活动集合和回调活动集合,其形式化定义如下:定义主体活动集合和回调活动集合设BoL为主体活动集合,CL为回调活动集合,其中:(1)(2)定义三角形2度循环并发块设二元组(a1,b1),(a2,b2),……,(an,bn)中的活动均满足aiΔ>Lbi,当n个三角形2度循环并发时,存在唯一的变迁x和y,满足:(1)x=●(●a1)∩●(●a2)∩……∩●(●an);(2)y=(a1●)●∩(●a2●)●∩……∩(an●)●;称x,y与n个并发的三角形2度循环组成的结构为三角形2度循环并发块,其中hΔ=x为块首活动,tΔ=y为块尾活动;迹中连续发生的两个活动构成直接跟随关系,利用直接跟随关系能判断并发关系、因果关系,直接跟随集合的定义如下:定义直接跟随集合直接跟随集合DL中的元素是迹中所有构成>L关系的活动组成的二元组,即构成循环结构的活动会在日志中多次出现,活动的次数关系是判断循环的一个重要参考,下面给出活动出现次数的定义:定义活动出现次数设日志L,迹σ∈L,活动a∈σ,sum(a,σ)表示活动在迹中的出现次数,sum(a,L)表示活动在日志中出现的总次数;算法1主体活动和回调活动的分类算法输入:满足局部完备性的日志L;输出:主体活动集合BoL和回调活动集合CL;步骤(1):创建来统计活动次数的一维数组LTM,创建直接跟随本文档来自技高网
...

【技术保护点】
1.一种多并发三角形2度循环的过程模型挖掘方法,其特征在于,包括以下步骤:步骤1:根据三角形2度循环的定义提出三角形2度循环并发块,依据数量特征将活动分为主体活动和回调活动;定义三角形2度循环,用Δ>L或

【技术特征摘要】
1.一种多并发三角形2度循环的过程模型挖掘方法,其特征在于,包括以下步骤:步骤1:根据三角形2度循环的定义提出三角形2度循环并发块,依据数量特征将活动分为主体活动和回调活动;定义三角形2度循环,用Δ>L或<ΔL表示;设N=(P,T;F,M)是一个Petri网模型,a,b是N中的两个变迁,aΔ>Lb或b<ΔLa当且仅当:(1)(2)假设M1∈R(M0),使得M1[a>M2,且不存在M1[σ>M2,其中σ为发生序列,则仅存在M2[b>M1,若M2非最终标识且存在M2[x>M3,其中x∈T,a≠x≠b;设活动ai,bi构成三角形2度循环,满足aiΔ>Lbi或bi<Δiai,ai为主体活动,bi为回调活动,称所有主体活动构成的集合和所有回调活动的集合分别为主体活动集合和回调活动集合,其形式化定义如下:定义主体活动集合和回调活动集合设BoL为主体活动集合,CL为回调活动集合,其中:(1)(2)定义三角形2度循环并发块设二元组(a1,b1),(a2,b2),……,(an,bn)中的活动均满足aiΔ>Lbi,当n个三角形2度循环并发时,存在唯一的变迁x和y,满足:(1)x=●(●a1)∩●(●a2)∩……∩●(●an);(2)y=(a1●)●∩(●a2●)●∩……∩(an●)●;称x,y与n个并发的三角形2度循环组成的结构为三角形2度循环并发块,其中hΔ=x为块首活动,tΔ=y为块尾活动;迹中连续发生的两个活动构成直接跟随关系,利用直接跟随关系能判断并发关系、因果关系,直接跟随集合的定义如下:定义直接跟随集合直接跟随集合DL中的元素是迹中所有构成>L关系的活动组成的二元组,即构成循环结构的活动会在日志中多次出现,活动的次数关系是判断循环的一个重要参考,下面给出活动出现次数的定义:定义活动出现次数设日志L,迹σ∈L,活动a∈σ,sum(a,σ)表示活动在迹中的出现次数,sum(a,L)表示活动在日志中出现的总次数;算法1主体活动和回调活动的分类算法输入:满足局部完备性的日志L;输出:主体活动集合BoL和回调活动集合CL;步骤(1):创建来统计活动次数的一维数组LTM,创建直接跟随集合DL,主体活动集合BoL,回调活动集合CL以及三角形2度循环并发块块首活动hΔ并进行初始化;步骤(2):遍历日志L,将起始活动放入开始活动集合TI,将结束活动放入结束活动集合To,将所有活动放入活动集合TL,并且将连续出现的活动组成二元组,将二元组放入直接跟随集合DL中;步骤(3):遍历日志L,统计活动集合TL中活动出现的次数,将次数放入一维数组LTM对应的位置;步骤(4):遍历一维数组LTM,如果数组中两元素之差大于0,并且两元素对应的活动在日志中处于并发关系,则遍历日志中的任意一条迹,将...

【专利技术属性】
技术研发人员:杜玉越孙慧明田银花王路亓亮张福新
申请(专利权)人:山东科技大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1