一种面向海量事件日志的流程挖掘方法及装置制造方法及图纸

技术编号:38102273 阅读:6 留言:0更新日期:2023-07-06 09:21
本发明专利技术公开了一种面向海量事件日志的流程挖掘方法及装置,涉及流程挖掘领域,该方法,包括:采用SQL语句以流式方法读取海量事件日志,并进行预处理,得到包括活动列表和活动间路由列表的预处理数据;采用SQL语句一次性读取预处理数据,建立链接得到活动结构和活动间路由结构,以及统计度量数据存储在业务数据属性列表中;采用SQL语句和用户自定义函数对预处理数据的领域属性进行划分和统计,挖掘隐含活动,并由领域属性生成查询条件列表;采用SQL语句一次性读取活动结构、活动间路由结构、业务数据属性列表、隐含活动和查询条件列表,构建流程挖掘模型。本发明专利技术能高效、准确的实现海量事件日志的流程挖掘。量事件日志的流程挖掘。量事件日志的流程挖掘。

【技术实现步骤摘要】
一种面向海量事件日志的流程挖掘方法及装置


[0001]本专利技术涉及流程挖掘领域,特别是涉及一种面向海量事件日志的流程挖掘方法及装置。

技术介绍

[0002]当前流程挖掘技术主要是以通过计算机编程语言构建的流程挖掘算法软件,在计算机设备上执行流程挖掘算法软件来实现流程挖掘操作。计算机编程语言如C语言、C++语言、Java语言、Python语言等,构建的流程挖掘算法软件,以读取日志到计算机设备的内存介质中进行流程挖掘处理,挖掘完成后将流程模型结果储存到计算机设备的存储介质中。但是这种技术存在的最主要的问题是:(1)流程挖掘算法软件需要将全部日志读取到计算机设备内存做预处理(包括识别、日志打标、数据格式转换、数据质量控制等),而计算机设备内存是有限的。在处理每条事件日志中,需要做复杂的流程活动提取、活动间路由计算、以及属性度量统计等操作,耗费大量计算机设备内存资源,同时由于流程挖掘计算与日志存储分离,导致大量的数据传输成本,性能低下;(2)上述流程活动提取、活动间路由计算、以及属性度量统计等复杂操作,均集中于处理事件的日志操作中完成,各操作高度耦合,而无法实现操作并行,无法进一步调高效率。
[0003]海量事件日志是指平均每秒钟持续产生1000条以上的事件日志。对于海量事件日志的处理,由于海量日志持续产生,需要持续进行流程挖掘,无法全部读取日志进行处理。因此,如何实现海量事件日志的流程挖掘成为目前亟待解决的问题。

技术实现思路

[0004]基于此,本专利技术实施例提供一种面向海量事件日志的流程挖掘方法及装置,以高效、准确的实现海量事件日志的流程挖掘。
[0005]为实现上述目的,本专利技术实施例提供了如下方案:
[0006]一种面向海量事件日志的流程挖掘方法,包括:
[0007]采用SQL语句以流式方法读取海量事件日志,并对所述海量事件日志进行预处理,得到预处理数据;所述预处理数据,包括:活动列表和活动间路由列表;
[0008]采用SQL语句一次性读取所述预处理数据,对所述活动列表和所述活动间路由列表进行链接,得到活动结构和活动间路由结构;
[0009]对所述活动列表和所述活动间路由列表的度量进行统计,得到度量数据,并将所述度量数据存储在业务数据属性列表中;所述度量数据,包括:频次、覆盖率和耗时数据;
[0010]采用SQL语句和用户自定义函数对所述预处理数据的领域属性进行划分和统计,并根据划分结果和统计结果挖掘隐含活动;
[0011]采用SQL语句将所述预处理数据的领域属性生成查询条件列表;
[0012]采用SQL语句一次性读取所述活动结构、所述活动间路由结构、所述业务数据属性列表、所述隐含活动和所述查询条件列表,构建流程挖掘模型;所述流程挖掘模型用于表征
业务流程执行的实际状况。
[0013]可选地,采用SQL语句以流式方法读取海量事件日志,并对所述海量事件日志进行预处理,得到预处理数据,具体包括:
[0014]采用SQL语句以流式方法读取海量事件日志,识别所述海量事件日志中的数据信息;所述数据信息包括:事件案例和流程活动;
[0015]对所述数据信息依次进行日志打标、数据格式转换和数据质量控制操作,得到预处理后的流程活动信息;
[0016]根据预处理后的流程活动信息构建活动列表和活动间路由列表,得到预处理数据。
[0017]可选地,采用SQL语句和用户自定义函数对所述预处理数据的领域属性进行划分和统计,具体包括:
[0018]将所述预处理数据的领域属性划分为多组,得到划分结果;
[0019]采用SQL语句访问用户自定义函数,将所述预处理数据的领域属性传入所述用户自定义函数中,并采用预先存储的设定度量统计方法对所述预处理数据的领域属性进行统计,得到统计结果。
[0020]可选地,所述频次,包括:事件频次、返工频次和流经案例频次。
[0021]可选地,所述覆盖率,包括:案例覆盖率。
[0022]可选地,所述耗时数据,包括:活动耗时、活动最大耗时、活动最小耗时、活动平均耗时、活动耗时中位数、活动耗时标准差、活动间路由的总共耗时、活动间路由的最大耗时、活动间路由最小耗时、活动间路由的平均耗时、活动间路由的耗时中位数和活动间耗时标准差。
[0023]可选地,所述查询条件列表中的查询条件自由组合生成复杂查询条件;所述复杂查询条件支持多维度、多粒度的流程挖掘;所述多维度包括:时间维度、地点维度、金额维度、资源维度、组织维度以及业务数据维度;所述多粒度,包括时间上的多种不同粒度、地点上的多种不同粒度以及组织上的多种不同粒度。
[0024]本专利技术还提供了一种面向海量事件日志的流程挖掘装置,包括:依次连接的基于SQL事件日志的预处理模块、基于SQL的活动和路由挖掘模块、基于SQL的流程事件属性挖掘模块以及基于SQL的流程模型构造模块;
[0025]所述基于SQL事件日志的预处理模块,用于:
[0026]采用SQL语句以流式方法读取海量事件日志,并对所述海量事件日志进行预处理,得到预处理数据;所述预处理数据,包括:活动列表和活动间路由列表;
[0027]所述基于SQL的活动和路由挖掘模块,用于:
[0028]采用SQL语句一次性读取所述预处理数据,对所述活动列表和所述活动间路由列表进行链接,得到活动结构和活动间路由结构;
[0029]对所述活动列表和所述活动间路由列表的度量进行统计,得到度量数据,并将所述度量数据存储在业务数据属性列表中;所述度量数据,包括:频次、覆盖率和耗时数据;
[0030]所述基于SQL的流程事件属性挖掘模块,用于:
[0031]采用SQL语句和用户自定义函数对所述预处理数据的领域属性进行划分和统计,并根据划分结果和统计结果挖掘隐含活动;
[0032]采用SQL语句将所述预处理数据的领域属性生成查询条件列表;
[0033]所述基于SQL的流程模型构造模块,用于:
[0034]采用SQL语句一次性读取所述活动结构、所述活动间路由结构、所述业务数据属性列表、所述隐含活动和所述查询条件列表,构建流程挖掘模型;所述流程挖掘模型用于表征业务流程执行的实际状况。
[0035]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0036]本专利技术实施例提出了一种面向海量事件日志的流程挖掘方法及装置,采用SQL语句以流式方法读取海量事件日志并进行预处理,提高了海量事件日志的处理效率;基于SQL语句的流程挖掘技术,让流程挖掘计算在事件日志存储设备上计算和处理,缩短了计算和存储的距离,节约了数据读取和传输的时间,大大提高了流程挖掘计算效率;支持复杂事件日志属性的隐含活动挖掘,让流程挖掘结果能更准确反映业务流程执行的实际状况,从而提供更有效的决策支持。因此,本专利技术能高效、准确的实现海量事件日志的流程挖掘。
附图说明
[0037]为了更清楚地说明本专利技术实施例或现有技术中的技术方案本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向海量事件日志的流程挖掘方法,其特征在于,包括:采用SQL语句以流式方法读取海量事件日志,并对所述海量事件日志进行预处理,得到预处理数据;所述预处理数据,包括:活动列表和活动间路由列表;采用SQL语句一次性读取所述预处理数据,对所述活动列表和所述活动间路由列表进行链接,得到活动结构和活动间路由结构;对所述活动列表和所述活动间路由列表的度量进行统计,得到度量数据,并将所述度量数据存储在业务数据属性列表中;所述度量数据,包括:频次、覆盖率和耗时数据;采用SQL语句和用户自定义函数对所述预处理数据的领域属性进行划分和统计,并根据划分结果和统计结果挖掘隐含活动;采用SQL语句将所述预处理数据的领域属性生成查询条件列表;采用SQL语句一次性读取所述活动结构、所述活动间路由结构、所述业务数据属性列表、所述隐含活动和所述查询条件列表,构建流程挖掘模型;所述流程挖掘模型用于表征业务流程执行的实际状况。2.根据权利要求1所述的一种面向海量事件日志的流程挖掘方法,其特征在于,采用SQL语句以流式方法读取海量事件日志,并对所述海量事件日志进行预处理,得到预处理数据,具体包括:采用SQL语句以流式方法读取海量事件日志,识别所述海量事件日志中的数据信息;所述数据信息包括:事件案例和流程活动;对所述数据信息依次进行日志打标、数据格式转换和数据质量控制操作,得到预处理后的流程活动信息;根据预处理后的流程活动信息构建活动列表和活动间路由列表,得到预处理数据。3.根据权利要求1所述的一种面向海量事件日志的流程挖掘方法,其特征在于,采用SQL语句和用户自定义函数对所述预处理数据的领域属性进行划分和统计,具体包括:将所述预处理数据的领域属性划分为多组,得到划分结果;采用SQL语句访问用户自定义函数,将所述预处理数据的领域属性传入所述用户自定义函数中,并采用预先存储的设定度量统计方法对所述预处理数据的领域属性进行统计,得到统计结果。4.根据权利要求1所述的一种面向海量事件日志的流程挖掘方法,其特征在于,所述频次,包括:事件频次、返工频次和流经案例频次。5.根据权利要求1所述的一种面向海量事件日志的流程挖掘方法,其特征...

【专利技术属性】
技术研发人员:曹大海孙波郭广旭
申请(专利权)人:清滦科技北京有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1