本发明专利技术涉及一种基于决策树的缺失数据流程异常预测方法,从数据仓库中大量流程运行及业务数据中,随机取足量的流程运行数据、流程对应的业务数据;对取出的数据进行清洗和合并;分析训练数据,分类统计缺失项在4种之内的数据,根据不同的数据缺失项的有无,构造多个决策树模型;将训练数据复制m份,按照每颗决策树对数据的要求,分别去掉某几项数据,或补充某几项数据;使用训练好的m颗决策树模型对运行中以及新启动的业务流程进行流程预测;取m颗决策树中,预测结果占多数的结果为最终结果。本发明专利技术能够在大量缺失数据的情况下,有效实现流程的异常预测且准确率较高。实现流程的异常预测且准确率较高。实现流程的异常预测且准确率较高。
【技术实现步骤摘要】
一种基于决策树的缺失数据流程异常预测方法
[0001]本专利技术属于人工智能领域,涉及一种基于决策树的缺失数据流程异常预测方法。
技术介绍
[0002]随着各行业信息化水平的迅速发展,业务流程信息化水平已成为各行业各大中型企业信息化程度衡量的标准,随着业务流程信息化技术的发展,流程异常成为各行业的痛点,精准而有效的流程异常预测功能显得日益迫切,因此,流程异常预测技术逐渐成为各行业以及各大中型企业的重点研究问题。而往往在企业历史流程中,存在大量缺失数据,大量缺失数据的流程异常的智能预测的训练问题,具有较大的复杂性,也使得流程异常预测实现更加困难。
[0003]流程预测技术可提前侦测到的流程异常风险,从而避免将会发生的风险事件。然而随着企业信息化技术的飞速发展,企业的流程在不断优化,流程对应的业务数据的需求也在不断变更。同一个业务流程涉及的多个历史版本的流程数据和业务数据也不尽相同,导致流程的数据项完整度不一致的现象频发出现。想要寻找大量的,拥有同样完整度信息的流程数据难度非常大,不便于人工智能工作的研究。常规的流程异常预测技术,在有大量缺失数据的情况下表现出的水平较差,准确率较低,难以应对大中型企业业务灵活多变业务流程的预测需求;其次是运用常用的无缺失数据的人工智能流程预测模型,因数据量小,或者数据维度不够,训练模型容易欠拟合而导致算法在实际应用过程中准确度难以达到较高的水平。
技术实现思路
[0004]本专利技术的目的在于克服现有技术的不足,提供一种基于决策树的缺失数据流程异常预测方法,该方法在大量业务数据缺失时,能够有效实现流程的异常预测,且准确度较高。
[0005]本专利技术的技术方案如下:
[0006]一种基于决策树的缺失数据流程异常预测方法,其特征在于,包括以下步骤:
[0007]步骤1,从数据仓库中大量流程运行及业务数据中,随机取足量的流程运行数据、流程对应的业务数据;
[0008]步骤2,取出的流程运行数据和流程业务数据,按照业务数据和流程数据关联关系进行数据合并;
[0009]步骤3,分析训练数据,分类统计缺失项在4种之内的数据,根据不同的数据缺失项的有无,构造多个决策树模型,决策树个数为m=2^n,n为缺失项个数;
[0010]步骤4,将训练数据复制m份,按照每颗决策树对数据的要求,分别去掉某几项数据,或补充某几项数据,每组数据,分别训练m棵决策树,形成多颗决策树,补充数据方法可采用均值填充、中位数填充等方法;
[0011]步骤5,使用训练好的m颗决策树模型对运行中以及新启动的业务流程进行流程预
测;
[0012]步骤6,取m颗决策树中,预测结果占多数的结果为最终结果。
[0013]本专利技术具有以下有益效果:
[0014]1、本专利技术所述该一种基于决策树的缺失数据流程异常预测方法,在大量缺失数据的情况下,能够有效实现流程的异常预测且准确率较高。
[0015]2、本专利技术相比传统的异常预测方法,在大量缺失数据的情况下,具有更高的异常智能预测准确度。
附图说明
[0016]图1是本专利技术流程异常预测的功能模块图。
具体实施方式
[0017]本专利技术所述一种基于决策树的缺失数据流程异常预测方法,包括数据清洗、数据分组深加工、模型训练与结果计算三个模块。所述的数据清洗模块,使用主成分分析法、高维稀疏数据离群检测方法和其他数据清洗方法完成,可将同一业务流程在多个历史版本迭代过程中,针对大量缺失数据情况下的业务数据和流程数据进行有效的筛选;所述数据分组深加工模块,是构建多个决策树模型,将一份数据加工为多份用于多个决策树模型的训练数据,便于每个决策树有相应的数据进行训练;所述模型训练与结果计算模块,指将测试数据或运行数据,按数据分组深加工模块的分组情况,构造成多份数据,运用多个模型分别进行流程预测,并根据多个模型的结果,通过计算得出最终流程预测结果。
[0018]如图1所示,本专利技术所述一种基于决策树的缺失数据流程异常预测方法,其流程异常预测按照以下步骤实施:
[0019]步骤S1,从数据仓库中大量流程运行及业务数据中,随机取足量的流程运行数据、流程对应的业务数据;
[0020]步骤S2,取出的流程运行数据和流程业务数据,按照业务数据和流程数据关联关系进行数据合并;
[0021]步骤S21,将步骤S2合并后的数据,进行数据清洗,运用高维稀疏数据离群检测方法,去除不正常数据;
[0022]步骤S22,将步骤S1筛选后的数据,进行二次筛选,去除核心业务数据缺失项大于4种的数据,最终筛选出的数据用于模型训练;
[0023]步骤S3,分析训练数据,分类统计缺失项在4种之内的数据,根据不同的数据缺失项的有无,构造多个决策树模型,例如缺失项分别为ABC,ABC各分为有数据项和无数据项两组,各自组合形成8种不同组合,即决策树个数为m=2^n,n为缺失项个数;
[0024]步骤S4,将训练数据复制m份,按照每颗决策树对数据的要求,分别去掉某几项数据,或补充某几项数据,每组数据,分别训练m棵决策树,形成多颗决策树,补充数据方法可采用均值填充、中位数填充等方法;
[0025]步骤S5,使用训练好的m颗决策树模型对运行中以及新启动的业务流程进行流程预测;
[0026]步骤S51,按照S3分组方式,将运行中或新启动的业务流程数据复制并分组处理,
加工为m颗决策树所使用的数据;
[0027]步骤S52,使用m颗决策树分别进行流程预测;
[0028]步骤S6,取m颗决策树中,预测结果占多数的结果为最终结果。
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于决策树的缺失数据流程异常预测方法,其特征在于,包括以下步骤:步骤1,从数据仓库中大量流程运行及业务数据中,随机取足量的流程运行数据、流程对应的业务数据;步骤2,取出的流程运行数据和流程业务数据,按照业务数据和流程数据关联关系进行数据合并;步骤3,分析训练数据,分类统计缺失项在4种之内的数据,根据不同的数据缺失项的有无,构造多个决策树模型,决策树个数为m=2^n,n为缺失项个数;步骤4,将训练数据复制m份,按照每颗决策树对数据的要求,分别去掉某几项数据,或补充某几项数据,每组数据,分别训练m棵决策树,形成多颗决策树,补充数据方法可采用均值填充、中位数填充等方法;步骤5,使用训练好的m颗决策树模型对运行中以及新启动的业务流程...
【专利技术属性】
技术研发人员:李逊,
申请(专利权)人:北京航天长峰科技工业集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。