一种数据挖掘训练模型的生成方法技术

技术编号:14593602 阅读:88 留言:0更新日期:2017-02-08 22:49
本发明专利技术公开了一种数据挖掘训练模型的生成方法,由于主要包括:将数据挖掘训练过程中的数据阶段化;判断验证上阶段训练模型是否构建成功;构建当前阶段训练模型;验证当前训练模型,若当前训练模型构建成功,则构建下阶段的训练模型,否则继续构建当前阶段的训练模型;克服现有技术挖掘训练模型的过程模型无法保存,可复用性差的缺陷,同时克服现有技术挖掘训练模型的各个阶段无法阶段性验证和可视化展现。

Method for generating data mining training model

The invention discloses a data mining method to generate the training model, the stage mainly includes: data of data mining in the process of training; determine the verification stage of training model is constructed successfully; building the current stage of training model; verify the current training model, if the current training model was constructed successfully, then construct the training model in the next stage otherwise, continue to build the training model of current stage; to overcome the existing mining process model training model cannot be saved, reusable defects of the poor, at the same time, to overcome the existing mining technology training model in each stage to stage validation and visualization.

【技术实现步骤摘要】

本专利技术涉及
,具体地,涉及一种数据挖掘训练模型的生成方法
技术介绍
数据挖掘是应对企业数据业务激增的一项有效手段,可以通过应用数据挖掘技术解决企业的业务问题,为企业提供更大的商机。单纯从应用角度,一般企业会通过四种途径进入数据挖掘技术。这包括,购买成熟的模型,使用行业软件,聘请专家实施,定制直接的数据挖掘平台。挖掘过程中无法实时查看算法生成内容,也无法将训练模型的过程进行移植。现有技术中,用户创建训练模型后,通过最终输出或挖掘模型验证才能够确定,训练模型过程是否准确,通过最终匹配才能确定整个建模过程是否合理。一旦中间步骤出现问题,没办法分阶段验证和反馈。复用性和移植性都很差,无法标准化。
技术实现思路
本专利技术的目的在于,针对上述问题,提出一种数据挖掘训练模型的生成方法,以增强训练模型的可移植性和复用性的优点。为实现上述目的,本专利技术采用的技术方案是:一种数据挖掘训练模型的生成方法,主要包括:步骤1:将数据挖掘训练过程中的执行流程阶段化;步骤2:根据步骤1划分的执行流程,建立上阶段训练模型,判断验证上阶段训练模型是否构建成功,如果构建成功则进行步骤3,否则重新构建上阶段的训练模型,直到构建成功;步骤3:构建当前阶段训练模型;步骤4:验证当前训练模型,若当前训练模型构建成功,则构建下阶段的训练模型,否则继续构建当前阶段的训练模型。进一步地,步骤1中,所述阶段划具体为按照单个或任意多个执行流程进行划分,每个阶段是一个输入、输出、算法节点或可视化节点,且每个阶段包含一个或多个可视化输入。进一步地,步骤2中验证上阶段训练模型或当前阶段训练模型是否构建成功,通过可视化图表、情形分析表、统计量或假设检验方式提供反馈结果,根据当前反馈结果,确定阶段训练模型是否满足要求。。进一步地,所述上阶段训练模型或当前阶段训练模型均以PMML存储在磁盘或远程空间。本专利技术各实施例的一种数据挖掘训练模型的生成方法,由于主要包括:将数据挖掘训练过程中的数据阶段化;判断验证上阶段训练模型是否构建成功;构建当前阶段训练模型;验证当前训练模型,若当前训练模型构建成功,则构建下阶段的训练模型,否则继续构建当前阶段的训练模型;克服现有技术挖掘训练模型的过程模型无法保存,可复用性差的缺陷,同时克服现有技术挖掘训练模型的各个阶段无法阶段性验证和可视化展现。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术具体实施方式所述的数据挖掘训练模型的生成方法的现有技术训练模型生成原理图;图2为本专利技术具体实施方式所述的数据挖掘训练模型的生成方法的训练模型生成原理图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。具体地,一种数据挖掘训练模型的生成方法,主要包括:步骤1:根据步骤1划分的执行流程,建立上阶段训练模型;步骤2:根据步骤1划分的执行流程,建立上阶段训练模型,判断验证上阶段训练模型是否构建成功,如果构建成功则进行步骤3,否则重新构建上阶段的训练模型,直到构建成功;步骤3:构建当前阶段训练模型;步骤4:验证当前训练模型,若当前训练模型构建成功,则构建下阶段的训练模型,否则继续构建当前阶段的训练模型。步骤1中,所述阶段划具体为按照单个或任意多个执行流程进行划分,每个阶段是一个输入、输出、算法节点或可视化节点,且每个阶段包含一个或多个可视化输入。步骤2中验证上阶段训练模型或当前阶段训练模型是否构建成功,通过可视化图表、情形分析表、统计量或假设检验方式提供反馈结果,根据当前反馈结果,确定阶段训练模型是否满足要求。所述上阶段训练模型或当前阶段训练模型均以PMML存储在磁盘或远程空间。在图1中,用户创建训练模型后,通过最终输出或挖掘模型验证才能够确定,训练模型过程是否准确,通过最终匹配才能确定整个建模过程是否合理。一旦中间步骤出现问题,没办法分阶段验证和反馈。复用性和移植性都很差,无法标准化。图2中,用户在创建训练模型的过程中,每个训练单元都会有一个阶段性的产出。比如,通过可视化图表、情形分析表、统计量、假设检验,提供用户反馈结果,用户根据当前结果,确定当前训练单元已经满足要求。由于训练单元可以单独保存成存储对象,可以同时使用多个已有的训练单元进行训练,通过训练结果查找最符合预期的训练单元。也可以根据输入参数进行替换,或者使用随机森林等方式获取结果。可移植性主要包括训练单元可移植、训练构造的模型可移植。训练单元以流对象的方式存储在磁盘或者远程空间,可以为其他本软件共享使用。训练构造的模型主要以PMML文件形式进行存储,对于所有支持此标准的同类软件都可以进行复用,增强了可移植性。至少可以达到以下有益效果:相比已有的训练模型生成系统更加灵活,专利技术分阶段进行验证,可以使用户进行数据挖掘建模时的反复度达到最小,通过为每个阶段设立阶段性指标,有利于将验证过程颗粒化,同时,针对证明已经有效的子过程,可以直接在其他建模过程中进行复用,克服现有技术挖掘训练模型的过程模型无法保存,可复用性差的缺陷,同时克服现有技术挖掘训练模型的各个阶段无法阶段性验证和可视化展现。最后应说明的是:以上所述仅为本专利技术的优选实施例而已,并不用于限制本专利技术,尽管参照前述实施例对本专利技术进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
一种数据挖掘训练模型的生成方法,其特征在于,包括以下步骤:步骤1:将数据挖掘训练过程中的执行流程阶段化;步骤2:根据步骤1划分的执行流程,建立上阶段训练模型,判断验证上阶段训练模型是否构建成功,如果构建成功则进行步骤3,否则重新构建上阶段的训练模型,直到构建成功;步骤3:构建当前阶段训练模型;步骤4:验证当前训练模型,若当前训练模型构建成功,则构建下阶段的训练模型,否则继续构建当前阶段的训练模型。

【技术特征摘要】
1.一种数据挖掘训练模型的生成方法,其特征在于,包括以下步骤:步骤1:将数据挖掘训练过程中的执行流程阶段化;步骤2:根据步骤1划分的执行流程,建立上阶段训练模型,判断验证上阶段训练模型是否构建成功,如果构建成功则进行步骤3,否则重新构建上阶段的训练模型,直到构建成功;步骤3:构建当前阶段训练模型;步骤4:验证当前训练模型,若当前训练模型构建成功,则构建下阶段的训练模型,否则继续构建当前阶段的训练模型。2.骤1中,所述阶段划具体为按照单个或任意多个执行流程...

【专利技术属性】
技术研发人员:陈琨
申请(专利权)人:用友网络科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1