一种数据模型的训练方法及装置制造方法及图纸

技术编号:17796961 阅读:121 留言:0更新日期:2018-04-25 20:28
本发明专利技术提出了一种数据模型的训练方法及装置,数据模型的训练方法包括:获取建模问题类型及样本数据,并识别样本数据类型;根据建模问题类型及样本数据,确定样本参数及可发布指标;根据建模问题类型、样本参数及预设模型选择策略,确定建模算法;根据建模算法训练数据模型,并将样本数据输入到数据模型得到输出结果;对输出结果进行评分,得到评分结果;判断评分结果是否满足可发布指标;当评分结果不满足可发布指标时,则优化预设模型选择策略,并返回继续根据建模问题类型、样本参数及预设模型选择策略,确定建模算法。本发明专利技术在建模过程中引入自动化评分机制,进行数据模型和模型选择策略的优化,减少了人工干预,提升了建模效率。

A training method and device for data model

This invention puts forward a training method and device for data model. The training methods of data model include: obtaining the type of modeling problem and sample data, and identifying the sample data type. According to the type of modeling problem and sample data, the sample parameter and the published index are determined; the type of modeling problem, the sample parameter and the precondition are based on the model problem type and sample data. The model selection strategy is set up to determine the modeling algorithm, the data model is trained according to the modeling algorithm, and the sample data is input to the data model to get the output results; the output results are scored and the results are obtained. Preset model selection strategy and return to continue modeling algorithm based on modeling problem type, sample parameters and default model selection strategy. In the process of modeling, the automatic scoring mechanism is introduced to optimize the data model and model selection strategy, which reduces the manual intervention and improves the modeling efficiency.

【技术实现步骤摘要】
一种数据模型的训练方法及装置
本专利技术涉及数据挖掘
,具体而言,涉及一种数据模型的训练方法及装置。
技术介绍
利用基于大数据的挖掘分析为企业决策提供支撑,除了数据要保证质量准确的前提下,还需要对数据具备较好的业务理解,能够从海量数据中利用合适的挖掘算法,训练具有针对性的分析预测模型,并进行生产部署。图1示出了本专利技术
技术介绍
中的经典的数据挖掘的流程示意图。经典的数据挖掘流程(CRISP-DM:Cross-IndustryStandardProcessforDataMinning)如图1所示,在对业务数据进行分析建模的过程中,业务建模人员基本上都会采用分析挖掘工具,如SPSS,SAS,R等对数据进行探查,处理和建模,将商业问题转化为数据问题,并将数据分析处理准备后进行建模。而在数据建模过程中,基于样本数据训练后的分析预测模型,需要对其进行评估(如准确率,误差等),判断是否可以投入到生产环境中,从而进行部署解决商业问题。图2示出了本专利技术
技术介绍
中的经典的数据建模的流程示意图。如图2所示,预处理(过滤,转换,合并等)后的数据,通过统计分析和可视化的探查,根据业务建模人员的经验和业务问题,选择不同的挖掘算法(分类,聚类,关联等)对模型进行训练评估,通过对输入的样本数据的训练,得到对应的算法模型参数值,并通过验证数据集,评估模型的准确率从而决定是否可以投入到生产环境。在生产环境中,从模型的角度,输入产生的业务数据,经过模型的计算后,产生对生产决策参考的分析预测结果。在整个建模分析过程中,虚线框部分的流程以及生产环境部署过程,需要建模人员根据自己的业务领域知识,选择相应的挖掘算法进行训练,当训练结果不满足(误差较大等)要求时候,需要重新调整算法或者参数等,往往需要大量的尝试才可能找到相对优化的模型结果。一般来讲,这一步骤往往占用了整个分析挖掘项目的大部分时间。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术的第一个方面在于提出了一种数据模型的训练方法。本专利技术的第二个方面在于提出了一种数据模型的训练装置。有鉴于此,根据本专利技术的第一个方面,提出了一种数据模型的训练方法,包括:获取建模问题类型及样本数据,并识别样本数据类型;根据建模问题类型及样本数据,确定样本参数及可发布指标;根据建模问题类型、样本参数及预设模型选择策略,确定建模算法;根据建模算法训练数据模型,并将样本数据输入到数据模型得到输出结果;对输出结果进行评分,得到评分结果;判断评分结果是否满足可发布指标;当评分结果不满足可发布指标时,则优化预设模型选择策略,并返回继续根据建模问题类型、样本参数及预设模型选择策略,确定建模算法。本专利技术提供的数据模型的训练方法,首先,识别获取到的样本数据的类型(如:样本数据是数字型或字符型、连续型或离散型等),根据样本数据的类型和获取到的建模问题类型(如:分类问题、聚类问题、关联问题等)确定样本参数(如:分类问题的分类指标、聚类问题的均值大小等)和可发布指标(如:准确率大于95%等),然后根据建模问题类型、样本参数及预设模型选择策略,在建模算法簇中选择出一个或几个建模算法,训练数据模型,最后,利用样本数据对数据模型进行评分,判断评分结果是否满足可发布指标,若不满足,则优化预设模型选择策略,返回重新确定建模算法。本专利技术通过预设模型选择策略自动选择相应的挖掘算法对样本数据进行建模,并通过评估数据模型实现对预设模型选择策略自动化地优化,不需要人工干预,大幅提升模型的客观性,减少建模人员的主观疏漏和错误,就能选出符合生产环境的可部署模型,降低了业务建模人员应用挖掘算法的门槛,提升了建模的精准性和效率。根据本专利技术的上述数据模型的训练方法,还可以具有以下技术特征:在上述技术方案中,优选地,根据建模问题类型、样本参数及预设模型选择策略,确定建模算法,具体包括:根据建模问题类型,确定建模算法类型的范围;根据样本参数及预设模型选择策略,在建模算法类型的范围内确定建模算法。在该技术方案中,先要根据建模问题类型,确定建模算法类型的范围,例如建模问题类型为分类型问题,可以在建模算法簇中选定分类型问题对应的算法,如决策树、逻辑回归、模糊规则等,由于样本参数反映了样本数据的特征,再根据样本参数和预设模型选测策略,在建模算法类型的范围内,选定最后进行建模的一个或几个算法,确保建模更加准确可靠,提升建模效率。在上述任一技术方案中,优选地,评分结果包括:正确率评分和以下至少一种或其组合:性能指标评分、稳定性指标评分以及自定义指标评分。在该技术方案中,对数据模型的评分包括了正确率评分、性能指标评分、稳定性指标评分和自定义指标评分,用户可根据实际需要进行选择,综合考量各方面的评分也确保了对数据模型的可靠性。在上述任一技术方案中,优选地,评分结果的计算公式为:SCOREtotal=SCOREacc×Wacc+SCOREperf×Wperf+SCORErobust×Wrobust+SCOREcust×Wcust其中,SCOREtotal为总评分,SCOREacc为正确率评分,Wacc为预设正确率评分权重,SCOREperf为性能指标评分,Wperf为预设性能指标评分权重,SCORErobust为稳定性指标评分,Wrobust为预设稳定性指标评分权重,SCOREcust为自定义指标评分,Wcust为预设自定义指标评分权重。在该技术方案中,数据模型的评分结果为正确率评分、性能指标评分、稳定性指标评分和自定义指标评分的加权求和的结果,用户可根据实际需要选择其中的一项或者几项对数据模型进行打分,并对权重做出相应调整,一般来说,正确率评分的权重最高,确保了对数据模型的可靠性。在上述任一技术方案中,优选地,正确率评分公式为:其中,acc为数据模型的正确率,accthredhold为预设正确率阈值,数据模型的正确率为数据模型输出正确结果的数量与样本数据的数量的比值。在该技术方案中,当数据模型的正确率小于预设正确率阈值时,这时数据模型的正确率较低,说明数据模型无法满足生产要求,正确率评分为零;当数据模型的正确率大于等于正确率阈值时,正确率评分为数据模型的正确率与正确率阈值之差,数据模型的正确率越高,则正确率评分越高。在上述任一技术方案中,优选地,性能指标评分公式为:SCOREperf=Tmin-Ti其中,为性能指标评分Tmin为数据模型训练花费的最小时间,Ti为数据模型训练实际花费时间。在该技术方案中,性能指标评分为对同样样本数据得到输出结果的消耗时间成本,记录数据模型训练过程中每次迭代花费的时间,并选取其中花费时间最少的一次作为数据模型训练花费的最小时间,则性能指标评分为数据模型训练花费的最小时间与数据模型训练实际花费时间之差,实际花费时间越少,则性能指标评分越高。在上述任一技术方案中,优选地,若在数据模型的训练过程中出现异常情况,并且数据模型的输出结果与非异常情况下的输出结果的差异在预设范围内时,稳定性指标评分SCORErobust为1,否则,稳定性指标评分SCORErobust为0。在该技术方案中,若数据模型的训练过程中出现异常情况(如字段值出现控制,计算资源不足等),并且数据模型在异常情况下的输出结果与非异常情况下的输出结果相差本文档来自技高网
...
一种数据模型的训练方法及装置

【技术保护点】
一种数据模型的训练方法,其特征在于,包括:获取建模问题类型及样本数据,并识别样本数据类型;根据所述建模问题类型及所述样本数据,确定所述样本参数及可发布指标;根据所述建模问题类型、所述样本参数及预设模型选择策略,确定建模算法;根据所述建模算法训练数据模型,并将所述样本数据输入到所述数据模型得到输出结果;对所述输出结果进行评分,得到评分结果;判断所述评分结果是否满足所述可发布指标;当所述评分结果不满足所述可发布指标时,则优化所述预设模型选择策略,并返回继续根据所述建模问题类型、所述样本参数及预设模型选择策略,确定建模算法。

【技术特征摘要】
1.一种数据模型的训练方法,其特征在于,包括:获取建模问题类型及样本数据,并识别样本数据类型;根据所述建模问题类型及所述样本数据,确定所述样本参数及可发布指标;根据所述建模问题类型、所述样本参数及预设模型选择策略,确定建模算法;根据所述建模算法训练数据模型,并将所述样本数据输入到所述数据模型得到输出结果;对所述输出结果进行评分,得到评分结果;判断所述评分结果是否满足所述可发布指标;当所述评分结果不满足所述可发布指标时,则优化所述预设模型选择策略,并返回继续根据所述建模问题类型、所述样本参数及预设模型选择策略,确定建模算法。2.根据权利要求1所述的数据模型的训练方法,其特征在于,所述根据所述建模问题类型、所述样本参数及预设模型选择策略,确定建模算法,具体包括:根据所述建模问题类型,确定建模算法类型的范围;根据所述样本参数及所述预设模型选择策略,在所述建模算法类型的范围内确定建模算法。3.根据权利要求1所述的数据模型的训练方法,其特征在于,所述评分结果包括:正确率评分和以下至少一种或其组合:性能指标评分、稳定性指标评分以及自定义指标评分。4.根据权利要求3所述数据模型的训练方法,其特征在于,所述评分结果的计算公式为:SCOREtotal=SCOREacc×Wacc+SCOREperf×Wperf+SCORErobust×Wrobust+SCOREcust×Wcust其中,SCOREtotal为总评分,SCOREacc为所述正确率评分,Wacc为预设正确率评分权重,SCOREperf为所述性能指标评分,Wperf为预设性能指标评分权重,SCORErobust为所述稳定性指标评分,Wrobust为预设稳定性指标评分权重,SCOREcust为所述自定义指标评分,Wcust为预设自定义指标评分权重。5.根据权利要求4所述的数据模型的训练方法,其特征在于,所述正确率评分公式为:其中,acc为数据模型的正确率,accthredhold为预设正确率阈值,所述数据模型的正确率为数据模型输出正确结果的数量与样本数据的数量的比值。6.根据权利要求4所述的数据模型的训练方法,其特征在于,所述性能指标评分公式为:SCOREperf=Tmin-Ti其中,Tmin为数据模型训练花费的最小时间,Ti为数据模型训练实际花费时间。7.根据权利要求4所述的数据模型的训练方法,其特征在于,若在所述数据模型的训练过程中出现异常情况,并且所述数据模型的输出结果与非异常情况下的输出结果的差异在预设范围内时,所述稳定性指标评分SCORErobust为1,否则,所述稳定性指标评分SCORErobust为0。8.根据权利要求4所述的数据模型的训练方法,其特征在于,当所述建模算法为自定义算法时,所述自定义指标评分SCOREcust为业务专家给出的衡量数据模型效果的评分;当所述建模算法不是自定义算法时,所述自定义指标评分SCOREcust为0。9.根据权利要求1至8中任一项所述的数据模型的训练方法,其特征在于,还包括:当所述评分结果满足所述可发布指标时,则确定总评分最高的数据模型为最终数据模型。10.一种数据模型的训练装置,其特征在于,包括:获取单元,用于获取...

【专利技术属性】
技术研发人员:王雪洁李长山
申请(专利权)人:用友金融信息技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1