This invention puts forward a training method and device for data model. The training methods of data model include: obtaining the type of modeling problem and sample data, and identifying the sample data type. According to the type of modeling problem and sample data, the sample parameter and the published index are determined; the type of modeling problem, the sample parameter and the precondition are based on the model problem type and sample data. The model selection strategy is set up to determine the modeling algorithm, the data model is trained according to the modeling algorithm, and the sample data is input to the data model to get the output results; the output results are scored and the results are obtained. Preset model selection strategy and return to continue modeling algorithm based on modeling problem type, sample parameters and default model selection strategy. In the process of modeling, the automatic scoring mechanism is introduced to optimize the data model and model selection strategy, which reduces the manual intervention and improves the modeling efficiency.
【技术实现步骤摘要】
一种数据模型的训练方法及装置
本专利技术涉及数据挖掘
,具体而言,涉及一种数据模型的训练方法及装置。
技术介绍
利用基于大数据的挖掘分析为企业决策提供支撑,除了数据要保证质量准确的前提下,还需要对数据具备较好的业务理解,能够从海量数据中利用合适的挖掘算法,训练具有针对性的分析预测模型,并进行生产部署。图1示出了本专利技术
技术介绍
中的经典的数据挖掘的流程示意图。经典的数据挖掘流程(CRISP-DM:Cross-IndustryStandardProcessforDataMinning)如图1所示,在对业务数据进行分析建模的过程中,业务建模人员基本上都会采用分析挖掘工具,如SPSS,SAS,R等对数据进行探查,处理和建模,将商业问题转化为数据问题,并将数据分析处理准备后进行建模。而在数据建模过程中,基于样本数据训练后的分析预测模型,需要对其进行评估(如准确率,误差等),判断是否可以投入到生产环境中,从而进行部署解决商业问题。图2示出了本专利技术
技术介绍
中的经典的数据建模的流程示意图。如图2所示,预处理(过滤,转换,合并等)后的数据,通过统计分析和可视化的探查,根据业务建模人员的经验和业务问题,选择不同的挖掘算法(分类,聚类,关联等)对模型进行训练评估,通过对输入的样本数据的训练,得到对应的算法模型参数值,并通过验证数据集,评估模型的准确率从而决定是否可以投入到生产环境。在生产环境中,从模型的角度,输入产生的业务数据,经过模型的计算后,产生对生产决策参考的分析预测结果。在整个建模分析过程中,虚线框部分的流程以及生产环境部署过程,需要建模人员根据自己的业务领 ...
【技术保护点】
一种数据模型的训练方法,其特征在于,包括:获取建模问题类型及样本数据,并识别样本数据类型;根据所述建模问题类型及所述样本数据,确定所述样本参数及可发布指标;根据所述建模问题类型、所述样本参数及预设模型选择策略,确定建模算法;根据所述建模算法训练数据模型,并将所述样本数据输入到所述数据模型得到输出结果;对所述输出结果进行评分,得到评分结果;判断所述评分结果是否满足所述可发布指标;当所述评分结果不满足所述可发布指标时,则优化所述预设模型选择策略,并返回继续根据所述建模问题类型、所述样本参数及预设模型选择策略,确定建模算法。
【技术特征摘要】
1.一种数据模型的训练方法,其特征在于,包括:获取建模问题类型及样本数据,并识别样本数据类型;根据所述建模问题类型及所述样本数据,确定所述样本参数及可发布指标;根据所述建模问题类型、所述样本参数及预设模型选择策略,确定建模算法;根据所述建模算法训练数据模型,并将所述样本数据输入到所述数据模型得到输出结果;对所述输出结果进行评分,得到评分结果;判断所述评分结果是否满足所述可发布指标;当所述评分结果不满足所述可发布指标时,则优化所述预设模型选择策略,并返回继续根据所述建模问题类型、所述样本参数及预设模型选择策略,确定建模算法。2.根据权利要求1所述的数据模型的训练方法,其特征在于,所述根据所述建模问题类型、所述样本参数及预设模型选择策略,确定建模算法,具体包括:根据所述建模问题类型,确定建模算法类型的范围;根据所述样本参数及所述预设模型选择策略,在所述建模算法类型的范围内确定建模算法。3.根据权利要求1所述的数据模型的训练方法,其特征在于,所述评分结果包括:正确率评分和以下至少一种或其组合:性能指标评分、稳定性指标评分以及自定义指标评分。4.根据权利要求3所述数据模型的训练方法,其特征在于,所述评分结果的计算公式为:SCOREtotal=SCOREacc×Wacc+SCOREperf×Wperf+SCORErobust×Wrobust+SCOREcust×Wcust其中,SCOREtotal为总评分,SCOREacc为所述正确率评分,Wacc为预设正确率评分权重,SCOREperf为所述性能指标评分,Wperf为预设性能指标评分权重,SCORErobust为所述稳定性指标评分,Wrobust为预设稳定性指标评分权重,SCOREcust为所述自定义指标评分,Wcust为预设自定义指标评分权重。5.根据权利要求4所述的数据模型的训练方法,其特征在于,所述正确率评分公式为:其中,acc为数据模型的正确率,accthredhold为预设正确率阈值,所述数据模型的正确率为数据模型输出正确结果的数量与样本数据的数量的比值。6.根据权利要求4所述的数据模型的训练方法,其特征在于,所述性能指标评分公式为:SCOREperf=Tmin-Ti其中,Tmin为数据模型训练花费的最小时间,Ti为数据模型训练实际花费时间。7.根据权利要求4所述的数据模型的训练方法,其特征在于,若在所述数据模型的训练过程中出现异常情况,并且所述数据模型的输出结果与非异常情况下的输出结果的差异在预设范围内时,所述稳定性指标评分SCORErobust为1,否则,所述稳定性指标评分SCORErobust为0。8.根据权利要求4所述的数据模型的训练方法,其特征在于,当所述建模算法为自定义算法时,所述自定义指标评分SCOREcust为业务专家给出的衡量数据模型效果的评分;当所述建模算法不是自定义算法时,所述自定义指标评分SCOREcust为0。9.根据权利要求1至8中任一项所述的数据模型的训练方法,其特征在于,还包括:当所述评分结果满足所述可发布指标时,则确定总评分最高的数据模型为最终数据模型。10.一种数据模型的训练装置,其特征在于,包括:获取单元,用于获取...
【专利技术属性】
技术研发人员:王雪洁,李长山,
申请(专利权)人:用友金融信息技术股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。