【技术实现步骤摘要】
数据算法模型检验方法、系统及计算机存储介质
本专利技术涉及数据分析
,特别涉及数据算法模型检验方法、系统及计算机存储介质。
技术介绍
在数据挖掘或机器学习领域,通常会通过一系列算法构建分析模型,来对数据的关联关系及预测后续数据等一些问题进行解决。在多数情况下需要对构建的建模进行检验,确定预处理和算法模型准确程度,受样本数据分布、算法、问题域不同,需要不同检验方案来检验;检验方法的差异会直接影响问题的解决;遇到样本量较少或较多,或输入特征较多时,对验证的准确性和计算性能都带来一定的挑战。目前的数据检验方法对于数据模型的检验存在一些不足:1)当数据集过大时有很多的同质化样本,用于数据数据检验,粗暴随机分配验证集,产生算力浪费,检验结果可行度降低;2)必须由研发人员透过分析算法,样本分布特征值观感受,并针对性的实现对应的检验方案。3)人为有一定有主观因素和能力经验局限,可能错过最有效的解决问题的方案。
技术实现思路
本专利技术是为了解决上述问题而进行的,目的在于提供一种数据算法模型检验方法、系统及 ...
【技术保护点】
1.一种数据算法模型检验方法,其特征在于,包括:/n步骤A-1,输入待验模型在建模时所使用的训练数据,对输入的训练数据进行预处理;/n步骤A-2,对预处理后得到数据集进行主成分分析及特征关联,获得关键特征;/n步骤A-3,对关键特征进行统计,生成重点特征池,并根据样本空间参数及样本特征分布,确定验证策略模型;/n步骤A-4,根据样本空间参数、样本特征分布以及确定的验证策略模型,将预处理后的数据集划分为训练集和验证集;/n步骤A-5,将步骤A-4得到的训练集输入到待验模型在建模时所使用的算法中进行模型训练,获得训练后的模型;/n步骤A-6,将步骤A-5得到的训练后的模型和步骤 ...
【技术特征摘要】
1.一种数据算法模型检验方法,其特征在于,包括:
步骤A-1,输入待验模型在建模时所使用的训练数据,对输入的训练数据进行预处理;
步骤A-2,对预处理后得到数据集进行主成分分析及特征关联,获得关键特征;
步骤A-3,对关键特征进行统计,生成重点特征池,并根据样本空间参数及样本特征分布,确定验证策略模型;
步骤A-4,根据样本空间参数、样本特征分布以及确定的验证策略模型,将预处理后的数据集划分为训练集和验证集;
步骤A-5,将步骤A-4得到的训练集输入到待验模型在建模时所使用的算法中进行模型训练,获得训练后的模型;
步骤A-6,将步骤A-5得到的训练后的模型和步骤A-4得到的验证集作为输入项,输入到验证策略模型中进行验证打分,获得打分结果,该打分结果即作为待验模型的准确度检验结果。
2.如权利要求1所述的数据算法模型检验方法,其特征在于,还包括外部应用调用模型预测的步骤,具体为:
步骤B-1,外部调用系统,发起数据预测,本检验系统,检查模型预测算法被注入后,进行与步骤A-1同样的预处理;
步骤B-2,将预处理后得到的数据通过重点特征池进行过滤:当数据特征不符合重点特征池的范围内时,则通知调用系统,数据不符合;当该数据特征符合重点特征池的范围内时,进入步骤B-3;
步骤B-3,将数据发送到模型中,进行预测,当产生预测结果时,将结果通知到外部调用系统。
3.如权利要求1所述的数据算法模型检验方法,其特征在于:
其中,步骤A-2中主成分分析中,默认取第一主成分。
4.如权利要求1所述的数据算法模型检验方法,其特征在于:
其中,步骤A-2中主成分分析中,计算主成分相关关键特征排名,默相关系数大于0.5的特征都视为关键特征。
5.如权利要求1所述的数据算法模型检验方法,其特征在于:
其中,步骤A-3中验证策略模型的生成遵循如下规则:
若待验模型为非监督模型,则验证策略模型为bootsrapping验证策略模型;
若待验模型为有监督模型,且数据样本总数<63条时,则验证策略模型为bootsrapping验证策略模型;
若待验模型为有监督模型,且数据样本总数≥63条时,则验证策略模型为K折验证策略模型。
6.如权利要求5所述的数据算法模型检验方法,其特征在于:
其中,步骤A-4中将预处理后...
【专利技术属性】
技术研发人员:鹿才军,陈湘芳,
申请(专利权)人:上海哥瑞利软件股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。