训练模型时的多轮循环特征选择方法和装置制造方法及图纸

技术编号:22239195 阅读:23 留言:0更新日期:2019-10-09 18:57
本发明专利技术提供了一种训练模型时的多轮循环特征选择方法和装置,其中方法包括:S1将建模样本划分为训练样本和测试样本;S2对训练样本进行等频划分,得到L份数据;S3分别对全部备选特征进行初步筛选得到备选特征集;S4随机抽取L份数据中的M份数据作为训练数据,进行逐步回归拟合,得到筛选后的特征集,对筛选后的特征集使用交叉验证方法,在L份数据上再次进行样本划分,使用其中的T份数据进行训练得到备选模型,并利用L份数据中的剩余份数据对备选模型进行测试,得到初步评估结果,并重复执行K次,得到该筛选后的特征集的综合评估结果;S5重复执行N次S2‑S4,确定最优评估结果和最优模型。

Multi-cycle feature selection method and device for training model

【技术实现步骤摘要】
训练模型时的多轮循环特征选择方法和装置
本专利技术涉及特征选择
,尤其涉及一种训练模型时的多轮循环特征选择方法和装置。
技术介绍
目前模型训练中,尤其是传统统计学习,例如逻辑回归,使用最大似然估计求解相关特征参数,在给定样本的前提下,特征参数是唯一值。即可认为,在给定前提条件下,目前的求解方式仅仅可以得到一个局部最优解,此结果极容易受到给定样本划分的影响。由于样本划分时,具有随机性,所以此种方式得到的结果具有很高的随机不确定性,无法保证模型训练结果具有高精度和可泛化性,很难在实际生产上使用。因此,目前模型训练中特征选择效果具有样本强依赖性和高随机性的问题。
技术实现思路
本专利技术旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的训练模型时的多轮循环特征选择方法和装置。为达到上述目的,本专利技术的技术方案具体是这样实现的:本专利技术的一个方面提供了一种训练模型时的多轮循环特征选择方法,包括:S1,获取建模样本,并将建模样本划分为训练样本和测试样本;S2,对训练样本进行等频划分,得到L份数据,其中,L为预设数;S3,分别对全部备选特征进行初步筛选,初步筛选包括:IV值筛选、随机森林拟合后importance筛选、PCA&共线性剔除和ElasticNet挑选,并对筛选后的特征进行特征处理,得到备选特征集;S4,随机抽取L份数据中的M份数据作为训练数据,进行逐步回归拟合,得到筛选后的特征集,对筛选后的特征集使用交叉验证方法,在L份数据上再次进行样本划分,使用其中的T份数据进行训练得到备选模型,并利用L份数据中的剩余份数据对备选模型进行测试,得到初步评估结果,并重复执行K次,得到该筛选后的特征集的综合评估结果,其中M小于L为预设数,T小于L为预设数,K为预设数;S5,重复执行N次步骤S2-S4,得到多个备选模型和多个对应的评估结果,其中,N为预设数;S6,确定最优评估结果,选取最终特征集;S7,利用最终特征集训练最优模型,输出最优模型。其中,对训练样本进行等频划分,得到L份数据包括:根据训练样本的训练数据本身分布,对应目标特征和特征表现,对训练样本进行等频划分,得到L份数据。其中,初步评估结果包括:AUC和KS,筛选后的特征集的评估结果包括:AUC和KS的均值和标准差。其中,确定最优评估结果,选取最终特征集包括:利用AUC均值最大、AUC标准差最小、KS均值最大和KS均值标准差最小指标选出最终特征集。其中,方法还包括:S8,利用测试样本对最优模型进行测试。本专利技术另一方面提供了一种训练模型时的多轮循环特征选择装置,包括:获取模块,用于获取建模样本,并将建模样本划分为训练样本和测试样本;划分模块,用于对训练样本进行等频划分,得到L份数据,其中,L为预设数;初筛模块,用于分别对全部备选特征进行初步筛选,初步筛选包括:IV值筛选、随机森林拟合后importance筛选、PCA&共线性剔除和ElasticNet挑选,并对筛选后的特征进行特征处理,得到备选特征集;评估模块,用于随机抽取L份数据中的M份数据作为训练数据,进行逐步回归拟合,得到筛选后的特征集,对筛选后的特征集使用交叉验证方法,在L份数据上再次进行样本划分,使用其中的T份数据进行训练得到备选模型,并利用L份数据中的剩余份数据对备选模型进行测试,得到初步评估结果,并重复执行K次,得到该筛选后的特征集的综合评估结果,其中M小于L为预设数,T小于L为预设数,K为预设数;执行模块,用于通知划分模块、初筛模块、评估模块重复执行N次操作,得到多个备选模型和多个对应的评估结果,其中,N为预设数;选取模块,用于确定最优评估结果,选取最终特征集;输出模块,用于利用最终特征集训练最优模型,输出最优模型。其中,划分模块通过如下方式对训练样本进行等频划分,得到L份数据:划分模块,具体用于根据训练样本的训练数据本身分布,对应目标特征和特征表现,对训练样本进行等频划分,得到L份数据。其中,初步评估结果包括:AUC和KS,筛选后的特征集的评估结果包括:AUC和KS的均值和标准差。其中,选取模块通过如下方式确定最优评估结果,选取最终特征集:选取模块,具体用于利用AUC均值最大、AUC标准差最小、KS均值最大和KS均值标准差最小指标选出最终特征集。其中,装置还包括:测试模块;测试模块,用于利用测试样本对最优模型进行测试。由此可见,本专利技术实施例提供的训练模型时的多轮循环特征选择方法和装置,在模型训练中使用了循环迭代的思想,不仅多次进行建模样本的不放回重抽样,训练多次模型,而且还在建模过程中使用了多次交叉验证的方法,从而极大的减轻特定样本数据建模带来随机性和不稳定性。由此得到的最终模型经过了多次拟合,结果符合大数定律,具有良好的泛化性和可延续性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的训练模型时的多轮循环特征选择方法的流程图;图2为本专利技术实施例提供的训练模型时的多轮循环特征选择方法的一种具体实例的流程图;图3为本专利技术实施例提供的训练模型时的多轮循环特征选择装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术提供的训练模型时的多轮循环特征选择方法是机器学习,传统统计学习与贪心算法的创新结合,使用了多次求得局部最优解的方式进行最优拟合,主体思想为通过拟合出多个局部最优解,得到最优的局部最优解,或理论上逼近全局最优解,从而实现所需训练的模型达到最优的预测表现,提高实际生产环境中应用的精度和泛化能力。具体地,本专利技术在实践中结合多种场景和数据,可以使用R语言对其进行实现,具体可以包括:数据分层,全集特征选择,子集特征选择,效果评估与最优模型输出等功能。步骤一:数据分层:在建模的训练样本和测试样本划分后,根据训练数据本身分布,对应目标特征和其他特征的表现,对训练样本进行等频划分。步骤二:全集特征选择:经过上述数据分层和特征预处理后对数据中所有特征进行初步筛选,使用1.IV值筛选,2.随机森林拟合后importance筛选,3.PCA&共线性剔除和4.ElasticNet挑选的方法,得到备选的特征子集。此步的目的是快速剔除无关或极弱特征,保证入选特征的效果,提高之后训练模型的时效性和节约计算资源。步骤三:子集特征选择:为在步骤二的基础上,对选定的等频数据进行逐步回归拟合(Stepwise),得到备选模型与对应特征变量。再使用交叉验证的方法,对此模型的预测效果进行评估,所用评估指标为AUC和KS。步骤四:重复步骤一、步骤二和步骤三多次,得到多个模型和多个对应的评估指标,即多个局部最优解。步骤五:效果评估与最优模型输出:经过上述步骤,结合AUC均值最大,AUC标准差最小,KS均值最大和KS均值标准差最小等指标选出符合场景需本文档来自技高网...

【技术保护点】
1.一种训练模型时的多轮循环特征选择方法,其特征在于,包括:S1,获取建模样本,并将所述建模样本划分为训练样本和测试样本;S2,对所述训练样本进行等频划分,得到L份数据,其中,L为预设数;S3,分别对全部备选特征进行初步筛选,所述初步筛选包括:IV值筛选、随机森林拟合后importance筛选、PCA&共线性剔除和Elastic Net挑选,并对筛选后的特征进行特征处理,得到备选特征集;S4,随机抽取L份数据中的M份数据作为训练数据,进行逐步回归拟合,得到筛选后的特征集,对所述筛选后的特征集使用交叉验证方法,在所述L份数据上再次进行样本划分,使用其中的T份数据进行训练得到备选模型,并利用所述L份数据中的剩余份数据对所述备选模型进行测试,得到初步评估结果,并重复执行K次,得到该筛选后的特征集的综合评估结果,其中M小于L为预设数,T小于L为预设数,K为预设数;S5,重复执行N次步骤S2‑S4,得到多个备选模型和多个对应的评估结果,其中,N为预设数;S6,确定最优评估结果,选取最终特征集;S7,利用所述最终特征集训练最优模型,输出所述最优模型。

【技术特征摘要】
1.一种训练模型时的多轮循环特征选择方法,其特征在于,包括:S1,获取建模样本,并将所述建模样本划分为训练样本和测试样本;S2,对所述训练样本进行等频划分,得到L份数据,其中,L为预设数;S3,分别对全部备选特征进行初步筛选,所述初步筛选包括:IV值筛选、随机森林拟合后importance筛选、PCA&共线性剔除和ElasticNet挑选,并对筛选后的特征进行特征处理,得到备选特征集;S4,随机抽取L份数据中的M份数据作为训练数据,进行逐步回归拟合,得到筛选后的特征集,对所述筛选后的特征集使用交叉验证方法,在所述L份数据上再次进行样本划分,使用其中的T份数据进行训练得到备选模型,并利用所述L份数据中的剩余份数据对所述备选模型进行测试,得到初步评估结果,并重复执行K次,得到该筛选后的特征集的综合评估结果,其中M小于L为预设数,T小于L为预设数,K为预设数;S5,重复执行N次步骤S2-S4,得到多个备选模型和多个对应的评估结果,其中,N为预设数;S6,确定最优评估结果,选取最终特征集;S7,利用所述最终特征集训练最优模型,输出所述最优模型。2.根据权利要求1所述的方法,其特征在于,所述对所述训练样本进行等频划分,得到L份数据包括:根据所述训练样本的训练数据本身分布,对应目标特征和特征表现,对所述训练样本进行等频划分,得到L份数据。3.根据权利要求1所述的方法,其特征在于,所述初步评估结果包括:AUC和KS,所述筛选后的特征集的评估结果包括:AUC和KS的均值和标准差。4.根据权利要求3所述的方法,其特征在于,所述确定最优评估结果,选取最终特征集包括:利用AUC均值最大、AUC标准差最小、KS均值最大和KS均值标准差最小指标选出所述最终特征集。5.根据权利要求1所述的方法,其特征在于,还包括:S8,利用所述测试样本对所述最优模型进行测试。6.一种训练模型时的多轮循环特征选择装置,其特征在于,包括:获取模块,用于获取建模样本,并将所述...

【专利技术属性】
技术研发人员:顾凌云谢旻旗段湾周轩张涛王震宇王存伟冯杰乔韵如黄海涛罗雨晨张阳刘念
申请(专利权)人:上海冰鉴信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1