一种逻辑回归算法的特征处理筛选方法技术

技术编号:38862451 阅读:14 留言:0更新日期:2023-09-17 10:04
本发明专利技术公开一种逻辑回归算法的特征处理筛选方法,包括如下步骤:S1、首先,将特征进行分类,分类后进行数据探索分析,将分类特征进行映射,再进行划分数据集;S2、其次,对特征进行粗筛,并填充缺失值,确保特征稳定性;S3、然后,再分别采用正则化筛选法、逐步回归筛选法、手动筛选法对特征进行筛选;S4、对特征进行独立性检验、P

【技术实现步骤摘要】
一种逻辑回归算法的特征处理筛选方法


[0001]本专利技术涉及逻辑回归特征处理
,具体为一种逻辑回归算法的特征处理筛选方法。

技术介绍

[0002]随着我国社会经济快速发展,人工智能被广泛的运用于多个领域,逻辑回归作为机器学习里的基础算法以其计算快、易理解、拟合效果好等优点被高频运用于统计模型的建立。
[0003]而由于其简单易理解的原理,此类算法对特征的前期处理要求极高,一旦处理不严谨则会导致模型应用于市场后,效果远远差于实验效果,或是效果不稳定忽高忽低等问题。另外,由于前期处理步骤复杂,技术人员建模方法不统一,使模型出产效果天差地别,交付成果格式多样化,导致模型生产效率低,部署难度高。标准化的建模流程可提高生产效率,节省人工资源,提高模型质量,扩大模型适用范围以及延长使用周期。

技术实现思路

[0004]本专利技术的目的在于提供一种逻辑回归算法的特征处理筛选方法,以解决上述
技术介绍
提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种逻辑回归算法的特征处理筛选方法,包括如下步骤:
[0006]S1、首先,将特征进行分类,分类后进行数据探索分析,将分类特征进行映射,再进行划分数据集;
[0007]S2、其次,对特征进行粗筛,并填充缺失值,确保特征稳定性;
[0008]S3、然后,再分别采用正则化筛选法、逐步回归筛选法、手动筛选法对特征进行筛选;
[0009]S4、对特征进行独立性检验、P

value检验,手动筛查特征相关性,最后采用模型选取特征。
[0010]更进一步的,在S1中,先将特征按“数值变量”和“分类变量”进行划分,将分类变量按种类计算标签占比,降序排列为其赋值,按标签类型分层抽样,划分训练集和测试集,确保训练集与测试集标签比例一致。
[0011]更进一步的,在S2中,特征粗筛具体步骤为:
[0012]删除缺失率≥0.95的特征
[0013]删除同质率≥0.95的特征
[0014]删除信息值≤0.02
[0015]更进一步的,特征稳定性具体操作为:
[0016]特征分箱并计算woe值:
[0017]将特征原始值转换成woe值
[0018]删除psi≥0.02的特征删除psi≥0.02的特征
[0019]根据本次分箱结果删除iv≤0.02的特征。
[0020]更进一步的,在S3中,先采用正则化筛选特征,然后将将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除,再进行手动调整分箱并筛选特征,特征分箱的woe值与标签的比例呈现单调关系,即iv≥0.02,并且训练集与测试集趋势保持一致。
[0021]更进一步的,在S4中,采用VIF方差膨胀因子检验对特征的独立性进行检验,对因子之间的线性相关关系进行检验,筛除VIF≥3的特征;在P

value检验中,筛除p

value≥0.05的特征;在手动筛查阶段,画出特征相关性矩阵图,对于相关性高的特征结合业务逻辑,选择性剔除;最后,按照iv值将特征降序排列,依次逐个加入模型,每加入一个特征模型训练100次并计算100次Gini,而后取中位数Gini作为特征的增益值,当特征的同比增益值,当入模特征个数≥8时,同比增益值≤10%停止计算,或当入模特征个数到达15个,停止计算。
[0022]与现有技术相比,本专利技术的有益效果是:
[0023]1、在机器学习繁多算法中,逻辑回归一直频繁被使用的原因就是其极高的鲁棒性,但是其预测效果常常低于其他算法,本方法通过多种统计与数学方法巩固其鲁棒性的同时,增加该算法的预测效果,通过八种方式筛查特征稳定性、相关性等,并挖掘特征提高模型贡献度进而增加模型鲁棒性,通过两种方法筛选入模型特征,两种方法交叉验证,确保入模变量的最优化进而大幅提高预测效果。
附图说明
[0024]图1为本专利技术逻辑回归特征筛选流程图;
[0025]图2为本专利技术步骤串联流程图。
具体实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]请参照图1

2所示,本专利技术为一种逻辑回归算法的特征处理筛选方法,包括如下步骤:
[0028]S1、首先,将特征进行分类,分类后进行数据探索分析,将分类特征进行映射,再进
行划分数据集;
[0029]S2、其次,对特征进行粗筛,并填充缺失值,确保特征稳定性;
[0030]S3、然后,再分别采用正则化筛选法、逐步回归筛选法、手动筛选法对特征进行筛选;
[0031]S4、对特征进行独立性检验、P

value检验,手动筛查特征相关性,最后采用模型选取特征。
[0032]在S1中,先将特征按“数值变量”和“分类变量”进行划分,将分类变量按种类计算标签占比,降序排列为其赋值,按标签类型分层抽样,划分训练集和测试集,确保训练集与测试集标签比例一致。
[0033]在S2中,特征粗筛具体步骤为:
[0034]删除缺失率≥0.95的特征
[0035]删除同质率≥0.95的特征
[0036]删除信息值≤0.02
[0037]特征稳定性具体操作为:
[0038]特征分箱并计算woe值
[0039]将特征原始值转换成woe值
[0040]删除psi≥0.02的特征删除psi≥0.02的特征
[0041]根据本次分箱结果删除iv≤0.02的特征。
[0042]在S3中,先采用正则化筛选特征,然后将将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除,再进行手动调整分箱并筛选特征,特征分箱的woe值与标签的比例呈现单调关系,即iv≥0.02,并且训练集与测试集趋势保持一致。
[0043]在S4中,采用VIF方差膨胀因子检验对特征的独立性进行检验,对因子之间的线性相关关系进行检验,筛除VIF≥3的特征;在P

value检验中,筛除p

value≥0.05的特征;在手动筛查阶段,画出特征相关性矩阵图,对于相关性高的特征结合业务逻辑,选择性剔除;最后,按照iv值将特征降序排列,依次逐个加入模型,每加入一个特征模型训练100次并计算100次Gini,而后取中位数Gini作为特征的增益值,当特征的同比增益值,当入模特征个数≥8时,同比增益值≤10%停止计算,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种逻辑回归算法的特征处理筛选方法,其特征在于,包括如下步骤:S1、首先,将特征进行分类,分类后进行数据探索分析,将分类特征进行映射,再进行划分数据集;S2、其次,对特征进行粗筛,并填充缺失值,确保特征稳定性;S3、然后,再分别采用正则化筛选法、逐步回归筛选法、手动筛选法对特征进行筛选;S4、对特征进行独立性检验、P

value检验,手动筛查特征相关性,最后采用模型选取特征。2.根据权利要求1所述的一种逻辑回归算法的特征处理筛选方法,其特征在于,在S1中,先将特征按“数值变量”和“分类变量”进行划分,将分类变量按种类计算标签占比,降序排列为其赋值,按标签类型分层抽样,划分训练集和测试集,确保训练集与测试集标签比例一致。3.根据权利要求1所述的一种逻辑回归算法的特征处理筛选方法,其特征在于,在S2中,特征粗筛具体步骤为:删除缺失率≥0.95的特征删除同质率≥0.95的特征删除信息值≤0.024.根据权利要求3所述的一种逻辑回归算法的特征处理筛选方法,其特征在于,特征稳定性具体操作为:特征分箱并计算woe值:特征原始值转换成woe值删除psi≥0.02的特征删除psi≥0.02的特征根据本次分箱结果删除iv≤0.02的特征...

【专利技术属性】
技术研发人员:闫方超李博燚
申请(专利权)人:天津布尔科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1