特征选择优化方法、设备和可读存储介质技术

技术编号:28038413 阅读:21 留言:0更新日期:2021-04-09 23:21
本申请公开了一种特征选择优化方法、设备和可读存储介质,所述特征选择优化方法包括:获取各待选择特征对应的样本分箱结果,并基于各所述样本分箱结果,对各所述待选择特征进行特征选择,获得不符合预设特征评估值要求的候选特征集以及符合所述预设特征评估值要求的目标特征集;依据所述候选特征集中每一候选特征在各自对应的样本分箱结果上的各分箱特征评估值,确定各所述候选特征对应的目标样本分箱;基于各所述目标样本分箱与所述候选特征集,构造符合所述预设特征评估值要求的各目标交叉特征;将各所述目标交叉特征加入所述目标特征集,获得目标特征选择结果。本申请解决了特征选择效果差的技术问题。

【技术实现步骤摘要】
特征选择优化方法、设备和可读存储介质
本申请涉及机器学习
,尤其涉及一种特征选择优化方法、设备和可读存储介质。
技术介绍
随着计算机技术的飞速发展,机器学习的应用也越来越广泛,而为了提高机器模型模型构建的效率和效果,通常在进行建模之前需要进行特征选择,目前,特征选择的方法通常是基于IV(InformationValue)值来筛选掉区分力差的特征,但是,由于IV值的计算与特征值分布的离散程度相关,进而基于IV值进行特征选择的公平性将受到特征值分布的离散程度影响,导致基于IV值进行特征选择的公平性较低,降低了特征选择的效果,且特征选择剔除的特征也会损失一些有价值的建模特征信息,进而进一步降低了特征选择的效果。
技术实现思路
本申请的主要目的在于提供一种特征选择优化方法、设备和可读存储介质,旨在解决现有技术中特征选择效果差的技术问题。为实现上述目的,本申请提供一种特征选择优化方法,所述特征选择优化方法应用于特征选择优化设备,所述特征选择优化方法包括:获取各待选择特征对应的样本分箱结果,并基于各所述样本分箱结果本文档来自技高网...

【技术保护点】
1.一种特征选择优化方法,其特征在于,所述特征选择优化方法包括:/n获取各待选择特征对应的样本分箱结果,并基于各所述样本分箱结果,对各所述待选择特征进行特征选择,获得不符合预设特征评估值要求的候选特征集以及符合所述预设特征评估值要求的目标特征集;/n依据所述候选特征集中每一候选特征在各自对应的样本分箱结果上的各分箱特征评估值,确定各所述候选特征对应的目标样本分箱;/n基于各所述目标样本分箱与所述候选特征集,构造符合所述预设特征评估值要求的各目标交叉特征;/n将各所述目标交叉特征加入所述目标特征集,获得目标特征选择结果。/n

【技术特征摘要】
1.一种特征选择优化方法,其特征在于,所述特征选择优化方法包括:
获取各待选择特征对应的样本分箱结果,并基于各所述样本分箱结果,对各所述待选择特征进行特征选择,获得不符合预设特征评估值要求的候选特征集以及符合所述预设特征评估值要求的目标特征集;
依据所述候选特征集中每一候选特征在各自对应的样本分箱结果上的各分箱特征评估值,确定各所述候选特征对应的目标样本分箱;
基于各所述目标样本分箱与所述候选特征集,构造符合所述预设特征评估值要求的各目标交叉特征;
将各所述目标交叉特征加入所述目标特征集,获得目标特征选择结果。


2.如权利要求1所述特征选择优化方法,其特征在于,所述基于各所述目标样本分箱与所述候选特征集,构造符合所述预设特征评估值要求的各目标交叉特征的步骤包括:
基于各所述目标样本分箱,在所述候选特征集中筛选各目标候选特征组;
在各所述目标候选特征组中提取当前候选特征组,并对所述当前候选特征组中的第一目标候选特征与第二目标候选特征进行特征交叉,获得交叉特征;
判断所述交叉特征是否符合所述预设特征评估值要求;
若符合,则将所述交叉特征作为所述目标交叉特征,否则,剔除所述交叉特征;
返回所述在各所述目标候选特征组中提取当前候选特征组的步骤,直至符合预设特征构造结束条件,获得各所述目标交叉特征。


3.如权利要求2所述特征选择优化方法,其特征在于,在所述对所述当前候选特征组中的第一目标候选特征与第二目标候选特征进行特征交叉,获得交叉特征的步骤之前,所述特征选择优化方法还包括:
获取所述第一目标候选特征对应的第一候选特征编码以及所述第二目标候选特征对应的第二候选特征编码;
判断所述第一候选特征编码与所述第二候选特征编码是否属于同一预设业务特征编码集合;
若是,则执行所述对所述当前候选特征组中的第一目标候选特征与第二目标候选特征进行特征交叉,获得交叉特征的步骤。


4.如权利要求2所述特征选择优化方法,其特征在于,所述基于各所述目标样本分箱,在所述候选特征集中筛选各目标候选特征组的步骤包括:
计算各所述目标样本分箱两两之间具备预设样本标签的目标样本占比;
基于各所述目标样本占比,在所述候选特征集中筛选各所述目标候选特征组。


5.如权利要求4所述特征选择优化方法,其特征在于,所述计算各所述目标样本分箱两两之间具备预设样本标签的目标样本占比的步骤包括:
对各所述样本分箱两两之间求交集,获得各样本分箱交集;
统计各所述样本分箱交集对应的交...

【专利技术属性】
技术研发人员:要卓陈婷吴三平庄伟亮
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1