【技术实现步骤摘要】
多阶段特征筛选方法、装置、电子设备及存储介质
[0001]本申请涉及数据挖掘领域,尤其涉及多阶段特征筛选方法、装置、电子设备及存储介质。
技术介绍
[0002]为了预测模型性能达到最佳,不仅要选取最好的算法,而且还要尽可能的从原始数据中挖掘更多信息。从原始数据中提取有效信息的过程被称为特征工程。特征工程在机器学习领域占有相当重要的地位。优良的特征工程不仅能够方便模型的搭建,而且能够加快训练速度,从而在一定程度上决定了模型效果的上限。
[0003]然而,特征数量并不是越多越好,过多的特征不仅会导致内存占用过大且训练速度变慢,而且更可能导致模型有过拟合的风险。如何找到一组有效的特征是模型搭建的关键。
[0004]传统来讲,特征工程需要大量的人力和时间,以及领域内的相关知识,并且需有人手动的一个个进行测试。如何把这个流程自动化,并达到更好的效果,一直是业界和学术界进行广泛研究的焦点。暴力的实现方式,例如如穷竭搜索(exhaustive search)确实可以得到最佳的一组特征,然而这种方法需要找到所有可能的特征组合 ...
【技术保护点】
【技术特征摘要】
1.一种多阶段特征筛选方法,包括:将候选特征分为多个层次;从所述多个层次中的低阶特征层开始,进行所述候选特征的预处理;利用树模型获得每个所述预处理后特征的特征重要性,并基于所述特征重要性对所述预处理后特征进行筛选,以获得筛选后特征;以及利用所述筛选后特征训练所述树模型,并且利用验证集测试所述筛选后特征的效果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在测试所述筛选后特征的效果提高的情况下,针对所述多个层次中的层次比所述低阶特征层高的高阶特征层逐层执行所述筛选后特征的生成,并测试每层的所述筛选后特征的效果;以及在测试所述筛选后特征的效果降低或者完成全部所述候选特征的筛选的情况下,停止进行特征筛选并输出最佳特征。3.根据权利要求1或2所述的方法,其特征在于,其中,将所述候选特征分为所述多个层次包括:计算所述候选特征的特征复杂度或自定义的评价参数;以及根据所述特征复杂度或所述自定义的评价参数,将所述候选特征分为所述多个层次。4.根据权利要求1或2所述的方法,其特征在于,其中,利用所述树模型获得每个所述预处理后特征的所述特征重要性,并基于所述特征重要性对所述预处理后特征进行筛选,以获得所述筛选后特征包括:对所述预处理后特征进行随机采样,以获得预定数量的样本;通过LightGBM模型计算所述样本内的每个所述预处理后特征的信息增益,以获得所述特征重要性的结果;以及根据所述特征重要性的结果对所述样本内的所述预处理后特征排序,并且基于预设条件滤除所述信息增益低的所述预处理后特征,以获得所述筛选后特征。5.一种多阶段特征筛选装置,包括:特征分层模块,该特征分层模块用于将候选特征分为多个层次;层内特征提取模块,该层内特征提取模块用于针对所述多个层次中的低阶特征层,进行所述候选特征的预处理;特征筛选模块,该特征筛选模块用于利用树模型获得每个所述预处理后特征的特征重要性,并基于所述特征重要性对所述预处理后特征进行...
【专利技术属性】
技术研发人员:陈海波,何智星,
申请(专利权)人:深延科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。