一种适用于大数据下模型的高效特征选择方法技术

技术编号:39987850 阅读:26 留言:0更新日期:2024-01-09 02:02
本发明专利技术涉及数据处理技术领域,具体地说,是一种适用于大数据下模型的高效特征选择方法,对清洗整理好的原始数据和特征,输入到选定的初始模型中训练,得到具体特征的重要性打分score,然后对于同样的样本数据的标签打乱,并重新计算特征重要性score,计算在这两种情况下特征score的偏离程度,按照偏离度的大小计算目标指标的效果,就可以得到全部的重要特征,选用得分最好的这一批特征作为线上模型的输入,进行线上模型的训练和预测,就能既节省大量成本又能提高迭代效率和效果。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体地说,是一种适用于大数据下模型的高效特征选择方法


技术介绍

1、目前搜索推荐相关的算法应用前沿领域,数据量越来越大,特征维度也越来越高,样本和特征之间的关系也越来越复杂,模型学习各种特征参数,最终预测用户对各类场景下的点击概率。而那些早就过亿级别的数据和千万级别的特征,使得线上模型的训练和迭代越来越复杂,对我们的计算和存储带来挑战,同时过多的无效特征参数也会对模型效果带来损益。所以,节省计算资源的同时还能快速提高模型效果是业界非常关心的问题。

2、面对越来越复杂的数据和特征,现有的优化思路主要来自两方面:

3、一种是提升模型在实际中的计算能力,即增加部署的机器数量或者提升机器运行效率。这种虽然能短时间加快模型的迭代效率,一定量级的数据下能产出结果。但还是没解决冗余的无效特征的情况,而且随着数据量的继续增加,场景的复杂,机器成本进一步增加,越往后投入产出比越低。

4、另一种就是在模型输入部分就尽可能的减少无效特征,尽可能的输入关联的有效特征,也就是常见的特征选择。传统的特征选择要么非常依赖人工本文档来自技高网...

【技术保护点】

1.一种适用于大数据下模型的高效特征选择方法,其特征在于,包括两个模块设定为模块一和模块二,具体包括以下步骤:

2.根据权利要求1所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述模块一的步骤1.1中具体包括以下流程:对乱码脏数据的过滤、不规则数据的规则化、连续特征分箱、离散特征热编码和交叉特征处理。

3.根据权利要求2所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述步骤1.2中,训练数据和预测数据的比例为7:3。

4.根据权利要求3所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述步骤1.4中使用到的模型采用树模型xg...

【技术特征摘要】

1.一种适用于大数据下模型的高效特征选择方法,其特征在于,包括两个模块设定为模块一和模块二,具体包括以下步骤:

2.根据权利要求1所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述模块一的步骤1.1中具体包括以下流程:对乱码脏数据的过滤、不规则数据的规则化、连续特征分箱、离散特征热编码和交叉特征处理。

3.根据权利要求2所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述步骤1.2中,训练数据和预测数据的比例为7:3。

【专利技术属性】
技术研发人员:张磊磊黄效军张炎吾
申请(专利权)人:苏州特思恩科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1