一种适用于大数据下模型的高效特征选择方法技术

技术编号：39987850 阅读：26 留言：0更新日期：2024-01-09 02:02

本发明专利技术涉及数据处理技术领域，具体地说，是一种适用于大数据下模型的高效特征选择方法，对清洗整理好的原始数据和特征，输入到选定的初始模型中训练，得到具体特征的重要性打分score，然后对于同样的样本数据的标签打乱，并重新计算特征重要性score，计算在这两种情况下特征score的偏离程度，按照偏离度的大小计算目标指标的效果，就可以得到全部的重要特征，选用得分最好的这一批特征作为线上模型的输入，进行线上模型的训练和预测，就能既节省大量成本又能提高迭代效率和效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，具体地说，是一种适用于大数据下模型的高效特征选择方法。

技术介绍

1、目前搜索推荐相关的算法应用前沿领域，数据量越来越大，特征维度也越来越高，样本和特征之间的关系也越来越复杂，模型学习各种特征参数，最终预测用户对各类场景下的点击概率。而那些早就过亿级别的数据和千万级别的特征，使得线上模型的训练和迭代越来越复杂，对我们的计算和存储带来挑战，同时过多的无效特征参数也会对模型效果带来损益。所以，节省计算资源的同时还能快速提高模型效果是业界非常关心的问题。

2、面对越来越复杂的数据和特征，现有的优化思路主要来自两方面：

3、一种是提升模型在实际中的计算能力，即增加部署的机器数量或者提升机器运行效率。这种虽然能短时间加快模型的迭代效率，一定量级的数据下能产出结果。但还是没解决冗余的无效特征的情况，而且随着数据量的继续增加，场景的复杂，机器成本进一步增加，越往后投入产出比越低。

4、另一种就是在模型输入部分就尽可能的减少无效特征，尽可能的输入关联的有效特征，也就是常见的特征选择。传统的特征...

【技术保护点】

1.一种适用于大数据下模型的高效特征选择方法，其特征在于，包括两个模块设定为模块一和模块二，具体包括以下步骤：

2.根据权利要求1所述的适用于大数据下模型的高效特征选择方法，其特征在于，所述模块一的步骤1.1中具体包括以下流程：对乱码脏数据的过滤、不规则数据的规则化、连续特征分箱、离散特征热编码和交叉特征处理。

3.根据权利要求2所述的适用于大数据下模型的高效特征选择方法，其特征在于，所述步骤1.2中，训练数据和预测数据的比例为7：3。

4.根据权利要求3所述的适用于大数据下模型的高效特征选择方法，其特征在于，所述步骤1.4中使用到的模型采用树模型xg...

【技术特征摘要】

1.一种适用于大数据下模型的高效特征选择方法，其特征在于，包括两个模块设定为模块一和模块二，具体包括以下步骤：

3.根据权利要求2所述的适用于大数据下模型的高效特征选择方法，其特征在于，所述步骤1.2中，训练数据和预测数据的比例为7：3。

【专利技术属性】
技术研发人员：张磊磊，黄效军，张炎吾，
申请(专利权)人：苏州特思恩科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人