【技术实现步骤摘要】
本专利技术涉及数据处理,具体地说,是一种适用于大数据下模型的高效特征选择方法。
技术介绍
1、目前搜索推荐相关的算法应用前沿领域,数据量越来越大,特征维度也越来越高,样本和特征之间的关系也越来越复杂,模型学习各种特征参数,最终预测用户对各类场景下的点击概率。而那些早就过亿级别的数据和千万级别的特征,使得线上模型的训练和迭代越来越复杂,对我们的计算和存储带来挑战,同时过多的无效特征参数也会对模型效果带来损益。所以,节省计算资源的同时还能快速提高模型效果是业界非常关心的问题。
2、面对越来越复杂的数据和特征,现有的优化思路主要来自两方面:
3、一种是提升模型在实际中的计算能力,即增加部署的机器数量或者提升机器运行效率。这种虽然能短时间加快模型的迭代效率,一定量级的数据下能产出结果。但还是没解决冗余的无效特征的情况,而且随着数据量的继续增加,场景的复杂,机器成本进一步增加,越往后投入产出比越低。
4、另一种就是在模型输入部分就尽可能的减少无效特征,尽可能的输入关联的有效特征,也就是常见的特征选择。传统的特征
...【技术保护点】
1.一种适用于大数据下模型的高效特征选择方法,其特征在于,包括两个模块设定为模块一和模块二,具体包括以下步骤:
2.根据权利要求1所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述模块一的步骤1.1中具体包括以下流程:对乱码脏数据的过滤、不规则数据的规则化、连续特征分箱、离散特征热编码和交叉特征处理。
3.根据权利要求2所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述步骤1.2中,训练数据和预测数据的比例为7:3。
4.根据权利要求3所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述步骤1.4中使用到
...【技术特征摘要】
1.一种适用于大数据下模型的高效特征选择方法,其特征在于,包括两个模块设定为模块一和模块二,具体包括以下步骤:
2.根据权利要求1所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述模块一的步骤1.1中具体包括以下流程:对乱码脏数据的过滤、不规则数据的规则化、连续特征分箱、离散特征热编码和交叉特征处理。
3.根据权利要求2所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述步骤1.2中,训练数据和预测数据的比例为7:3。
【专利技术属性】
技术研发人员:张磊磊,黄效军,张炎吾,
申请(专利权)人:苏州特思恩科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。