【技术实现步骤摘要】
一种降低特征权重的方法、装置及计算机可读存储介质
[0001]本申请涉及计算机
,具体而言,涉及一种降低特征权重的方法、装置及计算机可读存储介质。
技术介绍
[0002]特征是模型的重要组成部分,特征选择是构建模型的重要环节,入模特征决定了模型效果。在实际工作中,会遇到这样一种情况:某个特征在建模数据集上效果很好,但由于特征不稳定,或在经验上效果一般,入模可能会导致模型对未来数据的预测能力下降。为了保证模型的稳定性,建模人员通常会删除该特征,而损失该特征信息会导致模型效果明显降低。
技术实现思路
[0003]为了至少克服现有技术中的上述不足,本申请的目的在于提供一种降低特征权重的方法、装置及计算机可读存储介质,用于解决上述技术问题。
[0004]第一方面,本申请实施例提供一种降低特征权重的方法,应用于计算机设备,所述方法包括:
[0005]获取用于模型训练的训练样本集及所述训练样本集中样本的特征组成的样本特征集;
[0006]基于所述训练样本集,采用所述样本特征集构建特征模型,得到所述样本特征集中各个样本特征在所述特征模型的特征权重排名,其中,所述特征模型为可用于实现增量学习的集成模型;
[0007]将所述样本特征集划分为由需要降低特征权重排名的样本特征组成的第一样本特征子集,和不需要降低特征权重排名的样本特征组成的第二样本特征子集;
[0008]根据所述第二样本特征子集构建基模型,并基于所述基模型,按照所述第一样本特征子集中样本特征在所述特征模型的特征权 ...
【技术保护点】
【技术特征摘要】
1.一种降低特征权重的方法,其特征在于,应用于计算机设备,所述方法包括:获取用于模型训练的训练样本集及所述训练样本集中样本的特征组成的样本特征集;基于所述训练样本集,采用所述样本特征集构建特征模型,得到所述样本特征集中各个样本特征在所述特征模型的特征权重排名,其中,所述特征模型为可用于实现增量学习的集成模型;将所述样本特征集划分为由需要降低特征权重排名的样本特征组成的第一样本特征子集,和不需要降低特征权重排名的样本特征组成的第二样本特征子集;根据所述第二样本特征子集构建基模型,并基于所述基模型,按照所述第一样本特征子集中样本特征在所述特征模型的特征权重排名顺序依次进行增量模型构建,得到降低特征权重后的特征模型。2.如权利要求1所述的降低特征权重的方法,其特征在于,所述特征模型为梯度提升模型,所述基于所述训练样本集,采用所述样本特征集构建特征模型,得到所述样本特征集中各个样本特征在所述特征模型的特征权重排名的步骤,包括:采用所述样本特征集构建由树组成的特征模型;基于所述样本特征集中的样本特征在所述特征模型中用于被分裂节点的次数作为特征权重的度量,得到所述样本特征集中各个样本特征在所述特征模型的特征权重排名。3.如权利要求2所述的降低特征权重的方法,其特征在于,所述将所述样本特征集划分为由需要降低特征权重排名的样本特征组成的第一样本特征子集,和不需要降低特征权重排名的样本特征组成的第二样本特征子集的步骤,包括:基于专家经验从所述样本特征集中选择需要降低特征权重排名的样本特征组成的第一样本特征子集,并对所述第一样本特征子集中的样本特征按照特征权重进行排序;采用所述样本特征集与所述第一样本特征子集进行相减处理,得到由不需要降低特征权重排名的样本特征组成的第二样本特征子集。4.如权利要求2或3所述的降低特征权重的方法,其特征在于,所述根据所述第二样本特征子集构建基模型,并基于所述基模型,按照所述第一样本特征子集中样本特征在所述特征模型的特征权重排名顺序依次进行增量模型构建,得到降低特征权重后的特征模型的步骤,包括:采用所述第二样本特征子集构建基模型,并将所述第一样本特征子集中特征权重排名最大的样本特征作为目标样本特征;在所述基模型的基础上采用所述第一样本特征子集中的目标样本特征及所述第二样本特征子集构建增量模型,并得到所述目标样本特征在所述增量模型中的特征权重排名;基于所述目标样本特征在所述特征模型的特征权重排名、所述目标样本特征在所述增量模型中的特征权重排名、预先设定的特征权重排名降低阈值以及所述第一样本特征子集中的样本特征数量,判断是否需要重新确定所述基模型;若判定不需要重新确定所述基模型,则将所述目标样本特征加入所述第二样本特征子集中,并将所述目标样本特征从所述第一样本特征子集中移出,重复上述步骤,直到所述第一样本特征子集中的样本特征的个数为零,将最终得到的增量模型作为特征模型。5.如权利要求4所述的降低特征权重的方法,其特征在于,所述基于所述目标样本特征在所述特征模型的特征权重排名、所述目标样本特征在所述增量模型中的特征权重排名、
预先设定的特征权重排名降低阈值以及所述第一样本特征子集中的样本特征数量,确定是否更新所述基模型的步骤,包括...
【专利技术属性】
技术研发人员:顾凌云,周轩,王妍,乔韵如,
申请(专利权)人:上海冰鉴信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。