一种降低特征权重的方法、装置及计算机可读存储介质制造方法及图纸

技术编号:32830873 阅读:10 留言:0更新日期:2022-03-26 20:43
本申请实施例提供的降低特征权重的方法、装置及计算机可读存储介质,涉及计算机技术领域。首先,获取样本特征集;接着,得到不同样本特征的特征权重排名;然后,将样本特征集分为需要降低特征权重排名的样本特征组成的第一样本特征子集与不需要降低特征权重排名的样本特征组成的第二样本特征子集;最后,根据第二样本特征子集构建基模型,并在基模型的基础上通过第一样本特征子集中样本特征构的特征权重排名顺序依次进行增量模型构建。上述方法通过减少第一样本特征子集中样本特征参与构建的树的棵数,降低第一样本特征子集中样本特征的权重排名,从而实现降低特征权重的目的,避免直接删除特征带来的信息损失和模型效果的大幅度降低。的大幅度降低。的大幅度降低。

【技术实现步骤摘要】
一种降低特征权重的方法、装置及计算机可读存储介质


[0001]本申请涉及计算机
,具体而言,涉及一种降低特征权重的方法、装置及计算机可读存储介质。

技术介绍

[0002]特征是模型的重要组成部分,特征选择是构建模型的重要环节,入模特征决定了模型效果。在实际工作中,会遇到这样一种情况:某个特征在建模数据集上效果很好,但由于特征不稳定,或在经验上效果一般,入模可能会导致模型对未来数据的预测能力下降。为了保证模型的稳定性,建模人员通常会删除该特征,而损失该特征信息会导致模型效果明显降低。

技术实现思路

[0003]为了至少克服现有技术中的上述不足,本申请的目的在于提供一种降低特征权重的方法、装置及计算机可读存储介质,用于解决上述技术问题。
[0004]第一方面,本申请实施例提供一种降低特征权重的方法,应用于计算机设备,所述方法包括:
[0005]获取用于模型训练的训练样本集及所述训练样本集中样本的特征组成的样本特征集;
[0006]基于所述训练样本集,采用所述样本特征集构建特征模型,得到所述样本特征集中各个样本特征在所述特征模型的特征权重排名,其中,所述特征模型为可用于实现增量学习的集成模型;
[0007]将所述样本特征集划分为由需要降低特征权重排名的样本特征组成的第一样本特征子集,和不需要降低特征权重排名的样本特征组成的第二样本特征子集;
[0008]根据所述第二样本特征子集构建基模型,并基于所述基模型,按照所述第一样本特征子集中样本特征在所述特征模型的特征权重排名顺序依次进行增量模型构建,得到降低特征权重后的特征模型。
[0009]在一种可能的实现方式中,所述特征模型为梯度提升模型,所述基于所述训练样本集,采用所述样本特征集构建特征模型,得到所述样本特征集中各个样本特征在所述特征模型的特征权重排名的步骤,包括:
[0010]采用所述样本特征集构建由树组成的特征模型;
[0011]基于所述样本特征集中的样本特征在所述特征模型中用于被分裂节点的次数作为特征权重的度量,得到所述样本特征集中各个样本特征在所述特征模型的特征权重排名。
[0012]在一种可能的实现方式中,所述将所述样本特征集划分为由需要降低特征权重排名的样本特征组成的第一样本特征子集,和不需要降低特征权重排名的样本特征组成的第二样本特征子集的步骤,包括:
[0013]基于专家经验从所述样本特征集中选择需要降低特征权重排名的样本特征组成的第一样本特征子集,并对所述第一样本特征子集中的样本特征按照特征权重进行排序;
[0014]采用所述样本特征集与所述第一样本特征子集进行相减处理,得到由不需要降低特征权重排名的样本特征组成的第二样本特征子集。
[0015]在一种可能的实现方式中,所述根据所述第二样本特征子集构建基模型,并基于所述基模型,按照所述第一样本特征子集中样本特征在所述特征模型的特征权重排名顺序依次进行增量模型构建,得到降低特征权重后的特征模型的步骤,包括:
[0016]采用所述第二样本特征子集构建基模型,并将所述第一样本特征子集中特征权重排名最大的样本特征作为目标样本特征;
[0017]在所述基模型的基础上采用所述第一样本特征子集中的目标样本特征及所述第二样本特征子集构建增量模型,并得到所述目标样本特征在所述增量模型中的特征权重排名;
[0018]基于所述目标样本特征在所述特征模型的特征权重排名、所述目标样本特征在所述增量模型中的特征权重排名、预先设定的特征权重排名降低阈值以及所述第一样本特征子集中的样本特征数量,判断是否需要重新确定所述基模型;
[0019]若判定不需要重新确定所述基模型,则将所述目标样本特征加入所述第二样本特征子集中,并将所述目标样本特征从所述第一样本特征子集中移出,重复上述步骤,直到所述第一样本特征子集中的样本特征的个数为零,将最终得到的增量模型作为特征模型。
[0020]在一种可能的实现方式中,所述基于所述目标样本特征在所述特征模型的特征权重排名、所述目标样本特征在所述增量模型中的特征权重排名、预先设定的特征权重排名降低阈值以及所述第一样本特征子集中的样本特征数量,确定是否更新所述基模型的步骤,包括:
[0021]计算所述目标样本特征在所述增量模型中的特征权重排名与所述第一样本特征子集中除所述目标样本特征之外的其它样本特征的数量之和,得到第一和值;
[0022]计算所述目标样本特征在所述特征模型的特征权重排名与所述预先设定的特征权重排名降低阈值之和,得到第二和值;
[0023]将所述第一和值与所述第二和值比较,在所述第一和值小于或等于所述第二和值时,重新确定所述基模型,并重新基于确定后的基模型进行增量模型构建;在所述第一和值大于所述第二和值时,更新所述基模型中的确定树的棵数,重置所述基模型中的待确定的树的棵数,以及所述目标样本特征构建的树的棵数。
[0024]在一种可能的实现方式中,所述若判定不需要重新确定所述基模型,则将所述目标样本特征加入所述第二样本特征子集中,并将所述目标样本特征从所述第一样本特征子集中移出,重复上述步骤,直到所述第一样本特征子集中的样本特征的个数为零,将最终得到的增量模型作为特征模型的步骤,包括:
[0025]将所述目标样本特征加入所述第二样本特征子集中,并将所述目标样本特征从所述第一样本特征子集中移出;
[0026]检测所述第一样本特征子集中样本特征的数量,在检测到所述第一样本特征子集中样本特征的数量不为零时,将所述第一样本特征子集中的新的特征权重排名最大的样本特征作为目标样本特征,重复上述步骤;在检测到所述第一样本特征子集中样本特征的数
量为零时,将最终得到的增量模型作为特征模型。
[0027]第二方面,本申请实施例还提供一种降低特征权重的装置,应用于计算机设备,所述装置包括:
[0028]获取模块,用于获取用于模型训练的训练样本集及所述训练样本集中样本的特征组成的样本特征集;
[0029]第一构建模块,用于基于所述训练样本集,采用所述样本特征集构建特征模型,得到所述样本特征集中各个样本特征在所述特征模型的特征权重排名,其中,所述特征模型可用于实现增量学习;
[0030]划分模块,用于将所述样本特征集划分为由需要降低特征权重排名的样本特征组成的第一样本特征子集,和不需要降低特征权重排名的样本特征组成的第二样本特征子集;
[0031]第二构建模块,用于根据所述第二样本特征子集构建基模型,并基于所述基模型,按照所述第一样本特征子集中样本特征在所述特征模型的特征权重排名顺序依次进行增量模型构建,得到降低特征权重后的特征模型。
[0032]在一种可能的实现方式中,所述特征模型为梯度提升模型,所述第一构建模块具体用于:
[0033]采用所述样本特征集构建由树组成的特征模型;
[0034]基于所述样本特征集中的样本特征在所述特征模型中用于被分裂节点的次数作为特征权重的度量,得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种降低特征权重的方法,其特征在于,应用于计算机设备,所述方法包括:获取用于模型训练的训练样本集及所述训练样本集中样本的特征组成的样本特征集;基于所述训练样本集,采用所述样本特征集构建特征模型,得到所述样本特征集中各个样本特征在所述特征模型的特征权重排名,其中,所述特征模型为可用于实现增量学习的集成模型;将所述样本特征集划分为由需要降低特征权重排名的样本特征组成的第一样本特征子集,和不需要降低特征权重排名的样本特征组成的第二样本特征子集;根据所述第二样本特征子集构建基模型,并基于所述基模型,按照所述第一样本特征子集中样本特征在所述特征模型的特征权重排名顺序依次进行增量模型构建,得到降低特征权重后的特征模型。2.如权利要求1所述的降低特征权重的方法,其特征在于,所述特征模型为梯度提升模型,所述基于所述训练样本集,采用所述样本特征集构建特征模型,得到所述样本特征集中各个样本特征在所述特征模型的特征权重排名的步骤,包括:采用所述样本特征集构建由树组成的特征模型;基于所述样本特征集中的样本特征在所述特征模型中用于被分裂节点的次数作为特征权重的度量,得到所述样本特征集中各个样本特征在所述特征模型的特征权重排名。3.如权利要求2所述的降低特征权重的方法,其特征在于,所述将所述样本特征集划分为由需要降低特征权重排名的样本特征组成的第一样本特征子集,和不需要降低特征权重排名的样本特征组成的第二样本特征子集的步骤,包括:基于专家经验从所述样本特征集中选择需要降低特征权重排名的样本特征组成的第一样本特征子集,并对所述第一样本特征子集中的样本特征按照特征权重进行排序;采用所述样本特征集与所述第一样本特征子集进行相减处理,得到由不需要降低特征权重排名的样本特征组成的第二样本特征子集。4.如权利要求2或3所述的降低特征权重的方法,其特征在于,所述根据所述第二样本特征子集构建基模型,并基于所述基模型,按照所述第一样本特征子集中样本特征在所述特征模型的特征权重排名顺序依次进行增量模型构建,得到降低特征权重后的特征模型的步骤,包括:采用所述第二样本特征子集构建基模型,并将所述第一样本特征子集中特征权重排名最大的样本特征作为目标样本特征;在所述基模型的基础上采用所述第一样本特征子集中的目标样本特征及所述第二样本特征子集构建增量模型,并得到所述目标样本特征在所述增量模型中的特征权重排名;基于所述目标样本特征在所述特征模型的特征权重排名、所述目标样本特征在所述增量模型中的特征权重排名、预先设定的特征权重排名降低阈值以及所述第一样本特征子集中的样本特征数量,判断是否需要重新确定所述基模型;若判定不需要重新确定所述基模型,则将所述目标样本特征加入所述第二样本特征子集中,并将所述目标样本特征从所述第一样本特征子集中移出,重复上述步骤,直到所述第一样本特征子集中的样本特征的个数为零,将最终得到的增量模型作为特征模型。5.如权利要求4所述的降低特征权重的方法,其特征在于,所述基于所述目标样本特征在所述特征模型的特征权重排名、所述目标样本特征在所述增量模型中的特征权重排名、
预先设定的特征权重排名降低阈值以及所述第一样本特征子集中的样本特征数量,确定是否更新所述基模型的步骤,包括...

【专利技术属性】
技术研发人员:顾凌云周轩王妍乔韵如
申请(专利权)人:上海冰鉴信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1