GBDT模型的特征解释方法和装置制造方法及图纸

技术编号:19216059 阅读:72 留言:0更新日期:2018-10-20 06:50
本说明书实施例公开了一种获取对用户的预测标签值的特征解释的方法和装置,所述方法在通过GBDT模型预测用户的标签值之后执行,包括:在排序靠前的预定数目的各个决策树中,分别获取包括所述用户的叶子节点和所述叶子节点的分值;确定与各个所述叶子节点分别对应的各个预测路径;获取每个预测路径上各个父节点的分裂特征和分值;对于每个预测路径上的每个子节点,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量;获取全部所述子节点各自对应的特征的集合,作为与用户的预测标签值相关的多个特征;以及通过将对应于相同特征的至少一个子节点的特征局部增量相加,获取与至少一个子节点对应的特征与所述预测标签值的相关性。

【技术实现步骤摘要】
GBDT模型的特征解释方法和装置
本说明书实施例涉及数据处理
,更具体地,涉及一种对用户的预测标签值进行特征解释的方法和装置。
技术介绍
在互联网技术快速发展的背景下,对互联网中的数据挖掘工作变得越来越重要。通常,在数据挖掘中,通过机器学习基于标定数据进行建模,从而可使用训练好的模型用于处理待预测的数据。在多种机器学习算法中,GBDT(Gradientboostingdeisiontree,梯度提升决策树)算法由于其优异的学习性能,得到越来越广泛的应用。GBDT算法是一种用于回归、分类、排序等任务的机器学习技术,其通过结合多个弱学习器(通常为决策树)而获得强预测模型。其中,所述GBDT模型通过多次迭代,并且在每次迭代中使得损失函数在梯度方向上减少,从而获得多个决策树。随着GBDT算法的广泛应用,产生了日益增多的对GBDT模型的解释的需求。除了目前通常使用的作为全局解释的特征重要性参数之外,针对单个用户的局部特征贡献的解释主要包括以下两种方法:通过重新建模提取GBDT模型中的优选方案以进行解释;以及,通过调节特征值大小以测试该特征对预测性能损失的影响。因此,需要一种更有效的GBDT模型解释方案,以满足现有技术中的需求。
技术实现思路
本说明书实施例旨在提供一种更有效的GBDT模型解释方案,以解决现有技术中的不足。为实现上述目的,本说明书一个方面提供一种获取对用户的预测标签值的特征解释的方法,所述方法在通过GBDT模型预测用户的标签值之后执行,所述特征解释包括与所述用户的预测标签值相关的用户的多个特征、以及每个所述特征与所述预测标签值的相关性,所述GBDT模型中包括多个顺序排列的决策树,所述方法包括:在排序靠前的预定数目的各个所述决策树中,分别获取包括所述用户的叶子节点和所述叶子节点的分值,其中,所述叶子节点的分值为通过所述GBDT模型预定的分值;确定与各个所述叶子节点分别对应的各个预测路径,所述预测路径为从所述叶子节点至其所在决策树的根节点之间的节点连接路径;获取每个所述预测路径上各个父节点的分裂特征和分值,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定;对于每个所述预测路径上的每个子节点,通过所述每个子节点的自身的分值、其父节点的分值和其父节点的分裂特征,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量,其中所述每个子节点对应的特征为与所述用户的预测标签值相关的特征;获取全部所述子节点各自对应的特征的集合,作为与所述用户的预测标签值相关的多个特征;以及通过将对应于相同特征的至少一个所述子节点的特征局部增量相加,获取与所述至少一个子节点对应的特征与所述预测标签值的相关性。在一个实施例中,在所述获取对用户的预测标签值的特征解释的方法中,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定包括,所述父节点的分值为其两个子节点的分值的平均值。在一个实施例中,在所述获取对用户的预测标签值的特征解释的方法中,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定包括,所述父节点的分值为其两个子节点的分值的加权平均值,所述子节点的分值的权重基于在所述GBDT模型的训练过程中分配至其的样本数而确定。在一个实施例中,在所述获取对用户的预测标签值的特征解释的方法中,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量包括,获取所述每个子节点的自身分值与其父节点的分值的差,作为所述特征局部增量。在一个实施例中,在所述获取对用户的预测标签值的特征解释的方法中,所述GBDT模型为分类模型或回归模型。在一个实施例中,在所述获取对用户的预测标签值的特征解释的方法中,所述排序靠前的预定数目的所述决策树为所述GBDT模型中包括的多个顺序排列的决策树。本说明书另一方面提供一种获取对用户的预测标签值的特征解释的装置,所述装置在通过GBDT模型预测用户的标签值之后实施,所述特征解释包括与所述用户的预测标签值相关的用户的多个特征、以及每个所述特征与所述预测标签值的相关性,所述GBDT模型中包括多个顺序排列的决策树,所述装置包括:第一获取单元,配置为,在排序靠前的预定数目的各个所述决策树中,分别获取包括所述用户的叶子节点和所述叶子节点的分值,其中,所述叶子节点的分值为通过所述GBDT模型预定的分值;第一确定单元,配置为,确定与各个所述叶子节点分别对应的各个预测路径,所述预测路径为从所述叶子节点至其所在决策树的根节点之间的节点连接路径;第二获取单元,配置为,获取每个所述预测路径上各个父节点的分裂特征和分值,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定;第二确定单元,配置为,对于每个所述预测路径上的每个子节点,通过所述每个子节点的自身的分值、其父节点的分值和其父节点的分裂特征,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量,其中所述每个子节点对应的特征为与所述用户的预测标签值相关的特征;特征获取单元,配置为,获取全部所述子节点各自对应的特征的集合,作为与所述用户的预测标签值相关的多个特征;以及相关性获取单元,配置为,通过将对应于相同特征的至少一个所述子节点的特征局部增量相加,获取与所述至少一个子节点对应的特征与所述预测标签值的相关性。通过根据本说明书实施例的GBDT模型解释方案,只需获取GBDT模型中的已有参数和预测结果,即可获取对GBDT模型的用户级的准确的模型解释,并且,计算成本较低。另外,本说明书实施例的方案可适用于各种GBDT模型,适用性强,可操作性强。附图说明通过结合附图描述本说明书实施例,可以使得本说明书实施例更加清楚:图1示出根据本说明书实施例的一种获取对用户的预测标签值的特征解释的方法;图2示例示出了根据本说明书实施例的GBDT模型中包括的决策树;图3示例示出了基于图2所示的决策树实施根据本说明书实施例的方法的示意图;以及图4示出了根据本说明书实施例的一种获取对用户的预测标签值的特征解释的装置400。具体实施方式下面将结合附图描述本说明书实施例。首先说明本说明书实施例的应用场景。根据本说明书实施例的模型解释方法是在通过GBDT模型预测用户的标签值之后执行。所述GBDT模型是通过下述训练过程训练获得的。首先获取训练集其中N为训练样本的个数,即,用户数。其中,x(i)为第i个用户的特征向量,其例如为S维向量,即x=(x1,x2,…,xS),y(i)为第i个用户的标定标签值。例如,所述GBDT模型是预测信用卡欺诈的模型,则x(i)可以为用户的刷卡记录数据、交易记录数据等,y(i)可以为用户的欺诈风险值。然后,通过第一个决策树对所述N个用户进行分割,在决策树的每个父节点设定分裂特征和特征阈值,通过在父节点处将用户的对应特征与特征阈值比较而将用户分割到相应的子节点中,通过这样的过程,最后将N个用户分割到各个叶子节点中,其中,各个叶子节点的分值为该叶子节点中各个用户的标定值(即y(i))的均值。在获取第一个决策树之后,通过将每个用户的标定标签值与该用户在第一个决策树中的叶子节点的分值相减,获取每个用户的残差r(i),以为新的训练集,其与D1对应于相同的用户集合。以与上述相同的方法,可获取第二个决策树,在第二个决策树中,将N个用户分割到本文档来自技高网...

【技术保护点】
1.一种获取对用户的预测标签值的特征解释的方法,所述方法在通过GBDT模型预测用户的标签值之后执行,所述特征解释包括与所述用户的预测标签值相关的用户的多个特征、以及每个所述特征与所述预测标签值的相关性,所述GBDT模型中包括多个顺序排列的决策树,所述方法包括:在排序靠前的预定数目的各个所述决策树中,分别获取包括所述用户的叶子节点和所述叶子节点的分值,其中,所述叶子节点的分值为通过所述GBDT模型预定的分值;确定与各个所述叶子节点分别对应的各个预测路径,所述预测路径为从所述叶子节点至其所在决策树的根节点之间的节点连接路径;获取每个所述预测路径上各个父节点的分裂特征和分值,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定;对于每个所述预测路径上的每个子节点,通过所述每个子节点的自身的分值、其父节点的分值和其父节点的分裂特征,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量,其中所述每个子节点对应的特征为与所述用户的预测标签值相关的特征;获取全部所述子节点各自对应的特征的集合,作为与所述用户的预测标签值相关的多个特征;以及通过将对应于相同特征的至少一个所述子节点的特征局部增量相加,获取与所述至少一个子节点对应的特征与所述预测标签值的相关性。...

【技术特征摘要】
1.一种获取对用户的预测标签值的特征解释的方法,所述方法在通过GBDT模型预测用户的标签值之后执行,所述特征解释包括与所述用户的预测标签值相关的用户的多个特征、以及每个所述特征与所述预测标签值的相关性,所述GBDT模型中包括多个顺序排列的决策树,所述方法包括:在排序靠前的预定数目的各个所述决策树中,分别获取包括所述用户的叶子节点和所述叶子节点的分值,其中,所述叶子节点的分值为通过所述GBDT模型预定的分值;确定与各个所述叶子节点分别对应的各个预测路径,所述预测路径为从所述叶子节点至其所在决策树的根节点之间的节点连接路径;获取每个所述预测路径上各个父节点的分裂特征和分值,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定;对于每个所述预测路径上的每个子节点,通过所述每个子节点的自身的分值、其父节点的分值和其父节点的分裂特征,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量,其中所述每个子节点对应的特征为与所述用户的预测标签值相关的特征;获取全部所述子节点各自对应的特征的集合,作为与所述用户的预测标签值相关的多个特征;以及通过将对应于相同特征的至少一个所述子节点的特征局部增量相加,获取与所述至少一个子节点对应的特征与所述预测标签值的相关性。2.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法,其中,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定包括,所述父节点的分值为其两个子节点的分值的平均值。3.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法,其中,所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定包括,所述父节点的分值为其两个子节点的分值的加权平均值,所述子节点的分值的权重基于在所述GBDT模型的训练过程中分配至其的样本数而确定。4.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法,其中,确定所述每个子节点对应的特征、及每个子节点处的特征局部增量包括,获取所述每个子节点的自身分值与其父节点的分值的差,作为所述特征局部增量。5.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法,其中,所述GBDT模型为分类模型或回归模型。6.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法,其中,所述排序靠前的预定数目的所述决策树为所述GBDT模型中包括的多个顺序排列的决策树。7.一种获取对用户的预测标签值的特征解释的装置,所述装置在通过GBDT...

【专利技术属性】
技术研发人员:方文静周俊高利翠
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1