GBDT模型的特征解释方法和装置制造方法及图纸

技术编号：19216059 阅读：72 留言：0更新日期：2018-10-20 06:50

本说明书实施例公开了一种获取对用户的预测标签值的特征解释的方法和装置，所述方法在通过GBDT模型预测用户的标签值之后执行，包括：在排序靠前的预定数目的各个决策树中，分别获取包括所述用户的叶子节点和所述叶子节点的分值；确定与各个所述叶子节点分别对应的各个预测路径；获取每个预测路径上各个父节点的分裂特征和分值；对于每个预测路径上的每个子节点，确定所述每个子节点对应的特征、及每个子节点处的特征局部增量；获取全部所述子节点各自对应的特征的集合，作为与用户的预测标签值相关的多个特征；以及通过将对应于相同特征的至少一个子节点的特征局部增量相加，获取与至少一个子节点对应的特征与所述预测标签值的相关性。

全部详细技术资料下载

【技术实现步骤摘要】
GBDT模型的特征解释方法和装置
本说明书实施例涉及数据处理
，更具体地，涉及一种对用户的预测标签值进行特征解释的方法和装置。
技术介绍
在互联网技术快速发展的背景下，对互联网中的数据挖掘工作变得越来越重要。通常，在数据挖掘中，通过机器学习基于标定数据进行建模，从而可使用训练好的模型用于处理待预测的数据。在多种机器学习算法中，GBDT(Gradientboostingdeisiontree,梯度提升决策树)算法由于其优异的学习性能，得到越来越广泛的应用。GBDT算法是一种用于回归、分类、排序等任务的机器学习技术，其通过结合多个弱学习器(通常为决策树)而获得强预测模型。其中，所述GBDT模型通过多次迭代，并且在每次迭代中使得损失函数在梯度方向上减少，从而获得多个决策树。随着GBDT算法的广泛应用，产生了日益增多的对GBDT模型的解释的需求。除了目前通常使用的作为全局解释的特征重要性参数之外，针对单个用户的局部特征贡献的解释主要包括以下两种方法：通过重新建模提取GBDT模型中的优选方案以进行解释；以及，通过调节特征值大小以测试该特征对预测性能损失的影响。因此，需要一种更有效的GBDT模型解释方案，以满足现有技术中的需求。
技术实现思路
本说明书实施例旨在提供一种更有效的GBDT模型解释方案，以解决现有技术中的不足。为实现上述目的，本说明书一个方面提供一种获取对用户的预测标签值的特征解释的方法，所述方法在通过GBDT模型预测用户的标签值之后执行，所述特征解释包括与所述用户的预测标签值相关的用户的多个特征、以及每个所述特征与所述预测标签值的相关性，所述GBDT模...

【技术保护点】
1.一种获取对用户的预测标签值的特征解释的方法，所述方法在通过GBDT模型预测用户的标签值之后执行，所述特征解释包括与所述用户的预测标签值相关的用户的多个特征、以及每个所述特征与所述预测标签值的相关性，所述GBDT模型中包括多个顺序排列的决策树，所述方法包括：在排序靠前的预定数目的各个所述决策树中，分别获取包括所述用户的叶子节点和所述叶子节点的分值，其中，所述叶子节点的分值为通过所述GBDT模型预定的分值；确定与各个所述叶子节点分别对应的各个预测路径，所述预测路径为从所述叶子节点至其所在决策树的根节点之间的节点连接路径；获取每个所述预测路径上各个父节点的分裂特征和分值，所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定；对于每个所述预测路径上的每个子节点，通过所述每个子节点的自身的分值、其父节点的分值和其父节点的分裂特征，确定所述每个子节点对应的特征、及每个子节点处的特征局部增量，其中所述每个子节点对应的特征为与所述用户的预测标签值相关的特征；获取全部所述子节点各自对应的特征的集合，作为与所述用户的预测标签值相关的多个特征；以及通过将对应于相同特征的至少一个所述子节点的...

【技术特征摘要】
1.一种获取对用户的预测标签值的特征解释的方法，所述方法在通过GBDT模型预测用户的标签值之后执行，所述特征解释包括与所述用户的预测标签值相关的用户的多个特征、以及每个所述特征与所述预测标签值的相关性，所述GBDT模型中包括多个顺序排列的决策树，所述方法包括：在排序靠前的预定数目的各个所述决策树中，分别获取包括所述用户的叶子节点和所述叶子节点的分值，其中，所述叶子节点的分值为通过所述GBDT模型预定的分值；确定与各个所述叶子节点分别对应的各个预测路径，所述预测路径为从所述叶子节点至其所在决策树的根节点之间的节点连接路径；获取每个所述预测路径上各个父节点的分裂特征和分值，所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定；对于每个所述预测路径上的每个子节点，通过所述每个子节点的自身的分值、其父节点的分值和其父节点的分裂特征，确定所述每个子节点对应的特征、及每个子节点处的特征局部增量，其中所述每个子节点对应的特征为与所述用户的预测标签值相关的特征；获取全部所述子节点各自对应的特征的集合，作为与所述用户的预测标签值相关的多个特征；以及通过将对应于相同特征的至少一个所述子节点的特征局部增量相加，获取与所述至少一个子节点对应的特征与所述预测标签值的相关性。2.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法，其中，所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定包括，所述父节点的分值为其两个子节点的分值的平均值。3.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法，其中，所述各个父节点的分值基于其所在决策树的各个叶子节点的预定分值而确定包括，所述父节点的分值为其两个子节点的分值的加权平均值，所述子节点的分值的权重基于在所述GBDT模型的训练过程中分配至其的样本数而确定。4.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法，其中，确定所述每个子节点对应的特征、及每个子节点处的特征局部增量包括，获取所述每个子节点的自身分值与其父节点的分值的差，作为所述特征局部增量。5.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法，其中，所述GBDT模型为分类模型或回归模型。6.根据权利要求1所述的获取对用户的预测标签值的特征解释的方法，其中，所述排序靠前的预定数目的所述决策树为所述GBDT模型中包括的多个顺序排列的决策树。7.一种获取对用户的预测标签值的特征解释的装置，所述装置在通过GBDT...

【专利技术属性】
技术研发人员：方文静，周俊，高利翠，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人