样本特征重要性的确定方法及装置,电子设备制造方法及图纸

技术编号:18713129 阅读:29 留言:0更新日期:2018-08-21 23:01
本申请涉及一种样本特征重要性的确定方法,属于计算机技术领域,解决现有技术中无法对单个样本的特征进行重要性评估的问题。所述方法包括:根据树模型各叶子节点覆盖的样本数量和各所述叶子节点对应的样本预测分数,递归计算所述树模型每条决策路径上所述叶子节点的父节点以上各层中每个节点对应的样本预测分数;通过所述树模型对输入样本进行预测,确定所述输入样本的决策路径;根据所述决策路径上各节点对应的所述样本预测分数和所述样本特征,确定所述输入样本的每个样本特征的重要性。本申请公开的样本特征重要性的确定方法可以实现对单个样本的每个样本特征的重要性评估。

Method and device for determining the importance of sample characteristics, electronic equipment

The application relates to a method for determining the importance of a sample's features, which belongs to the field of computer technology and solves the problem that the prior art is unable to evaluate the importance of a single sample's features. The method includes: according to the number of samples covered by each leaf node in the tree model and the sample prediction fraction corresponding to each leaf node, recursively calculating the sample prediction fraction corresponding to each node in each layer above the parent node of the leaf node in each decision path of the tree model; and through the tree model, the input sample is obtained. Prediction is made to determine the decision path of the input sample, and the importance of each sample feature of the input sample is determined according to the sample prediction score and the sample feature corresponding to each node in the decision path. The method for determining the importance of a sample feature disclosed in this application can be used to assess the importance of each sample feature of a single sample.

【技术实现步骤摘要】
样本特征重要性的确定方法及装置,电子设备
本申请涉及计算机
,特别是涉及一种样本特征重要性的确定方法及装置,电子设备。
技术介绍
随着互联网技术的发展,海量数据的处理和应用日益重要。通过机器学习的方法,利用海量数据训练机器模型,用于业务指标等应用日益广泛。通常的做法是:首先,基于训练样本提取预设特征;然后,基于提取的样本特征训练机器学习模型;最后,通过训练好的机器学习模型进行业务指标(如点击率、曝光率等)的预估。现有技术中,对于业务层面,训练得到的机器学习模型就是个黑盒子,无法解释样本特征和预估的业务指标之间的关系。例如,在预测场景中,通过训练的机器学习模型预测一个商圈的热度时,无法告诉商家哪些特征导致该商圈热度发生变化;在推荐排序场景中,通过训练的机器学习模型给用户推荐了一家餐厅,却无法给出推荐原因。现有技术中的一种样本特征的重要性确定方法的具体方案为:首先结合不同的重要性未知的样本特征训练相应复合机器学习模型,然后,通过比较不同复合机器学习模型的表现预估相应样本特征的重要性。可见,现有技术中的样本特征的重要性确定方法,仅能对全部样本的某个特征的重要性进行评估,而无法对某个样本的某个特征的重要性进行评估。
技术实现思路
本申请提供一种样本特征重要性的确定方法,至少解决现有技术中的样本特征重要性的确定方法无法对单个样本的特征进行重要性评估的问题。为了解决上述问题,第一方面,本申请实施例提供了一种样本特征重要性的确定方法包括:根据树模型各叶子节点覆盖的样本数量和各所述叶子节点对应的样本预测分数,递归计算所述树模型每条决策路径上所述叶子节点的父节点以上各层中每个节点对应的样本预测分数,其中,所述叶子节点的父节点以上各层中每个节点对应一个样本特征;根据所述决策路径上各节点对应的所述样本预测分数和所述样本特征,确定所述输入样本的每个样本特征的重要性。第二方面,本申请实施例提供了一种样本特征重要性的确定方法包括:样本预测分数计算模块,用于根据树模型各叶子节点覆盖的样本数量和各所述叶子节点对应的样本预测分数,递归计算所述树模型每条决策路径上所述叶子节点的父节点以上各层中每个节点对应的样本预测分数,其中,所述叶子节点的父节点以上各层中每个节点对应一个样本特征;决策路径确定模块,用于通过所述树模型对输入样本进行预测,确定所述输入样本的决策路径;样本特征重要性确定模块,用于根据所述决策路径上各节点对应的所述样本预测分数和所述样本特征,确定所述输入样本的每个样本特征的重要性。第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的样本特征重要性的确定方法。第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的样本特征重要性的确定方法的步骤。本申请实施例公开的样本特征重要性的确定方法,通过根据树模型各叶子节点覆盖的样本数量和各所述叶子节点对应的样本预测分数,递归计算所述树模型每条决策路径上所述叶子节点的父节点以上各层中每个节点对应的样本预测分数;通过所述树模型对输入样本进行预测,确定所述输入样本的决策路径;根据所述决策路径上各节点对应的所述样本预测分数和所述样本特征,确定所述输入样本的每个样本特征的重要性,解决了现有技术中无法对单个样本的特征进行重要性评估的问题。本申请公开的样本特征重要性的确定方法通过结合叶子节点对应的样本预测分数和样本覆盖,根据树结构计算每个样本特征对应的节点的预测分数,最后,基于每个样本的决策路径上的节点对应的所述预测分数进一步计算每个样本特征的重要性分数,可以实现对单个样本的每个样本特征的重要性评估。并且,不需要训练多个树模型,确定样本特征重要性的效率更高。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例一的样本特征重要性的确定方法流程图;图2是本申请实施例二的样本特征重要性的确定方法流程图;图3是本申请实施例二的样本特征重要性的确定方法中树模型示意图;图4是图3所示的决策树中各节点包括的属性数据示意图;图5是图4所示的决策树中各节点属性增加了计算得到的样本预测分数的示意图;图6是本申请实施例三的样本特征重要性的确定装置的结构示意图之一;图7是本申请实施例三的样本特征重要性的确定装置的结构示意图之二。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。实施例一本实施例公开的一种样本特征重要性的确定方法,如图1所示,该方法包括:步骤110至步骤130。步骤110,根据树模型各叶子节点覆盖的样本数量和各所述叶子节点对应的样本预测分数,递归计算所述树模型每条决策路径上所述叶子节点的父节点以上各层中每个节点对应的样本预测分数。其中,所述叶子节点的父节点以上各层中每个节点对应一个样本特征。本申请应用于海量数据训练树模型时,对每个样本的样本特征的重要性进行解释和评估。具体实施时,通过训练样本训练树模型的具体方法参见现有技术,本申请不再赘述。以训练得到的树模型为XGBoost树模型为例,每个树模型中包括多棵树,每棵树包括根节点,和根节点下的子节点,最边缘的子节点称为叶子节点。通常,每棵树的根节点的层次为1,其他节点的层次为其父节点的层次加1。例如,根节点的子节点的层次为2。叶子节点的层次深度最深。树模型实际上为一个分类模型,除叶子节点外,每个节点对应一个分类特征,即样本的一个特征。每个叶子节点的属性数据包括该叶子节点覆盖的样本数量和样本预测分数。模型的训练过程实质上是根据样本的不同特征对样本分类的过程。每个叶子节点覆盖的样本数量等于分类到该叶子节点的样本数量,每个叶子节点的样本预测分数为模型对该叶子节点覆盖的样本的预测分数,并且仅有叶子节点的属性中包括样本预测分数和覆盖的样本数量。具体实施时,根据树模型的各叶子节点覆盖的样本数量和各所述叶子节点对应的样本预测分数,按照预设计算公式,逐层向上递归计算,确定所述树模型每条决策路径上叶子节点的父节点以上各层次中每个节点对应的样本预测分数。步骤120,通过所述树模型对输入样本进行预测,确定所述输入样本的决策路径。具体实施时,将待预测样本作为输入样本,输入至所述树模型,可以确定所述输入样本的决策路径。所述决策路径为从树模型包括的决策树的根节点到叶子节点的路径,对应输入样本基于样本特征的分类过程。步骤130,根据所述决策路径上各节点对应的所述样本预测分数和所述样本特征,确定所述输入样本的每个样本特征的重要性。每个节点对应的样本预测分数可以用于表示该节点所在决策路径上,基于与该节点以上各层节点对应的样本特征预估的样本的预测分数。以树模型为点击率预估模型为例,每个节点本文档来自技高网...

【技术保护点】
1.一种样本特征重要性的确定方法,其特征在于,包括:根据树模型各叶子节点覆盖的样本数量和各所述叶子节点对应的样本预测分数,递归计算所述树模型每条决策路径上所述叶子节点的父节点以上各层中每个节点对应的样本预测分数,其中,所述叶子节点的父节点以上各层中每个节点对应一个样本特征;通过所述树模型对输入样本进行预测,确定所述输入样本的决策路径;根据所述决策路径上各节点对应的所述样本预测分数和所述样本特征,确定所述输入样本的每个样本特征的重要性。

【技术特征摘要】
1.一种样本特征重要性的确定方法,其特征在于,包括:根据树模型各叶子节点覆盖的样本数量和各所述叶子节点对应的样本预测分数,递归计算所述树模型每条决策路径上所述叶子节点的父节点以上各层中每个节点对应的样本预测分数,其中,所述叶子节点的父节点以上各层中每个节点对应一个样本特征;通过所述树模型对输入样本进行预测,确定所述输入样本的决策路径;根据所述决策路径上各节点对应的所述样本预测分数和所述样本特征,确定所述输入样本的每个样本特征的重要性。2.根据权利要求1所述的方法,其特征在于,所述根据树模型各叶子节点覆盖的样本数量和各所述叶子节点对应的样本预测分数,递归计算所述树模型每条决策路径上所述叶子节点的父节点以上各层中每个节点对应的样本预测分数的步骤,包括:从各叶子节点的父节点起,沿所述树模型决策路径逐层向上,根据当前节点的子节点对应的样本预测分数和所述当前节点的子节点覆盖的样本数量,确定所述当前节点的样本预测分数,直至根节点;其中,所述当前节点覆盖的样本数量等于所述当前节点所在决策路径上所有叶子节点覆盖的样本数量总和。3.根据权利要求2所述的方法,其特征在于,所述根据当前节点的子节点对应的样本预测分数和所述当前节点的子节点覆盖的样本数量,确定所述当前节点的样本预测分数的步骤,包括:通过公式确定所述当前节点的样本预测分数,其中,node表示当前节点编号,children(node)表示当前节点的子节点集合,cover(i)表示当前节点的子节点i覆盖的样本数量,score(i)表示当前节点的子节点i对应的样本预测分数。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述决策路径上各节点对应的所述样本预测分数和所述样本特征,确定所述输入样本的每个样本特征的重要性的步骤,包括:对于所述输入样本的目标样本特征,确定所述目标样本特征对应的所述决策路径上的目标节点和所述目标节点的子节点;根据所述目标节点对应的样本预测分数和所述目标节点的子节点对应的样本预测分数,确定所述目标样本特征的重要性。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标节点对应的样本预测分数和所...

【专利技术属性】
技术研发人员:徐俊李尚强翟艺涛
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1