The application relates to a method for determining the importance of a sample's features, which belongs to the field of computer technology and solves the problem that the prior art is unable to evaluate the importance of a single sample's features. The method includes: according to the number of samples covered by each leaf node in the tree model and the sample prediction fraction corresponding to each leaf node, recursively calculating the sample prediction fraction corresponding to each node in each layer above the parent node of the leaf node in each decision path of the tree model; and through the tree model, the input sample is obtained. Prediction is made to determine the decision path of the input sample, and the importance of each sample feature of the input sample is determined according to the sample prediction score and the sample feature corresponding to each node in the decision path. The method for determining the importance of a sample feature disclosed in this application can be used to assess the importance of each sample feature of a single sample.
【技术实现步骤摘要】
样本特征重要性的确定方法及装置,电子设备
本申请涉及计算机
,特别是涉及一种样本特征重要性的确定方法及装置,电子设备。
技术介绍
随着互联网技术的发展,海量数据的处理和应用日益重要。通过机器学习的方法,利用海量数据训练机器模型,用于业务指标等应用日益广泛。通常的做法是:首先,基于训练样本提取预设特征;然后,基于提取的样本特征训练机器学习模型;最后,通过训练好的机器学习模型进行业务指标(如点击率、曝光率等)的预估。现有技术中,对于业务层面,训练得到的机器学习模型就是个黑盒子,无法解释样本特征和预估的业务指标之间的关系。例如,在预测场景中,通过训练的机器学习模型预测一个商圈的热度时,无法告诉商家哪些特征导致该商圈热度发生变化;在推荐排序场景中,通过训练的机器学习模型给用户推荐了一家餐厅,却无法给出推荐原因。现有技术中的一种样本特征的重要性确定方法的具体方案为:首先结合不同的重要性未知的样本特征训练相应复合机器学习模型,然后,通过比较不同复合机器学习模型的表现预估相应样本特征的重要性。可见,现有技术中的样本特征的重要性确定方法,仅能对全部样本的某个特征的重要性进行评估,而无法对某个样本的某个特征的重要性进行评估。
技术实现思路
本申请提供一种样本特征重要性的确定方法,至少解决现有技术中的样本特征重要性的确定方法无法对单个样本的特征进行重要性评估的问题。为了解决上述问题,第一方面,本申请实施例提供了一种样本特征重要性的确定方法包括:根据树模型各叶子节点覆盖的样本数量和各所述叶子节点对应的样本预测分数,递归计算所述树模型每条决策路径上所述叶子节点的父节点以上各层中 ...
【技术保护点】
1.一种样本特征重要性的确定方法,其特征在于,包括:根据树模型各叶子节点覆盖的样本数量和各所述叶子节点对应的样本预测分数,递归计算所述树模型每条决策路径上所述叶子节点的父节点以上各层中每个节点对应的样本预测分数,其中,所述叶子节点的父节点以上各层中每个节点对应一个样本特征;通过所述树模型对输入样本进行预测,确定所述输入样本的决策路径;根据所述决策路径上各节点对应的所述样本预测分数和所述样本特征,确定所述输入样本的每个样本特征的重要性。
【技术特征摘要】
1.一种样本特征重要性的确定方法,其特征在于,包括:根据树模型各叶子节点覆盖的样本数量和各所述叶子节点对应的样本预测分数,递归计算所述树模型每条决策路径上所述叶子节点的父节点以上各层中每个节点对应的样本预测分数,其中,所述叶子节点的父节点以上各层中每个节点对应一个样本特征;通过所述树模型对输入样本进行预测,确定所述输入样本的决策路径;根据所述决策路径上各节点对应的所述样本预测分数和所述样本特征,确定所述输入样本的每个样本特征的重要性。2.根据权利要求1所述的方法,其特征在于,所述根据树模型各叶子节点覆盖的样本数量和各所述叶子节点对应的样本预测分数,递归计算所述树模型每条决策路径上所述叶子节点的父节点以上各层中每个节点对应的样本预测分数的步骤,包括:从各叶子节点的父节点起,沿所述树模型决策路径逐层向上,根据当前节点的子节点对应的样本预测分数和所述当前节点的子节点覆盖的样本数量,确定所述当前节点的样本预测分数,直至根节点;其中,所述当前节点覆盖的样本数量等于所述当前节点所在决策路径上所有叶子节点覆盖的样本数量总和。3.根据权利要求2所述的方法,其特征在于,所述根据当前节点的子节点对应的样本预测分数和所述当前节点的子节点覆盖的样本数量,确定所述当前节点的样本预测分数的步骤,包括:通过公式确定所述当前节点的样本预测分数,其中,node表示当前节点编号,children(node)表示当前节点的子节点集合,cover(i)表示当前节点的子节点i覆盖的样本数量,score(i)表示当前节点的子节点i对应的样本预测分数。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述决策路径上各节点对应的所述样本预测分数和所述样本特征,确定所述输入样本的每个样本特征的重要性的步骤,包括:对于所述输入样本的目标样本特征,确定所述目标样本特征对应的所述决策路径上的目标节点和所述目标节点的子节点;根据所述目标节点对应的样本预测分数和所述目标节点的子节点对应的样本预测分数,确定所述目标样本特征的重要性。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标节点对应的样本预测分数和所...
【专利技术属性】
技术研发人员:徐俊,李尚强,翟艺涛,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。