【技术实现步骤摘要】
一种决策树模型特征重要性计算方法、装置及存储介质
[0001]本专利技术涉及人工智能领域,尤其是涉及一种决策树模型特征重要性计算方法、装置及存储介质。
技术介绍
[0002]机器学习模型目前被应用于各种场景,来解决各种各样实际的预测问题。机器学习模型在构建前,需要确定用于构建模型的特征向量。理论上,每一个特征都应该对模型的预测结果有一定的贡献,特征重要性就是衡量用于训练模型的每个特征对模型预测结果的贡献的数值度量。
[0003]特征重要性目前主要应用于两个方向:
[0004]一是用于模型的特征筛选。对于特征的筛选,除了发生在数据预处理过程,还可以在训练模型后,即根据初步训练的模型输出的特征重要性来进行特征筛选。具体做法就是根据特征重要性对特征进行排序,将尾部的特征剔除,从而降低特征向量的维度。使用筛选后的特征进行模型训练,可增强模型的鲁棒性。
[0005]二是业务解释方向。在特定的业务场景下,特征重要性可用来选取对模型预测结果贡献较大的特征,用这些特征进行业务方面符合业务直觉的解释。例如,使用决策树模 ...
【技术保护点】
【技术特征摘要】
1.一种决策树模型特征重要性计算方法,其特征在于,包括以下步骤:获取一个训练好的决策树模型;对所述决策树模型进行结构解析,获取计算特征重要性所需的模型信息;其中,所述模型信息中包括节点深度信息;将所述模型信息储存为向量;基于所述向量计算特征重要性,并输出特征重要性向量。2.根据权利要求1所述的一种决策树模型特征重要性计算方法,其特征在于,对于单棵决策树模型,定义其特征重要性向量为:FI=[FI1,FI2,...,FI
k
,...,FI
K
]定义决策树节点深度向量为:D=[d1,d2,...,d
n
,...,d
N
]其中K表示决策树模型的总特征数量,FI
k
表示特征f
k
的特征重要性,k∈{1,2,3,...,K};N表示决策树模型的总节点数量,d
N
表示节点N的节点深度;特征重要性的计算公式为:其中j表示节点值,表示使用特征f
k
作为节点最佳划分特征的节点集合,且G
j
表示节点j增益的向量。3.根据权利要求2所述的一种决策树模型特征重要性计算方法,其特征在于,所述节点j增益的向量G
j
的计算公式为:其中O
j
表示节点j的目标函数,O
jl
和O
jr
分别表示节点j分裂后的左子节点和右子节点的目标函数值;C
j
表示节点j中的样本数量,C
jl
和C
jr
分别表示节点j的左子节点的样本数量和右子节点的样本数量。4.根据权利要求3所述的一种决策树模型特征重要性计算方法,其特征在于,所述C
j
、C
jl
及C
jr
之间满足:C
j
=C
jl
+C
jr
。5.根据权利要求1所述的一种决策树模型特征重要性计算方法,其特征在于,对于包含T棵树的集成决策树模型,T>1,定义其中第t棵决策树的特征重要性向量为:FI
t
=[FI
t1
,FI
t2
,...,FI
tk
,...,FI<...
【专利技术属性】
技术研发人员:张泽群,叶芸,温海如,
申请(专利权)人:中银金融科技苏州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。