特征重要性获取方法及装置制造方法及图纸

技术编号:19179568 阅读:33 留言:0更新日期:2018-10-17 00:47
本发明专利技术公开了特征重要性获取方法及装置,通过利用预设模型对样本进行训练,可以输出训练后的训练模型及样本的特征重要性矩阵。其中,样本的特征重要性矩阵中的每一列表示样本的一个特征重要性,通过样本的特征重要性矩阵可以获取任一一个或者多个样本的特征重要性。另外,本发明专利技术实施例还可以利用训练模型预测待测样本的特征重要性,通过训练模型输出的待测样本的特征重要性矩阵,可以获取一个或者多个待测样本的特征重要性。例如通过预测待测用户的多维度行为数据,得到待测用户的多维度特征重要性矩阵,可以获取到每个待测用户不同维度的数据对其重要性程度,进而可以指导业务人员针对某个或者多个不同的用户分别开展业务,提高工作效率。

Method and device for acquiring feature importance

The invention discloses a feature importance acquisition method and a device. By training a sample with a preset model, the trained model and the feature importance matrix of the sample can be output. Each list in the feature importance matrix of a sample represents a feature importance of the sample, and the feature importance of any one or more samples can be obtained by the feature importance matrix of the sample. In addition, the embodiment of the invention can also use the training model to predict the characteristic importance of the sample to be measured, and the characteristic importance matrix of the sample to be measured can be obtained by the training model output. For example, by predicting the multi-dimensional behavior data of the users to be tested, the multi-dimensional feature importance matrix of the users to be tested can be obtained, and the importance degree of the data of different dimensions of each user can be obtained, which can guide the business personnel to carry out business respectively for one or more different users and improve work efficiency.

【技术实现步骤摘要】
特征重要性获取方法及装置
本专利技术涉及数据处理领域,尤其涉及特征重要性获取方法及装置。
技术介绍
随着科技的不断发展,社会已经进入大数据时代,很多商家获取用户的行为数据,并对用户的行为数据进行分析,并根据分析结果调整销售策略已成为常态。例如,用户行为数据通常以一个M×N的特征矩阵来表示,其中该矩阵中的每一行可以表示一个用户,每一列可以表示不同用户的行为特征,例如该行为特征可以是用户的消费额度、常驻地点和社交关系等。为了预测用户的未来行为以及获取导致用户未来行为的原因,现有技术中,通过建立对用户未来行为的预测模型,来输出导致该未来行为的重要的行为特征,用以辅助分析导致该行为的根因。例如,在实际业务场景中,利用分类/回归预测模型预测用户在未来是否消费额度下降,并输出每个特征对预测结果贡献的重要性权重,如图1所示,比如常驻地点特征重要性权重是0.8,而社交关系特征的重要性权重是0.2,通过对特征重要性权重从大到小排序,可以辅助分析最有可能是“常驻地点”的服务出现问题,才导致用户消费额度下降。然而,现有技术当中,在特征重要性排序时,输出的通常是一个基于整体的特征重要性向量。该特征重要性向量一般只能获取所有用户整体上的特征重要性,而无法直接获取所有用户中对于某个或部分用户的特征重要性排序。
技术实现思路
为了解决现有技术当中的相关问题,本专利技术实施例提供了一种特征重要性获取方法及装置。第一方面,本专利技术实施例提供了一种特征重要性获取方法,包括:获取样本集合,所述样本集合包括多个样本,所述样本包括多个维度的特征;通过所述样本集合对预设模型进行训练,得到训练模型,所述训练模型将所述样本集合划分为多个节点,每个所述节点包括由一个或者多个样本组成的样本群;计算各个所述节点中预设类别的样本的激活强度和信息增益,所述激活强度表示所述节点中预设类别的样本在样本群中所占的权重,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,所述信息增益表示将所述节点划分前后的信息差,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关;通过各个所述节点中预设类别的样本的激活强度和信息增益,获取每个所述预设类别的样本特征重要性,所述特征重要性表示所述预设类别的样本在各个维度分别对应的权重。在本专利技术实施例提供的一种可能的设计方式中,在本专利技术实施例提供的一种可能的设计方式中,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,包括:所述激活强度为预设类别的样本在样本群中所占比例的非负增函数。在本专利技术实施例提供的一种可能的设计方式中,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关,包括:所述预设类别的样本在样本群中所占的比例越高,所述预设类别的样本的信息增益越大。在本专利技术实施例提供的一种可能的设计方式中,所述获取每个所述预设类别的样本特征重要性,包括:获取每个所述预设类别的样本在所述训练模型中对应的节点;将每个所述预设类别的样本在所述训练模型中对应节点的所述激活强度与所述信息增益之积,作为所述每个所述预设类别的样本特征重要性。在本专利技术实施例提供的一种可能的设计方式中,所述获取每个所述预设类别的样本特征重要性,包括:通过下述公式计算所述各个所述节点中预设类别的样本特征重要性:T=mu*I(S_i,f_n),其中,T为所述节点上所述预设类别的样本特征重要性,mu为所述节点对应的激活强度,f_n为所述节点选择的分类特征,S_i为第i个节点上的样本群,I(S_i,f_n)为f_n对应的信息增益。在本专利技术实施例提供的一种可能的设计方式中,所述方法还包括:初始化矩阵z_{m,n},其中,m表示所述预设类别的样本的数量,n表示所述预设类别的样本的维度特征,m和n均为正整数;通过下述公式计算所述预设类别的样本特征重要性矩阵:z{m,n}=z{m,n}+mu*I(S_i,f_n),其中,mu为所述节点对应的激活强度,f_n为所述节点选择的分类特征,S_i为第i个节点上的样本群,I(S_i,f_n)为f_n对应的信息增益。在本专利技术实施例提供的一种可能的设计方式中,所述预设模型包括:决策树模型、随机森林模型或增强树TreeBoosting模型。第二方面,本专利技术实施例还提供了一种特征重要性获取装置,包括:收发单元,用于获取样本集合,所述样本集合包括多个样本,所述样本包括多个维度的特征;处理单元,用于通过所述样本集合对预设模型进行训练,得到训练模型,所述训练模型将所述样本集合划分为多个节点,每个所述节点包括由一个或者多个样本组成的样本群;所述处理单元,还用于计算各个所述节点中预设类别的样本的激活强度和信息增益,所述激活强度表示所述节点中预设类别的样本在样本群中所占的权重,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,所述信息增益表示将所述节点划分前后的信息差,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关;所述处理单元,还用于通过各个所述节点中预设类别的样本的激活强度和信息增益,获取每个所述预设类别的样本特征重要性,所述特征重要性表示所述预设类别的样本在各个维度分别对应的权重。在本专利技术实施例提供的一种可能的设计方式中,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,包括:所述激活强度为预设类别的样本在样本群中所占比例的非负增函数。在本专利技术实施例提供的一种可能的设计方式中,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关,包括:所述预设类别的样本在样本群中所占的比例越高,所述预设类别的样本的信息增益越大。在本专利技术实施例提供的一种可能的设计方式中,所述处理单元,还用于获取每个所述预设类别的样本在所述训练模型中对应的节点;所述处理单元,还用于将每个所述预设类别的样本在所述训练模型中对应节点的所述激活强度与所述信息增益之积,作为所述每个所述预设类别的样本特征重要性。在本专利技术实施例提供的一种可能的设计方式中,所述处理单元,还用于通过下述公式计算所述各个所述节点中预设类别的样本特征重要性:T=mu*I(S_i,f_n),其中,T为所述节点上所述预设类别的样本特征重要性,mu为所述节点对应的激活强度,f_n为所述节点选择的分类特征,S_i为第i个节点上的样本群,I(S_i,f_n)为f_n对应的信息增益。在本专利技术实施例提供的一种可能的设计方式中,所述处理单元,还用于初始化矩阵z_{m,n},其中,m表示所述预设类别的样本的数量,n表示所述预设类别的样本的维度特征,m和n均为正整数;所述处理单元,还用于通过下述公式计算所述预设类别的样本特征重要性矩阵:z{m,n}=z{m,n}+mu*I(S_i,f_n),其中,mu为所述节点对应的激活强度,f_n为所述节点选择的分类特征,S_i为第i个节点上的样本群,I(S_i,f_n)为f_n对应的信息增益。在本专利技术实施例提供的一种可能的设计方式中,所述预设模型包括:决策树模型、随机森林模型或增强树TreeBoosting模型。在本专利技术实施例中提供的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述的特征重要性获取方法。本专利技术实施例提供的特征重要性获取方法及装置,通过利用预设模型对样本进行训练,可以输出训练后的训本文档来自技高网...

【技术保护点】
1.一种特征重要性获取方法,其特征在于,包括:获取样本集合,所述样本集合包括多个样本,所述样本包括多个维度的特征;通过所述样本集合对预设模型进行训练,得到训练模型,所述训练模型将所述样本集合划分为多个节点,每个所述节点包括由一个或者多个样本组成的样本群;计算各个所述节点中预设类别的样本的激活强度和信息增益,所述激活强度表示所述节点中预设类别的样本在样本群中所占的权重,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,所述信息增益表示将所述节点划分前后的信息差,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关;通过各个所述节点中预设类别的样本的激活强度和信息增益,获取每个所述预设类别的样本特征重要性,所述特征重要性表示所述预设类别的样本在各个维度分别对应的权重。

【技术特征摘要】
1.一种特征重要性获取方法,其特征在于,包括:获取样本集合,所述样本集合包括多个样本,所述样本包括多个维度的特征;通过所述样本集合对预设模型进行训练,得到训练模型,所述训练模型将所述样本集合划分为多个节点,每个所述节点包括由一个或者多个样本组成的样本群;计算各个所述节点中预设类别的样本的激活强度和信息增益,所述激活强度表示所述节点中预设类别的样本在样本群中所占的权重,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,所述信息增益表示将所述节点划分前后的信息差,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关;通过各个所述节点中预设类别的样本的激活强度和信息增益,获取每个所述预设类别的样本特征重要性,所述特征重要性表示所述预设类别的样本在各个维度分别对应的权重。2.根据权利要求1所述的方法,其特征在于,所述激活强度与所述预设类别的样本占所述样本群的比例正相关,包括:所述激活强度为预设类别的样本在样本群中所占比例的非负增函数。3.根据权利要求1所述的方法,其特征在于,所述信息增益与所述预设类别的样本在所述样本群中的类别一致性正相关,包括:所述预设类别的样本在样本群中所占的比例越高,所述预设类别的样本的信息增益越大。4.根据权利要求1至3任一所述的方法,其特征在于,所述获取每个所述预设类别的样本特征重要性,包括:获取每个所述预设类别的样本在所述训练模型中对应的节点;将每个所述预设类别的样本在所述训练模型中对应节点的所述激活强度与所述信息增益之积,作为所述每个所述预设类别的样本特征重要性。5.根据权利要求1至3任一所述的方法,其特征在于,所述获取每个所述预设类别的样本特征重要性,包括:通过下述公式计算所述各个所述节点中预设类别的样本特征重要性:T=mu*I(S_i,f_n),其中,T为所述节点上所述预设类别的样本特征重要性,mu为所述节点对应的激活强度,f_n为所述节点选择的分类特征,S_i为第i个节点上的样本群,I(S_i,f_n)为f_n对应的信息增益。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:初始化矩阵z_{m,n},其中,m表示所述预设类别的样本的数量,n表示所述预设类别的样本的维度特征,m和n均为正整数;通过下述公式计算所述预设类别的样本特征重要性矩阵:z{m,n}=z{m,n}+mu*I(S_i,f_n),其中,mu为所述节点对应的激活强度,f_n为所述节点选择的分类特征,S_i为第i个节点上的样本群,I(S_i,f_n)为f_n对应的信息增益。7.根据权利要求1至6任一所述的方法,其特征在于,所述预设模型包括:决策树模型、随机森林模型或增强树TreeBoosting模型。8.一种特征重要性获取装置,其特征在...

【专利技术属性】
技术研发人员:曾嘉袁明轩
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1