【技术实现步骤摘要】
特征分析方法、装置、电子设备及可读存储介质
本公开的实施例涉及机器学习
,尤其涉及一种特征分析方法、装置、电子设备及可读存储介质。
技术介绍
在个性化推荐过程中,通常用到机器模型,例如模型树。机器模型通过特征样本进行训练之后可以用于预测,从而根据预测结果向用户进行个性化推荐。而特征样本中包含的特征会直接影响模型的训练速度和准确度,从而需要分析特征在模型中的有效性。现有技术中,一种基于频率的特征分析方法将特征在模型树中用于分裂的相对次数的占比分析特征的有效性。例如,特征A在树1、树2和树3中分别发生2次分裂、1次分裂和3次分裂;那么特征A的权重为2+1+3=6。特征A的频率为特征A的权重与所有特征的权重之和的比值,从而特征A的频率越大,代表特征A的有效性越好。专利技术人对上述方案进行研究发现,上述特征的有效性分析的准确度较差。
技术实现思路
本公开的实施例提供一种特征分析方法、装置、电子设备及可读存储介质,以解决现有技术特征分析的上述问题。根据本公开的实施例的第一方面, ...
【技术保护点】
1.一种特征分析方法,其特征在于,所述方法包括:/n在对所述模型树的训练过程中,记录所述模型树的训练参数、每个叶子节点的预测得分和属于每个叶子节点的样本的预设二阶导数,所述预设二阶导数为预设损失函数对所述预测得分的二阶导数;/n根据所述模型树的训练参数、每个叶子节点的预测得分和属于每个叶子节点的样本的预设二阶导数,计算每个节点对应的特征的贡献度;/n根据所述节点对应的特征的贡献度对所述特征进行分析。/n
【技术特征摘要】
1.一种特征分析方法,其特征在于,所述方法包括:
在对所述模型树的训练过程中,记录所述模型树的训练参数、每个叶子节点的预测得分和属于每个叶子节点的样本的预设二阶导数,所述预设二阶导数为预设损失函数对所述预测得分的二阶导数;
根据所述模型树的训练参数、每个叶子节点的预测得分和属于每个叶子节点的样本的预设二阶导数,计算每个节点对应的特征的贡献度;
根据所述节点对应的特征的贡献度对所述特征进行分析。
2.根据权利要求1所述的方法,其特征在于,所述根据所述模型树的训练参数、每个叶子节点的预测得分和属于每个叶子节点的样本的预设二阶导数,计算每个节点对应的特征的贡献度的步骤,包括:
根据所述模型树的训练参数、所述叶子节点的预测得分和属于所述叶子节点的样本的预设二阶导数,计算每个节点的权重;
针对每个节点对应的特征,分别计算所述节点的权重与所述节点的每个子节点的权重之差,得到所述特征的不同取值对应的贡献度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述模型树的训练参数、所述叶子节点的预测得分和属于所述叶子节点的样本的预设二阶导数,计算每个节点的权重的步骤,包括:
针对每个叶子节点,根据所述模型树的训练参数、所述叶子节点的预测得分和属于所述叶子节点的样本的预设二阶导数,计算所述叶子节点的一阶导数;
从所述模型树的叶子节点开始,针对属于同一父节点的子节点,计算所述子节点的一阶导数之和得到所述父节点的一阶导数;
根据每个节点的一阶导数、所述模型树的训练参数,确定每个节点的权重。
4.根据权利要求3所述的方法,其中,所述训练参数至少包括:所述预设学习率、二阶正则惩罚项参数,所述针对每个叶子节点,根据所述模型树的训练参数、所述叶子节点的预测得分和属于所述叶子节点的样本的预设二阶导数,计算所述叶子节点的一阶导数的步骤,包括:
根据如下公式计算得到叶子节点的一阶导数:
其中,G(x)为叶子节点x的一阶导数,Δ为预设学习率,λ为二阶正则惩罚项参数,w(x)为叶子节点x的预测得分,D(xi)为属于叶子节点x的第i个样本的预设二阶导数,M为属于叶子节点x的样本数目。
5.根据...
【专利技术属性】
技术研发人员:朱碧莹,吴骏超,邹旭华,张喜升,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。