决策树的生成方法、装置、电子设备及程序产品制造方法及图纸

技术编号:33400602 阅读:13 留言:0更新日期:2022-05-11 23:21
本公开提供的决策树的生成方法、装置、电子设备及程序产品,涉及深度学习技术;包括获取包括多个样本数据的样本总群,样本数据具有个体处理效应;针对每个待分裂的父节点,对父节点中的样本数据进行分类得到子节点;根据子节点中包括的样本数据的个体处理效应,以及父节点中包括的样本数据的个体处理效应,确定子节点与父节点之间的不纯度相对值;根据不纯度相对值,以及预设的不纯度减小量阈值,确定子节点是否有效。本公开提供的方案中,通过节点间不纯度相对值,再基于该值确定节点间不纯度变化情况,不会受到构建模型时标签取值范围的影响,也就无需在生成决策树时频繁的调整该阈值,能够提高决策树的生成效率。能够提高决策树的生成效率。能够提高决策树的生成效率。

【技术实现步骤摘要】
决策树的生成方法、装置、电子设备及程序产品


[0001]本公开涉及人工智能技术中的深度学习技术,尤其涉及一种决策树的生成方法、装置、电子设备及程序产品。

技术介绍

[0002]因果推断模型能够学习因果关系,具体能够学习出“某事是(或可能是)其他事情的原因”这一结论,进而基于这一关系进行推理。比如,推断模型能够输出一个用户是营销敏感人群,另一用户是自然转换人群。
[0003]由于模型本身是个“黑盒子”,其具体推理过程对外不可见,导致用户无法确定模型的推理结果是否合理。为了解决这一技术问题,现有技术的方案中存在基于因果推断模型输出的结果构建决策树的方案。
[0004]在构建决策树时,需要设置参数,通过这些参数控制决策树的生成过程。而现有技术的方案中,由于不同因果推理模型输出的结果量纲不同,导致基于不同因果推理模型输出的结果构建决策树时,需要配置不同的参数,给用户带来较多的不便,且无法批量生成决策树。

技术实现思路

[0005]本公开提供了一种决策树的生成方法、装置、电子设备及程序产品,以更高效的生成决策树。
[0006]根据本公开的第一方面,提供了一种决策树的生成方法,所述决策树包括父节点和子节点;所述方法包括:
[0007]获取包括多个样本数据的样本总群,所述样本数据具有个体处理效应;其中,所述个体处理效应是因果推理模型对所述样本数据进行处理得到的,所述样本总群为一个待分裂的父节点;
[0008]针对每个待分裂的父节点,对所述父节点中的所述样本数据进行分类,得到子节点;
[0009]根据所述子节点中包括的样本数据的个体处理效应,以及所述父节点中包括的样本数据的个体处理效应,确定所述子节点与所述父节点之间的不纯度相对值;所述不纯度相对值用于表征所述子节点中的样本数据的不纯程度,相较于所述父节点中的样本数据的不纯程度的相对变化值;
[0010]根据所述不纯度相对值,以及预设的不纯度减小量阈值,确定所述子节点是否有效;
[0011]若有效,则保留所述子节点;否则,丢弃所述子节点;其中,保留的所述子节点为新的待分裂的父节点,并继续执行所述对所述父节点中的所述样本数据进行分类,得到子节点的步骤。
[0012]根据本公开的第二方面,提供了一种决策树的生成装置,所述决策树包括父节点
和子节点;所述装置包括:
[0013]获取单元,用于获取包括多个样本数据的样本总群,所述样本数据具有个体处理效应;其中,所述个体处理效应是因果推理模型对所述样本数据进行处理得到的,所述样本总群为一个待分裂的父节点;
[0014]分裂单元,用于针对每个待分裂的父节点,对所述父节点中的所述样本数据进行分类,得到子节点;
[0015]不纯度确定单元,用于根据所述子节点中包括的样本数据的个体处理效应,以及所述父节点中包括的样本数据的个体处理效应,确定所述子节点与所述父节点之间的不纯度相对值;所述不纯度相对值用于表征所述子节点中的样本数据的不纯程度,相较于所述父节点中的样本数据的不纯程度的相对变化值;
[0016]判断单元,用于根据所述不纯度相对值,以及预设的不纯度减小量阈值,确定所述子节点是否有效;
[0017]处理单元,用于若有效,则保留所述子节点;否则,丢弃所述子节点;其中,保留的所述子节点为新的待分裂的父节点,并继续执行所述对所述父节点中的所述样本数据进行分类,得到子节点的步骤。
[0018]根据本公开的第三方面,提供了一种电子设备,包括:
[0019]至少一个处理器;以及
[0020]与所述至少一个处理器通信连接的存储器;其中,
[0021]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的方法。
[0022]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如第一方面所述的方法。
[0023]根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
[0024]本公开提供的决策树的生成方法、装置、电子设备及程序产品,所述决策树包括父节点和子节点;包括:获取包括多个样本数据的样本总群,样本数据具有个体处理效应;其中,个体处理效应是因果推理模型对样本数据进行处理得到的,样本总群为一个待分裂的父节点;针对每个待分裂的父节点,对父节点中的样本数据进行分类,得到子节点;根据子节点中包括的样本数据的个体处理效应,以及父节点中包括的样本数据的个体处理效应,确定子节点与父节点之间的不纯度相对值;不纯度相对值用于表征子节点中的样本数据的不纯程度,相较于父节点中的样本数据的不纯程度的相对变化值;根据不纯度相对值,以及预设的不纯度减小量阈值,确定子节点是否有效;若有效,则保留子节点;否则,丢弃子节点;其中,保留的子节点为新的待分裂的父节点,并继续执行对父节点中的样本数据进行分类,得到子节点的步骤。本公开提供的决策树的生成方法、装置、电子设备及程序产品中,通过节点间不纯度相对值,再基于该值确定节点间不纯度变化情况,不会受到构建模型时标签取值范围的影响,也就无需在生成决策树时频繁的调整该阈值,能够提高决策树的生成效率。
[0025]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0026]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0027]图1是一示例性实施例示出的决策树的第一示意图;
[0028]图2是一示例性实施例示出的决策树的第二示意图;
[0029]图3是一示例性实施例示出的决策树的第三示意图;
[0030]图4A是一示例性实施例示出的决策树的第四示意图;
[0031]图4B是一示例性实施例示出的决策树的第五示意图;
[0032]图5为本公开一示例性实施例示出的决策树的生成方法的流程图的示意图;
[0033]图6为本公开另一示例性实施例示出的决策树的生成方法的流程图的示意图;
[0034]图7为本公开一示例性实施例示出的决策树的示意图;
[0035]图8为本公开另一示例性实施例示出的决策树的示意图;
[0036]图9为本公开一示例性实施例示出的决策树的生成装置的结构示意图;
[0037]图10为本公开另一示例性实施例示出的决策树的生成装置的结构示意图;
[0038]图11是用来实现本公开实施例的方法的电子设备的框图。
具体实施方式
[0039]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种决策树的生成方法,所述决策树包括父节点和子节点;所述方法包括:获取包括多个样本数据的样本总群,所述样本数据具有个体处理效应;其中,所述个体处理效应是因果推理模型对所述样本数据进行处理得到的,所述样本总群为一个待分裂的父节点;针对每个待分裂的父节点,对所述父节点中的所述样本数据进行分类,得到子节点;根据所述子节点中包括的样本数据的个体处理效应,以及所述父节点中包括的样本数据的个体处理效应,确定所述子节点与所述父节点之间的不纯度相对值;所述不纯度相对值用于表征所述子节点中的样本数据的不纯程度,相较于所述父节点中的样本数据的不纯程度的相对变化值;根据所述不纯度相对值,以及预设的不纯度减小量阈值,确定所述子节点是否有效;若有效,则保留所述子节点;否则,丢弃所述子节点;其中,保留的所述子节点为新的待分裂的父节点,并继续执行所述对所述父节点中的所述样本数据进行分类,得到子节点的步骤。2.根据权利要求1所述的方法,其中,所述根据所述子节点中包括的样本数据的个体处理效应,以及所述父节点中包括的样本数据的个体处理效应,确定所述子节点与所述父节点之间的不纯度相对值,包括:根据所述子节点中包括的样本数据的个体处理效应,确定所述子节点的第一不纯度;根据所述父节点中包括的样本数据的个体处理效应,确定所述父节点的第二不纯度;根据所述第一不纯度、所述第二不纯度、所述子节点中包括的样本数据的第一数量、所述父节点中包括的样本数据的第二数量,确定所述子节点与所述父节点之间的不纯度相对值。3.根据权利要求2所述的方法,其中,所述根据所述第一不纯度、所述第二不纯度、所述子节点中包括的样本数据的第一数量、所述父节点中包括的样本数据的第二数量,确定所述子节点与所述父节点之间的不纯度相对值,包括:将第一乘积和第二乘积的比值,确定为所述子节点与所述父节点之间的不纯度相对值;其中,第一乘积为所述第一不纯度和所述第一数量之间的乘积,第二乘积为所述第二不纯度和所述第二数量之间的乘积。4.根据权利要求1

3任一项所述的方法,其中,所述子节点的数量为多个;所述根据所述不纯度相对值,以及预设的不纯度减小量阈值,确定所述子节点是否有效,包括:根据所述父节点的每个子节点的不纯度相对值,确定各所述子节点相较于所述父节点整体的不纯度减小量;若所述不纯度减小量大于预设的所述不纯度减小量阈值,则确定各所述子节点有效;若所述不纯度减小量小于预设的所述不纯度减小量阈值,则确定各所述子节点无效。5.根据权利要求4所述的方法,其中,所述根据所述父节点的每个子节点的不纯度相对值,确定各所述子节点相较于所述父节点整体的不纯度减小量,包括:确定1减去每个所述子节点的不纯度相对值之后的差值;确定所述父节点中包括的样本数据的第二数量,与所述样本总群中包括的样本数据的总数量的比值;
将所述差值与所述比值之间的乘积,确定为各所述子节点相较于所述父节点整体的不纯度减小量。6.根据权利要求1

5任一项所述的方法,其中,所述不纯度减小量阈值为0.03。7.根据权利要求1

6任一项所述的方法,还包括:获取所述样本数据,将所述样本数据输入所述因果推理模型,得到所述样本数据的个体处理效应,所述个体处理效应用于对所述样本数据进行分类。8.一种决策树的生成装置,所述决策树包括父节点和子节点;所述装置包括:获取单元,用于获取包括多个样本数据的样本总群,所述样本数据具有个体处理效应;其中,所述个体处理效应是因果推理模型对所述样本数...

【专利技术属性】
技术研发人员:李媛媛李涛刘刚金秀峰黄彦博杨帆于连照贾晋康王轶凡
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1