决策树的构建方法和装置、存储介质及电子装置制造方法及图纸

技术编号:33915178 阅读:18 留言:0更新日期:2022-06-25 20:07
本申请公开了一种决策树的构建方法和装置、存储介质及电子装置,其中,上述方法包括:获取多个超参数字典,以及获取训练样本集,每个超参数字典包含一组预设超参数和一个随机状态值,每个训练样本包含与一个训练对象对应的一组属性的属性值;使用每个超参数字典和训练样本集分别进行决策树构建,得到多个决策树,在进行决策树构建的过程中仅做一次迭代,每个决策树包含的一组节点中,每个非叶子节点与一组属性中的一个属性对应;从多个决策树中筛选出至少一个候选决策树,至每个候选决策树包含的一组节点满足目标节点条件;根据每个候选决策树的目标评估参数,从至少一个候选决策树选取目标决策树。树选取目标决策树。树选取目标决策树。

【技术实现步骤摘要】
决策树的构建方法和装置、存储介质及电子装置


[0001]本申请涉及计算机领域,具体而言,涉及一种决策树的构建方法和装置、存储介质及电子装置。

技术介绍

[0002]目前,决策树模型可以应用到多种场景中,例如,样本分类、风险控制等。常用的决策树构建方式为:在既定参数范围内自动构建决策树的过程中,通过模型优化筛选出符合模型构建要求的模型。模型优化的方式主要是超参数搜索(例如,网格搜索),即,在给定的超参数范围内遵循某种既定条件逐一尝试取值,来达到搜索最优模型的目的。
[0003]以网格搜索为例,网格搜索是通过给出较大的搜索范围以及较小的步长,查找搜索范围内的所有的点,来确定最优值。
[0004]随着数据的不断增加,通过上述方式构建的决策树模型很难解释模型的合理性,此外,构建的决策树模型有可能随着时间的推移而快速失效。由此可见,相关技术中的决策树构建方式,存在无法保证决策树模型的合理性及稳定性的问题。

技术实现思路

[0005]本申请实施例中提供了一种决策树的构建方法和装置、存储介质及电子装置,以至少解决相关技术中的决策树构建方式存在无法保证决策树模型的合理性及稳定性的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种决策树的构建方法,包括:获取多个超参数字典,以及获取训练样本集,其中,所述多个超参数字典中的每个超参数字典包含一组预设超参数和一个随机状态值,所述训练样本集中的每个训练样本包含与一个训练对象对应的一组属性的属性值;使用所述多个超参数字典中的每个超参数字典和所述训练样本集分别进行决策树构建,得到多个决策树,其中,在进行决策树构建的过程中仅做一次迭代,所述多个决策树中的每个决策树包含的一组节点中,每个非叶子节点与所述一组属性中的一个属性对应;从所述多个决策树中筛选出至少一个候选决策树,其中,所述至少一个候选决策树中的每个候选决策树包含的一组节点满足目标节点条件;根据所述每个候选决策树的目标评估参数,从所述至少一个候选决策树选取目标决策树。
[0007]根据本申请实施例的另一个方面,还提供了一种决策树的构建装置,包括:获取单元,用于获取多个超参数字典,以及获取训练样本集,其中,所述多个超参数字典中的每个超参数字典包含一组预设超参数和一个随机状态值,所述训练样本集中的每个训练样本包含与一个训练对象对应的一组属性的属性值;构建单元,用于使用所述多个超参数字典中的每个超参数字典和所述训练样本集分别进行决策树构建,得到多个决策树,其中,在进行决策树构建的过程中仅做一次迭代,所述多个决策树中的每个决策树包含的一组节点中,每个非叶子节点与所述一组属性中的一个属性对应;筛选单元,用于从所述多个决策树中筛选出至少一个候选决策树,其中,所述至少一个候选决策树中的每个候选决策树包含的
一组节点满足目标节点条件;选取单元,用于根据所述每个候选决策树的目标评估参数,从所述至少一个候选决策树选取目标决策树。
[0008]在一个示例性实施例中,所述获取单元,包括:生成模块,用于生成随机状态值队列,其中,所述随机状态值队列包含互不相同的多个随机状态值;组合模块,用于从所述随机状态值队列中分别选取随机状态值与所述一组预设超参数进行组合,得到所述多个超参数字典。
[0009]在一个示例性实施例中,所述构建单元,包括:构建模块,用于使用所述多个超参数字典中的每个超参数字典分别作为决策树的超参数字典进行决策树构建,得到多个初始决策树;训练模块,用于使用所述训练样本集分别对所述多个初始决策树中的每个初始决策树进行训练,得到所述多个决策树,其中,在使用所述训练样本集对所述每个初始决策树进行训练的过程中仅做一次迭代,得到一个决策树。
[0010]在一个示例性实施例中,所述筛选单元,包括:第一确定模块,用于根据第一样本集中的每个第一样本包含的所述一组属性的属性值,确定所述每个决策树的每个叶子节点下的第一样本;第二确定模块,用于根据第二样本集中的每个第二样本包含的所述一组属性的属性值,确定所述每个决策树的每个叶子节点下的第二样本;第一筛选模块,用于根据与所述每个决策树对应的第一占比和与所述每个决策树对应的第二占比,从所述多个决策树中筛选出所述至少一个候选决策树,其中,与所述每个决策树对应的第一占比为所述每个决策树的每个叶子节点下的第一样本中目标样本的占比,与所述每个决策树对应的第二占比为所述每个决策树的每个叶子节点下的第二样本中所述目标样本的占比,所述目标样本为具有目标标签的样本,与所述每个候选决策树对应的第一占比和与所述每个候选决策树对应的第二占比一致。
[0011]在一个示例性实施例中,所述第一筛选模块,包括:第一排序子模块,用于按照与所述每个决策树对应的第一占比对所述每个决策树的每个叶子节点进行排序,得到与所述每个决策树对应的第一排序结果;第二排序子模块,用于按照与所述每个决策树对应的第二占比对所述每个决策树的每个叶子节点进行排序,得到与所述每个决策树对应的第二排序结果;筛选子模块,用于从所述多个决策树中筛选出对应的第一排序结果和对应的第二排序结果相同的决策树,得到所述至少一个候选决策树。
[0012]在一个示例性实施例中,所述筛选单元,包括:第二筛选模块,用于从所述多个决策树中筛选出一组中间决策树,其中,所述一组中间决策树的每个中间决策树均包含与所述一组属性中的目标属性对应的目标节点,所述每个中间决策树包含与所述目标节点对应的多个目标分支,所述多个目标分支中的每个目标分支对应于所述目标属性的一个属性值;第三确定模块,用于根据第三样本集中的每个第三样本包含的所述一组属性的属性值,分别确定属于所述每个中间决策树的所述每个目标分支的第三样本中,目标样本的占比,得到与所述每个中间决策树的所述每个目标分支对应的第三占比,其中,所述目标样本为具有目标标签的样本;第三筛选模块,用于根据与所述每个中间决策树的所述每个目标分支对应的第三占比,从所述一组中间决策树中筛选出所述至少一个候选决策树,其中,与所述每个候选决策树的所述每个目标分支对应的第三占比的大小顺序与预设顺序相同。
[0013]在一个示例性实施例中,所述选取单元,包括:排序模块,用于按照所述每个候选决策树的目标评估参数的评估参数值,对所述至少一个候选决策树进行排序,得到第三排
序结果;第四确定模块,用于将所述第三排序结果中位于目标位置上的候选决策树,确定为所述目标决策树。
[0014]根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述决策树的构建方法。
[0015]根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的决策树的构建方法。
[0016]在本申请实施例中,采用根据包含随机状态值的超参数字典生成多个决策树,并根据决策树的节点特征从多个决策树中选取目标决策树的方式,通过获取多个超参数字典,以及获取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种决策树的构建方法,其特征在于,包括:获取多个超参数字典,以及获取训练样本集,其中,所述多个超参数字典中的每个超参数字典包含一组预设超参数和一个随机状态值,所述训练样本集中的每个训练样本包含与一个训练对象对应的一组属性的属性值;使用所述多个超参数字典中的每个超参数字典和所述训练样本集分别进行决策树构建,得到多个决策树,其中,在进行决策树构建的过程中仅做一次迭代,所述多个决策树中的每个决策树包含的一组节点中,每个非叶子节点与所述一组属性中的一个属性对应;从所述多个决策树中筛选出至少一个候选决策树,其中,所述至少一个候选决策树中的每个候选决策树包含的一组节点满足目标节点条件;根据所述每个候选决策树的目标评估参数,从所述至少一个候选决策树选取目标决策树。2.根据权利要求1所述的方法,其特征在于,所述获取多个超参数字典,包括:生成随机状态值队列,其中,所述随机状态值队列包含互不相同的多个随机状态值;从所述随机状态值队列中分别选取随机状态值与所述一组预设超参数进行组合,得到所述多个超参数字典。3.根据权利要求1所述的方法,其特征在于,所述使用所述多个超参数字典中的每个超参数字典和所述训练样本集分别进行决策树构建,得到多个决策树,包括:使用所述多个超参数字典中的每个超参数字典分别作为决策树的超参数字典进行决策树构建,得到多个初始决策树;使用所述训练样本集分别对所述多个初始决策树中的每个初始决策树进行训练,得到所述多个决策树,其中,在使用所述训练样本集对所述每个初始决策树进行训练的过程中仅做一次迭代,得到一个决策树。4.根据权利要求1所述的方法,其特征在于,所述从所述多个决策树中筛选出至少一个候选决策树,包括:根据第一样本集中的每个第一样本包含的所述一组属性的属性值,确定所述每个决策树的每个叶子节点下的第一样本;根据第二样本集中的每个第二样本包含的所述一组属性的属性值,确定所述每个决策树的每个叶子节点下的第二样本;根据与所述每个决策树对应的第一占比和与所述每个决策树对应的第二占比,从所述多个决策树中筛选出所述至少一个候选决策树,其中,与所述每个决策树对应的第一占比为所述每个决策树的每个叶子节点下的第一样本中目标样本的占比,与所述每个决策树对应的第二占比为所述每个决策树的每个叶子节点下的第二样本中所述目标样本的占比,所述目标样本为具有目标标签的样本,与所述每个候选决策树对应的第一占比和与所述每个候选决策树对应的第二占比一致。5.根据权利要求4所述的方法,其特征在于,所述根据与所述每个决策树对应的第一占比和与所述每个决策树对应的第二占比,从所述多个决策树中筛选出所述至少一个候选决策树,包括:按照与所述每个决策树对应的第一占比对所述每个决策树的每个叶子节点进行排序,得到与所述每个决策树对应的第一排序结果;

【专利技术属性】
技术研发人员:杜心达
申请(专利权)人:兴业消费金融股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1