特征分箱方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:37408073 阅读:32 留言:0更新日期:2023-04-30 09:34
本申请实施例属于人工智能领域,涉及一种特征分箱方法、装置、计算机设备及存储介质,方法包括:获取包含多个建模样本的建模样本集,其中,建模样本包含标签变量和待分箱的特征变量;以证据权重和信息值作为决策树分割标准,从特征变量维度对建模样本集进行分割,得到多个决策树下的候选分箱结果,其中,证据权重和信息值基于标签变量计算,各决策树的深度小于或等于预设的最大深度,且每个深度对应至少一个候选分箱结果;根据各候选分箱结果中各分箱的证据权重,对各候选分箱结果进行筛选,得到特征变量的目标分箱结果。本申请提高了特征分箱的速度以及准确性。箱的速度以及准确性。箱的速度以及准确性。

【技术实现步骤摘要】
特征分箱方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种特征分箱方法、装置、计算机设备及存储介质。

技术介绍

[0002]评分卡模型是金融领域信用评估中非常重要的一种模型,它可以采用逻辑回归(Logistics Regression)进行建模,并在使用中需要对连续变量进行离散化,即需要对建模的特征进行特征分箱,而分箱的质量很大程度决定了评分卡模型的质量。
[0003]当前的特征分箱技术为了确保特征分箱的质量,通常是人为依据经验和知识进行特征分箱。在大数据建模的背景下,评分卡建模时所需的数据量异常庞大,这导致分箱过程耗时且繁琐,使得特征分箱的效率较低。

技术实现思路

[0004]本申请实施例的目的在于提出一种特征分箱方法、装置、计算机设备及存储介质,以解决特征分箱效率较低的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种特征分箱方法,采用了如下所述的技术方案:获取包含多个建模样本的建模样本集,其中,所述建模样本包含标签变量和待分箱的特征变量;以证据权重和信息值作为本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种特征分箱方法,其特征在于,包括下述步骤:获取包含多个建模样本的建模样本集,其中,所述建模样本包含标签变量和待分箱的特征变量;以证据权重和信息值作为决策树分割标准,从所述特征变量维度对所述建模样本集进行分割,得到多个决策树下的候选分箱结果,其中,所述证据权重和所述信息值基于所述标签变量计算,各决策树的深度小于等于预设的最大深度,且每个深度对应至少一个候选分箱结果;根据各候选分箱结果中各分箱的证据权重,对所述各候选分箱结果进行筛选,得到所述特征变量的目标分箱结果。2.根据权利要求1所述的特征分箱方法,其特征在于,在所述获取包含多个建模样本的建模样本集的步骤之后,还包括:获取决策树配置信息,所述决策树配置信息包含所述最大深度以及分箱最小样本数,所述决策树配置信息用于对决策树进行限制。3.根据权利要求2所述的特征分箱方法,其特征在于,所述以证据权重和信息值作为决策树分割标准,从特征变量维度对所述建模样本集进行分割,得到多个决策树下的候选分箱结果的步骤包括:在每个小于或等于所述最大深度的深度下,在所述特征变量的取值范围内,根据所述分箱最小样本数确定多个特征分割点;根据各特征分割点分别对所述建模样本集进行一级分割,得到多个一级分箱结果;根据各一级分箱结果中各建模样本的标签变量,分别计算各一级分箱结果的证据权重,并根据所述各一级分箱结果的证据权重分别计算所述各一级分箱结果的信息值;根据得到的信息值对所述各一级分箱结果进行筛选;对筛选到的一级分箱结果进行一级分割之后的迭代分割,直至分割后决策树的深度达到预设的深度,得到所述候选分箱结果。4.根据权利要求3所述的特征分箱方法,其特征在于,所述根据得到的信息值对所述各一级分箱结果进行筛选的步骤包括:对得到的各信息值进行降序排列,得到信息值序列;从所述信息值序列中选取至少一个信息值,并保留选取到的信息值所对应的一级分箱结果。5.根据权利要求1所述的特征分箱方法,其特征在于,所述根据各候选分箱结果中各分箱的证据权重,对所述各候选分箱结果进行筛选,得到所述特征变量的目标分箱结果的步骤包括:对于每个候选分箱结果,获取所述候选分箱结果中各分箱的证据权重;根据得到的证据权重绘制所述候选分箱结果的证据权重曲线;根据各证...

【专利技术属性】
技术研发人员:刘帅斯洪标姜桂林唐丽华张东阳刘逾江闫宁
申请(专利权)人:湖南财信数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1