基于决策树的特征分箱算法制造技术

技术编号:22723659 阅读:28 留言:0更新日期:2019-12-04 06:03
本发明专利技术公开了一种基于决策树的特征分箱算法,包括建模数据样本、特征变量与目标变量组合、设置限制条件、决策树分箱和产生分箱结果;本发明专利技术所提供的设备可以应用机器学习决策树算法产生一定条件下的最佳分箱结果,最终生成的分箱结果达到了数据意义上的最佳体现以及消除了建模人员主观意识的干扰性。将此算法嵌入到传统评分卡模型或其他新兴机器学习的建立当中,可以明显提高金融行业传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。

A decision tree based feature box splitting algorithm

The invention discloses a feature box splitting algorithm based on the decision tree, including modeling data samples, combination of feature variables and target variables, setting restrictions, box splitting of the decision tree and generating box splitting results; the equipment provided by the invention can produce the best box splitting results under certain conditions by applying the machine learning decision tree algorithm, and the final box splitting results reach the data meaning The interference of subjective consciousness of modelers is eliminated. Embedding this algorithm into the traditional scorecard model or other emerging machine learning can significantly improve the quality of the traditional credit model in the financial industry, improve the accuracy of approval, and reject more fraudulent overdue applications.

【技术实现步骤摘要】
基于决策树的特征分箱算法
本专利技术属于金融场景个人信用信用风险评估
,具体涉及基于决策树的特征分箱算法。
技术介绍
信用评分模型是根据银行或互联网金融客户的各种历史信用资料,得到不同等级的信用分数,根据客户的信用分数,授信机构可以通过分析客户贷后还款的可能性来决定是否给予授信以及授信的额度和利率。传统上银行或金融机构采取人工审批的方式,根据审批人员的个人经验进行主观的审批判断,使得审批决策很容易受主观因素的影响,导致审批结果不一致,不能够量化风险级别,无法实现风险的分级管理,而且会使得审批过程成本高、效率低。因此,这一状况就决定了客观准确的评分卡模型的建立需求。评分卡模型运用现代的数理统计模型技术,通过对申请人信用历史记录和业务活动记录的深入挖掘,提炼出信息可以预测申请者欺诈信用逾期的概率大小。评分卡模型是最重要、最常用的信用评分模型,而其中字段分箱操作是最为重要的一个环节。传统的建模工程师分箱操作会有很多主观因素的干预,分箱结果不能很好的反映特征变量在数据意义上的真实表现。而将机器学习中的决策树算法应用到分箱操作中去,可以高效的对于特征变量在数据意义上进行深度挖掘,避免人工干预,得到特征变量在一定限制条件内的最佳分箱效果。传统上使用的等频或等距的分箱方法没有考虑特征变量在实际业务意义上的特点,而且也没有真正实现数据意义上的较优分箱,每箱数据并没有考虑对不同标签样本的区分能力。传统建模工程师使用较多的分箱方法是每个特征变量的业务意义,以及业务人员的行业经验,对每个特征手动选取分箱点,将数据样本按照主观业务经验实现分箱。该方法虽然有它的优点,即可以在业务意义上有较好的解释性,但是此方法也存在很大的缺陷:1、传统的方法没有达到一定限制条件下分箱的最优效果,在分箱结果的信息值IV(informationvalue)上会有较大的损失,会影响模型的最终效果;2、传统的方法比较主观,不具有统一适用性,不同的建模工程师做出的效果好坏不稳定。
技术实现思路
本专利技术的目的在于提供基于决策树的特征分箱算法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:基于决策树的特征分箱算法,包括如下步骤:S1、对建模数据样本进行特征变量与目标变量组合;S2、设置决策树分箱算法中的限制条件,包括决策树最大深度,叶子节点最小样本数及特殊样本数等条件,并且设置决策树最优切分点判断指标采用Gini指标;S3、按照限制条件,遍历所有特征变量与目标变量的组合,排除特殊样本,使用决策树算法对所有排除特殊样本后的组合进行运算分箱;S4、将特殊样本按照限制条件分为对应数量的组,与步骤(b)形成的分箱结果进行合并,形成最终的分箱结果。优选的,在S2中,所述决策树分箱本质上是进行二元分类,以CART为例,依次计算相邻元素的中位数,并切分数据集,将基尼值与切分前进行比较,基尼变化程度最大的切分点即为最优切分点,然后再按照相同的方法分别对切分后的数据集进行再次切分,直到树的深度或叶子节点数达到一定要求为止。优选的,在S2中,Gini指标计算式如下:D1={(x,y)∈D|A(x)=a};D2=D-D1;其中,D表示样本集合,A表示某一特征变量,a表示特征变量的某一切分点,D1和D2表示被可能值a切分为的两组样本,K表示样本类别数量,C1K是D1样本集合中第K类的样本子集,|D|表示样本D的样本个数。与现有技术相比,本专利技术的有益效果是:本专利技术所提供的设备可以应用机器学习决策树算法产生一定条件下的最佳分箱结果,最终生成的分箱结果达到了数据意义上的最佳体现以及消除了建模人员主观意识的干扰性。将此算法嵌入到传统评分卡模型或其他新兴机器学习的建立当中,可以明显提高金融行业传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。附图说明图1为本专利技术的算法流程示意图;图2为本专利技术中决策树的结构示意图;具体实施方式下面结合实施例对本专利技术做进一步的描述。以下实施例用于说明本专利技术,但不能用来限制本专利技术的保护范围。实施例中的条件可以根据具体条件做进一步的调整,在本专利技术的构思前提下对本专利技术的方法简单改进都属于本专利技术要求保护的范围。请参阅图1-2,基于决策树的特征分箱算法,包括如下步骤:S1、对建模数据样本进行特征变量与目标变量组合;S2、设置决策树分箱算法中的限制条件,包括决策树最大深度,叶子节点最小样本数及特殊样本数等条件,所述决策树分箱本质上是进行二元分类,以CART为例,依次计算相邻元素的中位数,并切分数据集,将基尼值与切分前进行比较,基尼变化程度最大的切分点即为最优切分点,然后再按照相同的方法分别对切分后的数据集进行再次切分,直到树的深度或叶子节点数达到一定要求为止,并且设置决策树最优切分点判断指标采用Gini指标,Gini指标计算式如下:D1={(x,y)∈D|A(x)=a};D2=D-D1;其中,D表示样本集合,A表示某一特征变量,a表示特征变量的某一切分点,D1和D2表示被可能值a切分为的两组样本,K表示样本类别数量,C1K是D1样本集合中第K类的样本子集,|D|表示样本D的样本个数;S3、按照限制条件,遍历所有特征变量与目标变量的组合,排除特殊样本,使用决策树算法对所有排除特殊样本后的组合进行运算分箱;S4、将特殊样本按照限制条件分为对应数量的组,与步骤(b)形成的分箱结果进行合并,形成最终的分箱结果。对比案例:对比本算法与等频分箱算法的分箱结果,选取20个变量的分箱结果如表1所示,其中大部分变量采用决策树算法的分箱IV值均比等频分箱IV值提升20%以上,针对这20个变量决策树算法将变量分箱IV值平均提升了46.3%。表1.决策树算法与等频分箱算法效果对比本算法在互联网金融行业的消费分期行业、小微企业贷款行业、大额现金分期等行业得以应用,应用效果是在不影响模型稳定性的前提下,使得模型的效果大大提升,对于数据样本特征挖掘更深入更复杂,充分展现了数据样本包含的信息。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。本文档来自技高网
...

【技术保护点】
1.基于决策树的特征分箱算法,其特征在于,包括如下步骤:/nS1、对建模数据样本进行特征变量与目标变量组合;/nS2、设置决策树分箱算法中的限制条件,包括决策树最大深度,叶子节点最小样本数及特殊样本数等条件,并且设置决策树最优切分点判断指标采用Gini指标;/nS3、按照限制条件,遍历所有特征变量与目标变量的组合,排除特殊样本,使用决策树算法对所有排除特殊样本后的组合进行运算分箱;/nS4、将特殊样本按照限制条件分为对应数量的组,与步骤(b)形成的分箱结果进行合并,形成最终的分箱结果。/n

【技术特征摘要】
1.基于决策树的特征分箱算法,其特征在于,包括如下步骤:
S1、对建模数据样本进行特征变量与目标变量组合;
S2、设置决策树分箱算法中的限制条件,包括决策树最大深度,叶子节点最小样本数及特殊样本数等条件,并且设置决策树最优切分点判断指标采用Gini指标;
S3、按照限制条件,遍历所有特征变量与目标变量的组合,排除特殊样本,使用决策树算法对所有排除特殊样本后的组合进行运算分箱;
S4、将特殊样本按照限制条件分为对应数量的组,与步骤(b)形成的分箱结果进行合并,形成最终的分箱结果。


2.根据权利要求1所述的基于决策树的特征分箱算法,其特征在于,在S2中,所述决策树分箱本质上是进行二元分类,以...

【专利技术属性】
技术研发人员:段兆阳孙博杨森
申请(专利权)人:杭州排列科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1