The invention discloses a feature box splitting algorithm based on the decision tree, including modeling data samples, combination of feature variables and target variables, setting restrictions, box splitting of the decision tree and generating box splitting results; the equipment provided by the invention can produce the best box splitting results under certain conditions by applying the machine learning decision tree algorithm, and the final box splitting results reach the data meaning The interference of subjective consciousness of modelers is eliminated. Embedding this algorithm into the traditional scorecard model or other emerging machine learning can significantly improve the quality of the traditional credit model in the financial industry, improve the accuracy of approval, and reject more fraudulent overdue applications.
【技术实现步骤摘要】
基于决策树的特征分箱算法
本专利技术属于金融场景个人信用信用风险评估
,具体涉及基于决策树的特征分箱算法。
技术介绍
信用评分模型是根据银行或互联网金融客户的各种历史信用资料,得到不同等级的信用分数,根据客户的信用分数,授信机构可以通过分析客户贷后还款的可能性来决定是否给予授信以及授信的额度和利率。传统上银行或金融机构采取人工审批的方式,根据审批人员的个人经验进行主观的审批判断,使得审批决策很容易受主观因素的影响,导致审批结果不一致,不能够量化风险级别,无法实现风险的分级管理,而且会使得审批过程成本高、效率低。因此,这一状况就决定了客观准确的评分卡模型的建立需求。评分卡模型运用现代的数理统计模型技术,通过对申请人信用历史记录和业务活动记录的深入挖掘,提炼出信息可以预测申请者欺诈信用逾期的概率大小。评分卡模型是最重要、最常用的信用评分模型,而其中字段分箱操作是最为重要的一个环节。传统的建模工程师分箱操作会有很多主观因素的干预,分箱结果不能很好的反映特征变量在数据意义上的真实表现。而将机器学习中的决策树算法应用到分箱操作中去,可以高效的对于特征变量在数据意义上进行深度挖掘,避免人工干预,得到特征变量在一定限制条件内的最佳分箱效果。传统上使用的等频或等距的分箱方法没有考虑特征变量在实际业务意义上的特点,而且也没有真正实现数据意义上的较优分箱,每箱数据并没有考虑对不同标签样本的区分能力。传统建模工程师使用较多的分箱方法是每个特征变量的业务意义,以及业务人员的行业经验,对每个特征手动选取分 ...
【技术保护点】
1.基于决策树的特征分箱算法,其特征在于,包括如下步骤:/nS1、对建模数据样本进行特征变量与目标变量组合;/nS2、设置决策树分箱算法中的限制条件,包括决策树最大深度,叶子节点最小样本数及特殊样本数等条件,并且设置决策树最优切分点判断指标采用Gini指标;/nS3、按照限制条件,遍历所有特征变量与目标变量的组合,排除特殊样本,使用决策树算法对所有排除特殊样本后的组合进行运算分箱;/nS4、将特殊样本按照限制条件分为对应数量的组,与步骤(b)形成的分箱结果进行合并,形成最终的分箱结果。/n
【技术特征摘要】
1.基于决策树的特征分箱算法,其特征在于,包括如下步骤:
S1、对建模数据样本进行特征变量与目标变量组合;
S2、设置决策树分箱算法中的限制条件,包括决策树最大深度,叶子节点最小样本数及特殊样本数等条件,并且设置决策树最优切分点判断指标采用Gini指标;
S3、按照限制条件,遍历所有特征变量与目标变量的组合,排除特殊样本,使用决策树算法对所有排除特殊样本后的组合进行运算分箱;
S4、将特殊样本按照限制条件分为对应数量的组,与步骤(b)形成的分箱结果进行合并,形成最终的分箱结果。
2.根据权利要求1所述的基于决策树的特征分箱算法,其特征在于,在S2中,所述决策树分箱本质上是进行二元分类,以...
【专利技术属性】
技术研发人员:段兆阳,孙博,杨森,
申请(专利权)人:杭州排列科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。