基于二次函数及信息最大化的自动化U型分箱算法制造技术

技术编号：21302119 阅读：44 留言：0更新日期：2019-06-12 08:35

本发明专利技术属于信用评分技术领域，具体涉及一种基于二次函数及信息最大化的自动化U型分箱算法；采用该算法可以自动产生最佳分箱结果，将实际结构为U型的特征变量实现了U型分箱，实现了在实际业务意义上的解释性，在运行的过程中通过算法的优化减少了不必要的运行成本消耗，最终生成的分箱结果兼顾了业务意义上的可解释性和数据意义上的最佳体现。将此算法嵌入到传统评分卡模型或其他新兴机器学习的建立当中，可以明显提高金融行业传统的信贷模型质量，提高审批的正确率，拒绝更多的欺诈逾期申请。

Automated U-shaped box-dividing algorithm based on quadratic function and information maximization

The invention belongs to the technical field of credit scoring, and specifically relates to an automatic U-type box-dividing algorithm based on quadratic function and information maximization. The optimal box-dividing results can be automatically generated by using the algorithm, and the U-type box-dividing can be realized by using the characteristic variable with the actual structure of U-type, which realizes the explanatory function in the practical business sense, and reduces the unnecessary through the optimization of the algorithm in the operation process. The running cost consumption and the final sub-box results take account of both the interpretability in the business sense and the best reflection in the data sense. Embedding this algorithm into the traditional scorecard model or other emerging machine learning can significantly improve the quality of traditional credit model in the financial industry, improve the accuracy of approval, and reject more fraudulent overdue applications.

全部详细技术资料下载

【技术实现步骤摘要】
基于二次函数及信息最大化的自动化U型分箱算法
本专利技术属于信用评分
，具体涉及基于二次函数及信息最大化的自动化U型分箱算法。
技术介绍
信用评分模型是评估贷款申请人的资信状况来预测申请人未来严重拖欠或坏账概率的模型。信用评分模型在信贷风险管理中有着非常重要的作用，因为该评分往往是信贷审批的关键依据。由于银行及互联网金融行业的信贷业务均具有笔数多、数据丰富的特点，决定了需要对其进行智能化、概率化的管理模式。而信用评分模型就是运用现代的数理统计模型技术，通过对申请人信用历史记录和业务活动记录的深入挖掘，提炼出信息可以预测申请者欺诈信用逾期的概率大小。评分卡模型是最重要、最常用的信用评分模型，而其中字段分箱操作是最为重要的一个环节。对于不考虑字段真实结构或字段结构满足单调性的情况下，目前的分箱方法可以较好的完成分箱操作，而对于实际结构为U型结构的特征变量目前的方法中均不能够实现最终分箱结果满足U型结构特点。金融信贷行业在建立评分卡模型之前，首先会对数据样本进行分箱操作，一方面实现了对数据的标准化，另一方面可以降低模型应用过程中的过拟合。而传统上用的分箱方法大多不考虑分箱结果的趋势性，如等频分箱和等距分箱等；还有较为先进分箱方法也仅仅使得分箱趋势符合一次函数，如单调性分箱等。传统上使用的等频或等距的分箱方法没有考虑特征变量在实际业务意义上的特点，而且也没有真正实现数据意义上的较优分箱，每箱数据并没有考虑对不同标签样本的区分能力。而较为先进的单调性分箱方法，使得所有分箱结果满足单调性趋势，对一些变量实现了在实际业务意义上的解释性，但是此方法也存在很大的缺陷：...

【技术保护点】
1.基于二次函数及信息最大化的自动化U型分箱算法，其特征在于，包括如下步骤：S1、对建模数据中的原始变量与目标变量相结合应用某种初始分箱结果，例如等距，等频，或者自定义的初始分箱结果，初始分箱结果作为优化算法的基础，进入下一步的一次函数和二次函数拟合中；S2、对初始分箱结果进行一次和二次函数拟合，对比拟合后的一次和二次函数拟合优度，根据限制条件定义初始分箱结果符合的趋势，如果符合二次函数，则需输出此二次函数极值点所在的位置及二次函数开口方向；S3、设置信息最大化算法中的约束条件，包括趋势是否符合U型，U型分箱极值点与二次函数极值点位置相符，U型分箱开口方向与二次函数开口方向相符，最终分箱箱数，每箱数据样本量及特殊样本数等条件；S4、若S2中得到初始分箱结果满足U型结构，则从最终分箱箱数阈值开始，通过组合的方式寻找满足阈值箱数中是否有满足结构为U型，且开口方向一致，极值点所在位置一致的分箱结果，若存在满足条件的分箱结果，则选择其中IV(information value)最大的分箱结果做为最佳结果；S5、若S4步未寻找到符合条件的分箱结果，则再次寻找箱数阈值‑1的分箱结果中是否存在符合所...

【技术特征摘要】
1.基于二次函数及信息最大化的自动化U型分箱算法，其特征在于，包括如下步骤：S1、对建模数据中的原始变量与目标变量相结合应用某种初始分箱结果，例如等距，等频，或者自定义的初始分箱结果，初始分箱结果作为优化算法的基础，进入下一步的一次函数和二次函数拟合中；S2、对初始分箱结果进行一次和二次函数拟合，对比拟合后的一次和二次函数拟合优度，根据限制条件定义初始分箱结果符合的趋势，如果符合二次函数，则需输出此二次函数极值点所在的位置及二次函数开口方向；S3、设置信息最大化算法中的约束条件，包括趋势是否符合U型，U型分箱极值点与二次函数极值点位置相符，U型分箱开口方向与二次函数开口方向相符，最终分箱箱数，每箱数据样本量及特殊样本数等条件；S4、若S2中得到初始分箱结果满足U型结构，则从最终分箱箱数阈值开始，通过组合的方式寻找满足阈值箱数中是否有满足结构为U型，且开口方向一致，极值点所在位置一致的分箱结果，若存在满足条件的分箱结果，则选择其中IV(informationvalue)最大的分箱结果做为最佳结果；S5、若S4步未寻找到符合条件的分箱结果，则再次寻找箱数阈值-1的分箱结果中是否存在符合所有约束条件的分箱结果，若存在，则选择IV最大的做为最佳结果，否则，再次寻找箱数阈值-2的分箱结果，直到寻找到满足条件的最佳分箱结果；S6、若样本数据中含有特殊样本，则将特殊样本按照特殊样本最终箱数阈值进行特殊样本的分箱，分箱结...

【专利技术属性】
技术研发人员：段兆阳，孙博，王华瑞，杨森，
申请(专利权)人：杭州排列科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人