基于二次函数及信息最大化的自动化U型分箱算法制造技术

技术编号:21302119 阅读:44 留言:0更新日期:2019-06-12 08:35
本发明专利技术属于信用评分技术领域,具体涉及一种基于二次函数及信息最大化的自动化U型分箱算法;采用该算法可以自动产生最佳分箱结果,将实际结构为U型的特征变量实现了U型分箱,实现了在实际业务意义上的解释性,在运行的过程中通过算法的优化减少了不必要的运行成本消耗,最终生成的分箱结果兼顾了业务意义上的可解释性和数据意义上的最佳体现。将此算法嵌入到传统评分卡模型或其他新兴机器学习的建立当中,可以明显提高金融行业传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。

Automated U-shaped box-dividing algorithm based on quadratic function and information maximization

The invention belongs to the technical field of credit scoring, and specifically relates to an automatic U-type box-dividing algorithm based on quadratic function and information maximization. The optimal box-dividing results can be automatically generated by using the algorithm, and the U-type box-dividing can be realized by using the characteristic variable with the actual structure of U-type, which realizes the explanatory function in the practical business sense, and reduces the unnecessary through the optimization of the algorithm in the operation process. The running cost consumption and the final sub-box results take account of both the interpretability in the business sense and the best reflection in the data sense. Embedding this algorithm into the traditional scorecard model or other emerging machine learning can significantly improve the quality of traditional credit model in the financial industry, improve the accuracy of approval, and reject more fraudulent overdue applications.

【技术实现步骤摘要】
基于二次函数及信息最大化的自动化U型分箱算法
本专利技术属于信用评分
,具体涉及基于二次函数及信息最大化的自动化U型分箱算法。
技术介绍
信用评分模型是评估贷款申请人的资信状况来预测申请人未来严重拖欠或坏账概率的模型。信用评分模型在信贷风险管理中有着非常重要的作用,因为该评分往往是信贷审批的关键依据。由于银行及互联网金融行业的信贷业务均具有笔数多、数据丰富的特点,决定了需要对其进行智能化、概率化的管理模式。而信用评分模型就是运用现代的数理统计模型技术,通过对申请人信用历史记录和业务活动记录的深入挖掘,提炼出信息可以预测申请者欺诈信用逾期的概率大小。评分卡模型是最重要、最常用的信用评分模型,而其中字段分箱操作是最为重要的一个环节。对于不考虑字段真实结构或字段结构满足单调性的情况下,目前的分箱方法可以较好的完成分箱操作,而对于实际结构为U型结构的特征变量目前的方法中均不能够实现最终分箱结果满足U型结构特点。金融信贷行业在建立评分卡模型之前,首先会对数据样本进行分箱操作,一方面实现了对数据的标准化,另一方面可以降低模型应用过程中的过拟合。而传统上用的分箱方法大多不考虑分箱结果的趋势性,如等频分箱和等距分箱等;还有较为先进分箱方法也仅仅使得分箱趋势符合一次函数,如单调性分箱等。传统上使用的等频或等距的分箱方法没有考虑特征变量在实际业务意义上的特点,而且也没有真正实现数据意义上的较优分箱,每箱数据并没有考虑对不同标签样本的区分能力。而较为先进的单调性分箱方法,使得所有分箱结果满足单调性趋势,对一些变量实现了在实际业务意义上的解释性,但是此方法也存在很大的缺陷:单调性分箱方法将一些U型结构的特征变量强制扭转为单调趋势,无法完成在实际业务意义上的解释性;单调性分箱方法改变U型结构特征变量的趋势,在分箱结果的信息值IV(informationvalue)上会有较大的损失,会影响模型的最终效果。
技术实现思路
本专利技术的目的在于提供基于二次函数及信息最大化的自动化U型分箱算法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:基于二次函数及信息最大化的自动化U型分箱算法,包括如下步骤:S1、对建模数据中的原始变量与目标变量相结合应用某种初始分箱结果,例如等距,等频,或者自定义的初始分箱结果,初始分箱结果作为优化算法的基础,进入下一步的一次函数和二次函数拟合中;S2、对初始分箱结果进行一次和二次函数拟合,对比拟合后的一次和二次函数拟合优度,根据限制条件定义初始分箱结果符合的趋势,如果符合二次函数,则需输出此二次函数极值点所在的位置及二次函数开口方向;S3、设置信息最大化算法中的约束条件,包括趋势是否符合U型,U型分箱极值点与二次函数极值点位置相符,U型分箱开口方向与二次函数开口方向相符,最终分箱箱数,每箱数据样本量及特殊样本数等条件;S4、若S2中得到初始分箱结果满足U型结构,则从最终分箱箱数阈值开始,通过组合的方式寻找满足阈值箱数中是否有满足结构为U型,且开口方向一致,极值点所在位置一致的分箱结果,若存在满足条件的分箱结果,则选择其中IV(informationvalue)最大的分箱结果做为最佳结果;S5、若S4步未寻找到符合条件的分箱结果,则再次寻找箱数阈值-1的分箱结果中是否存在符合所有约束条件的分箱结果,若存在,则选择IV最大的做为最佳结果,否则,再次寻找箱数阈值-2的分箱结果,直到寻找到满足条件的最佳分箱结果;S6、若样本数据中含有特殊样本,则将特殊样本按照特殊样本最终箱数阈值进行特殊样本的分箱,分箱结束后将特殊样本分箱结果与上述S4或S5的分箱结果合并在一起作为最后的结果输出;若样本数据中不含有特殊样本,则直接将上述S4或S5的分箱结果作为最后的结果输出。优选的,S2中所述的拟合优度计算方式如下:其中,n为样本数量,yi为待拟合数值,其均值为y,拟合值为优选的,S3中所述信息最大化算法中的约束条件为:其中,R2二次表示二次函数拟合优度,R2一次表示一次函数拟合优度,c表示倍数数值,xextrem表示分箱结果极值点所在位置,x二次extrem表示二次函数极值点所在位置,aU型表示U型分箱开口方向,a二次表示二次函数开口方向,n表示最终分箱数,nthreshold表示最终分箱数阈值,Si表示第i箱数据样本量大小,Sthreshold表示每箱样本量阈值,Special表示特殊样本值,B函数为计算特殊样本的箱数的函数,Bthreshold表示特殊样本最终箱数阈值。优选的,S4中所述IV(informationvalue)最大的分箱结果做为最佳结果方式为:其中,yi表示第i组箱中响应标签的数量,yT表示全部样本中响应标签的数量,ni表示第i组箱中未响应标签的数量,nT表示全部样本中未响应标签的数量。与现有技术相比,本专利技术的有益效果是:1、采用该算法可以自动产生最佳分箱结果,将实际结构为U型的特征变量实现了U型分箱,实现了在实际业务意义上的解释性,在运行的过程中通过算法的优化减少了不必要的运行成本消耗,最终生成的分箱结果兼顾了业务意义上的可解释性和数据意义上的最佳体现。将此算法嵌入到传统评分卡模型或其他新兴机器学习的建立当中,可以明显提高金融行业传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请;2、该U型算法是基于初始分箱结果的基础上,根据二次函数判断初始分箱结果是否符合U型趋势,对于符合U型趋势的特征变量,利用信息最大化算法寻找最优分割点组合,实现满足U型趋势及其他约束条件的情况下信息值IV(informationvalue)达到最大。附图说明图1为本专利技术的算法流程示意图;具体实施方式下面结合实施例对本专利技术做进一步的描述。以下实施例用于说明本专利技术,但不能用来限制本专利技术的保护范围。实施例中的条件可以根据具体条件做进一步的调整,在本专利技术的构思前提下对本专利技术的方法简单改进都属于本专利技术要求保护的范围。请参阅图1,本专利技术提供一种技术方案:基于二次函数及信息最大化的自动化U型分箱算法,包括如下步骤:S1、对建模数据中的原始变量与目标变量相结合应用某种初始分箱结果,例如等距,等频,或者自定义的初始分箱结果,初始分箱结果作为优化算法的基础,进入下一步的一次函数和二次函数拟合中;S2、对初始分箱结果进行一次和二次函数拟合,对比拟合后的一次和二次函数拟合优度,所述的拟合优度计算方式如下:其中,n为样本数量,yi为待拟合数值,其均值为y,拟合值为根据限制条件定义初始分箱结果符合的趋势,如果符合二次函数,则需输出此二次函数极值点所在的位置及二次函数开口方向;S3、设置信息最大化算法中的约束条件,包括趋势是否符合U型,U型分箱极值点与二次函数极值点位置相符,U型分箱开口方向与二次函数开口方向相符,最终分箱箱数,每箱数据样本量及特殊样本数等条件,所述信息最大化算法中的约束条件为:其中,R2二次表示二次函数拟合优度,R2一次表示一次函数拟合优度,c表示倍数数值,xextrem表示分箱结果极值点所在位置,x二次extrem表示二次函数极值点所在位置,aU型表示U型分箱开口方向,a二次表示二次函数开口方向,n表示最终分箱数,nthreshold表示最终分箱数阈值,Si表示第i箱数据样本量大小,Sthresho本文档来自技高网
...

【技术保护点】
1.基于二次函数及信息最大化的自动化U型分箱算法,其特征在于,包括如下步骤:S1、对建模数据中的原始变量与目标变量相结合应用某种初始分箱结果,例如等距,等频,或者自定义的初始分箱结果,初始分箱结果作为优化算法的基础,进入下一步的一次函数和二次函数拟合中;S2、对初始分箱结果进行一次和二次函数拟合,对比拟合后的一次和二次函数拟合优度,根据限制条件定义初始分箱结果符合的趋势,如果符合二次函数,则需输出此二次函数极值点所在的位置及二次函数开口方向;S3、设置信息最大化算法中的约束条件,包括趋势是否符合U型,U型分箱极值点与二次函数极值点位置相符,U型分箱开口方向与二次函数开口方向相符,最终分箱箱数,每箱数据样本量及特殊样本数等条件;S4、若S2中得到初始分箱结果满足U型结构,则从最终分箱箱数阈值开始,通过组合的方式寻找满足阈值箱数中是否有满足结构为U型,且开口方向一致,极值点所在位置一致的分箱结果,若存在满足条件的分箱结果,则选择其中IV(information value)最大的分箱结果做为最佳结果;S5、若S4步未寻找到符合条件的分箱结果,则再次寻找箱数阈值‑1的分箱结果中是否存在符合所有约束条件的分箱结果,若存在,则选择IV最大的做为最佳结果,否则,再次寻找箱数阈值‑2的分箱结果,直到寻找到满足条件的最佳分箱结果;S6、若样本数据中含有特殊样本,则将特殊样本按照特殊样本最终箱数阈值进行特殊样本的分箱,分箱结束后将特殊样本分箱结果与上述S4或S5的分箱结果合并在一起作为最后的结果输出;若样本数据中不含有特殊样本,则直接将上述S4或S5的分箱结果作为最后的结果输出。...

【技术特征摘要】
1.基于二次函数及信息最大化的自动化U型分箱算法,其特征在于,包括如下步骤:S1、对建模数据中的原始变量与目标变量相结合应用某种初始分箱结果,例如等距,等频,或者自定义的初始分箱结果,初始分箱结果作为优化算法的基础,进入下一步的一次函数和二次函数拟合中;S2、对初始分箱结果进行一次和二次函数拟合,对比拟合后的一次和二次函数拟合优度,根据限制条件定义初始分箱结果符合的趋势,如果符合二次函数,则需输出此二次函数极值点所在的位置及二次函数开口方向;S3、设置信息最大化算法中的约束条件,包括趋势是否符合U型,U型分箱极值点与二次函数极值点位置相符,U型分箱开口方向与二次函数开口方向相符,最终分箱箱数,每箱数据样本量及特殊样本数等条件;S4、若S2中得到初始分箱结果满足U型结构,则从最终分箱箱数阈值开始,通过组合的方式寻找满足阈值箱数中是否有满足结构为U型,且开口方向一致,极值点所在位置一致的分箱结果,若存在满足条件的分箱结果,则选择其中IV(informationvalue)最大的分箱结果做为最佳结果;S5、若S4步未寻找到符合条件的分箱结果,则再次寻找箱数阈值-1的分箱结果中是否存在符合所有约束条件的分箱结果,若存在,则选择IV最大的做为最佳结果,否则,再次寻找箱数阈值-2的分箱结果,直到寻找到满足条件的最佳分箱结果;S6、若样本数据中含有特殊样本,则将特殊样本按照特殊样本最终箱数阈值进行特殊样本的分箱,分箱结...

【专利技术属性】
技术研发人员:段兆阳孙博王华瑞杨森
申请(专利权)人:杭州排列科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1