一种评分卡建模方法技术

技术编号:26766116 阅读:15 留言:0更新日期:2020-12-18 23:43
本发明专利技术公开一种评分卡建模方法,包含确定变量及筛选变量、中间衍生变量逻辑回归、模型验证。其中在变量确定的过程中不但引入了WOE变量同时还引入了Recode变量,进而从稳定性和精确性两方面构建和筛选变量;本方法引入了基于因子分析和PCA算法的变量聚类分析,将自变量按其主成分分簇,并在每个分簇中各选取若干变量,从而最大限度地保留了维度的解释度和覆盖面。本发明专利技术的评分卡建模方法完成计分模型的建模,仅在特定的几个步骤中需要人为介入,采用这种半自动建模方法将现有的建模时间由一个月缩短到了三天的时间,克服了现有技术中建模时间较长的技术问题。

【技术实现步骤摘要】
一种评分卡建模方法
本专利技术涉及信贷风控管理领域,具体地说,涉及针对放贷对象所做的一种评分卡建模方法。
技术介绍
在信贷风控领域的传统评分卡构建流程非常复杂,一般分为数据探索、WOE计算、变量筛选、相关性分析、分箱调整、模型调参、模型评估、评分卡转换、模型稳定性验证等诸多步骤。传统模型建模流程主要有以下几个问题:1.建模时间长:由于上述流程十分繁琐,所以评分卡的建立从数据探索到稳定性测试完成往往需要近一个月的时间,这就大大影响了以评分卡为基础的风控系统对市场变化的反应速度。其中,最费时费力的步骤主要集中在变量筛选、分箱调整和模型调参上。这些步骤往往需要反复的迭代测试。2.模型效果:传统模型在变量筛选时仅依赖两个方面:a)筛选与因变量相关性较高的自变量,基于如IV/KS/Gini值等;b)为了减少共线性,剔除相关性较高的自变量;基于以上筛选条件会过度消减训练逻辑回归模型前的入模变量个数,从而影响模型精度。误操作率高:手动建立传统评分卡在每个步骤上都要做大量的数据分析、数据整理,这就大大增加了出错的可能性。
技术实现思路
本专利技术的目的在于提供一种评分卡建模方法,用于解决现有技术中评分卡建模过程中耗时长,不能适应外部市场变化、以及建模模型效果差,错误率高的技术问题。本专利技术提供的一种评分卡建模方法包括以下步骤:步骤S1,确定变量及筛选变量:对变量进行转换,转换为衍生变量,在所有所述衍生变量中通过筛选算法剔除部分所述衍生变量后,得到筛选后高解释性、低共线性的中间衍生变量;步骤S2,中间衍生变量逻辑回归:先对所述中间衍生变量做向后逻辑回归,逐次剔除无效的或共线性较强的中间衍生变量;再对被剔除的所述中间衍生变量做向前回补,尝试逐个加回被剔除的中间衍生变量,确保模型效果最优,在向后逻辑回归和向前回补过程结束后确定最终入模变量及其权重,即确定了计分模型;步骤S3,模型验证:利用样本验证集对所述计分模型进行验证,判断验证结果的合理性;当所述验证结果不合理时,退回执行所述步骤S2。采用本专利技术的评分卡建模方法完成计分模型的建模,仅在特定的几个步骤中需要人为介入,采用这种半自动建模方法将现有的建模时间由一个月缩短到了三天的时间,克服了现有技术中建模时间较长的技术问题;除此之外,在对样本训练集中的中间衍生变量逻辑回归的步骤中采用了后逻辑回归及向前回补的两种回归迭代过程,对中间衍生变量中共线性较高的变量再次进行了验证和剔除,同时通过多次迭代后保证确定的各个中间衍生变量的权重最为合理,即便是在实际应用时部分变量缺失情况下,确定的权重也不会影响计分模型的输出结果,能够使得计分模型计分更加的精确,和快速,防止宕机。最后,本专利技术的评分卡计分模型除过需要人为介入的步骤外,其他的步骤均是标准化封装,其系统自动运行,减少了人工建模出错的可能性。附图说明图1是本专利技术评分卡建模方法的整体流程图;图2是本专利技术步骤S1的流程图;图3是本专利技术步骤S13的流程图;图4是本专利技术的评分卡建模方法的另一种实施方式流程图。具体实施方式下面结合具体实施例和说明书附图对本专利技术做进一步阐述和说明:请参考图1,本专利技术公开的一种评分卡建模方法。其方法主要用于对银行金融机构评估客户的消费和信贷还款能力,用于信贷金融机构的风险评估。具体的所述评分卡建模方法包括:步骤S1,确定变量及筛选变量:对变量进行转换,转换为衍生变量,在所有所述衍生变量中通过筛选算法剔除部分所述衍生变量后,得到筛选后高解释性、低共线性的中间衍生变量。在本步骤中,首先需要对数据探索和修正:统计样本训练数据,确定样本训练数据中所需要的变量类型和分布,并人工判断、修正部分错误变量类型。在本步骤中样本训练数据主要对象是面向银行的个人或者企业机构,其样本训练数据包括用于描述这些个人或者企业机构的数据,例如:个人年龄、性别、信用等级、贷款金额、还款期限、婚姻、工作岗位性质、收入情况、贷款途径、名下财产等多个变量。当银行确定了样本训练数据后,在模型建模前需要对样本训练数据的这些变量进行检验,修正,修改其中异常的变量格式或者数值,这样才能为后边进一步的样本训练数据建模提供条件。在本步骤中,接着需要变量确定:对所述变量进行转换,转换为衍生变量,在所有所述衍生变量中通过筛选算法剔除部分衍生变量后,得到筛选后高解释性、低共线性的中间衍生变量。变量确定是指要从银行提供的对象的总的变量中通过筛选算法选出影响评分的最关联变量,且这些变量之间尽量不具有共线性,这样才能保证最终的计分模型输出的结果尽可能的精确而稳定,受外界其他变量影响较小。参阅图2,具体的,确定变量并将所述变量转化为衍生变量的方法包括:步骤S11:对银行提供的变量分别做证据权重(WOE,WeightofEvidence)计算、重编码(Recode)计算,得到两组所述衍生变量。其中,证据权重(WOE,WeightofEvidence)计算能够对总的变量进行分析,确定这些总的变量中对评分结果影响大的变量有哪些。而重编码(Recode)计算是指对部分的样本中某个变量缺失、变量异常以及特殊值进行处理后,通过recode函数进行修改,修改为连续变量,从而能够保证所有的变量在证据权重计算后都不存在缺失、数值异常等情况。相较于传统的仅针对变量进行证据权重计算的情况来说,保留了更多的变量,虽然在计分模型的构建中复杂度增加了,但是增加的复杂度在可接受的范围内,最主要的是引入Recode计算后能够提高构建的计分模型的精确度和稳定性。步骤S12:对两组所述衍生变量的计算结果做相关性以及基于因子分析的变量聚类分析,剔除高共线性的所述衍生变量。共线性是指某一个变量对计分结果的影响与另一变量对计分结果的影响相似或者相同,此时基于两个变量进行模型构建后形成的计分模型稳定性差;当共线性变量比较多完成模型构建后,计分模型的通用性急剧恶化,甚至不能适应实际的需要,所以在模型构建的时候尽可能的保证各个变量之间不具有共线性,从多个维度上描述并拟合出计分模型,这样的计分模型更加稳定。如图3,其中,在做相关性和变量聚类分析时还包括以下方法:首先,步骤S121:基于所述衍生变量的个数确定若干备选分簇数;接着,步骤S122:基于因子分析以及主成分分析(PCA,PrincipalcomponentAnalysis)算法将衍生变量按照备选分簇数分簇;之后,步骤S123:评估不同备选分簇数下分簇的结果对整个衍生变量的样本训练集的解释度,选取具有最大解释度的分簇方式作为分簇结果;再有,步骤S124:从最终所述分簇方式的每个分簇中选取若干个最优衍生变量,选取最优衍生变量时,当所述分簇中具有WOE变量和Recode变量时优先选取WOE变量;在本步骤中,选取的若干个最优变量包括:每个分簇中拟合系数率(coefficientofDeterminati本文档来自技高网...

【技术保护点】
1.一种评分卡建模方法,其特征在于,包括以下步骤:/n步骤S1,确定变量及筛选变量:对变量进行转换,转换为衍生变量,在所有所述衍生变量中通过筛选算法剔除部分所述衍生变量后,得到筛选后高解释性、低共线性的中间衍生变量;/n步骤S2,中间衍生变量逻辑回归:先对所述中间衍生变量做向后逻辑回归,逐次剔除无效的或共线性较强的中间衍生变量;再对被剔除的所述中间衍生变量做向前回补,尝试逐个加回被剔除的中间衍生变量,确保模型效果最优,在向后逻辑回归和向前回补过程结束后确定最终入模变量及其权重,即确定了计分模型;/n步骤S3,模型验证:利用样本验证集对所述计分模型进行验证,判断验证结果的合理性;当所述验证结果不合理时,退回执行所述步骤S2。/n

【技术特征摘要】
1.一种评分卡建模方法,其特征在于,包括以下步骤:
步骤S1,确定变量及筛选变量:对变量进行转换,转换为衍生变量,在所有所述衍生变量中通过筛选算法剔除部分所述衍生变量后,得到筛选后高解释性、低共线性的中间衍生变量;
步骤S2,中间衍生变量逻辑回归:先对所述中间衍生变量做向后逻辑回归,逐次剔除无效的或共线性较强的中间衍生变量;再对被剔除的所述中间衍生变量做向前回补,尝试逐个加回被剔除的中间衍生变量,确保模型效果最优,在向后逻辑回归和向前回补过程结束后确定最终入模变量及其权重,即确定了计分模型;
步骤S3,模型验证:利用样本验证集对所述计分模型进行验证,判断验证结果的合理性;当所述验证结果不合理时,退回执行所述步骤S2。


2.如权利要求1所述的一种评分卡建模方法,其特征在于,还包括:
步骤S4,评分转化及调整转换参数:对所述验证结果转化为评分,判断所述评分的合理性,并手动修正转化过程中的转化参数,从而输出最终评分;
步骤S5,模型稳定性验证:对所述计分模型初步应用,并验证所述计分模型的稳定性,适时做出模型微调。


3.如权利要求1所述的一种评分卡建模方法,其特征在于,所述步骤S2中确定变量并将所述变量转化为衍生变量的方法包括:
步骤S11:对变量分别做证据权重(WOE,WeightofEvidence)计算、重编码(Recode)计算,得到两组所述衍生变量;
步骤S12:对两组所述衍生变量的计算结果做相关性以及基于因子分析的变量聚类分析,剔除高共线性的所述衍生变量;
步骤S13:对确定的所述衍生变量以及变量值手动精调分箱,根据分箱结果得到所述中间衍生变量。


4.如权利要求3所述的一种评分卡建模方法,其特征在于,所述步骤S12中的相关性及变量聚类分析的方法包括以下步骤:
步骤S121:基于所述衍生变量的个数确定若干备选分簇数;
步骤S122:基于因子分析以及主成分分析(PCA,PrincipalcomponentAnalysis)算法将衍生变量按照备选分簇数分簇;
步骤S123:评估不同备选分簇数下分簇的结果对整个衍生变量的样本训练集的解释度,选取具有最大解释度的分簇方式作为分簇结果;
步骤S124:从最终所述分簇方式的每个分簇中各选取若干个最优衍生变量,选取最优衍生变量时,当所述分簇中具有WOE变量和Recode变量时优先选取WOE变量;
步骤S125:汇总每个分簇中选取的多个所述衍生变量,如果同一个变量衍生出的WOE变量和Recode变量同时存在时,优先选择WOE变量,从而最终筛选出所述中间衍生变量。


5.如权利要求4所述的一种评分卡建模方法,其特征在于,所述步骤S124中选取的多个衍生变量包括:
每个分簇中拟合系数率(coefficientofDeterminationratio)最小的衍生变量;
每个分簇中柯尔莫哥洛夫-斯米诺夫(K...

【专利技术属性】
技术研发人员:黄又钢许洋
申请(专利权)人:深圳前海弘犀智能科技有限公司
类型:发明
国别省市:广东;44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1