一种评分卡建模方法技术

技术编号：26766116 阅读：17 留言：0更新日期：2020-12-18 23:43

本发明专利技术公开一种评分卡建模方法，包含确定变量及筛选变量、中间衍生变量逻辑回归、模型验证。其中在变量确定的过程中不但引入了WOE变量同时还引入了Recode变量，进而从稳定性和精确性两方面构建和筛选变量；本方法引入了基于因子分析和PCA算法的变量聚类分析，将自变量按其主成分分簇，并在每个分簇中各选取若干变量，从而最大限度地保留了维度的解释度和覆盖面。本发明专利技术的评分卡建模方法完成计分模型的建模，仅在特定的几个步骤中需要人为介入，采用这种半自动建模方法将现有的建模时间由一个月缩短到了三天的时间，克服了现有技术中建模时间较长的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种评分卡建模方法
本专利技术涉及信贷风控管理领域，具体地说，涉及针对放贷对象所做的一种评分卡建模方法。
技术介绍
在信贷风控领域的传统评分卡构建流程非常复杂，一般分为数据探索、WOE计算、变量筛选、相关性分析、分箱调整、模型调参、模型评估、评分卡转换、模型稳定性验证等诸多步骤。传统模型建模流程主要有以下几个问题：1.建模时间长：由于上述流程十分繁琐，所以评分卡的建立从数据探索到稳定性测试完成往往需要近一个月的时间，这就大大影响了以评分卡为基础的风控系统对市场变化的反应速度。其中，最费时费力的步骤主要集中在变量筛选、分箱调整和模型调参上。这些步骤往往需要反复的迭代测试。2.模型效果：传统模型在变量筛选时仅依赖两个方面：a)筛选与因变量相关性较高的自变量，基于如IV/KS/Gini值等；b)为了减少共线性，剔除相关性较高的自变量；基于以上筛选条件会过度消减训练逻辑回归模型前的入模变量个数，从而影响模型精度。误操作率高：手动建立传统评分卡在每个步骤上都要做大量的数据分析、数据整理，这就大大增加了出错的可能性。
技术实现思路
本专利技术的目的在于提供一种评分卡建模方法，用于解决现有技术中评分卡建模过程中耗时长，不能适应外部市场变化、以及建模模型效果差，错误率高的技术问题。本专利技术提供的一种评分卡建模方法包括以下步骤：步骤S1，确定变量及筛选变量：对变量进行转换，转换为衍生变量，在所有所述衍生变量中通过筛选算法剔除部分所述衍生变量后，得到筛...

【技术保护点】
1.一种评分卡建模方法，其特征在于，包括以下步骤：/n步骤S1，确定变量及筛选变量：对变量进行转换，转换为衍生变量，在所有所述衍生变量中通过筛选算法剔除部分所述衍生变量后，得到筛选后高解释性、低共线性的中间衍生变量；/n步骤S2，中间衍生变量逻辑回归：先对所述中间衍生变量做向后逻辑回归，逐次剔除无效的或共线性较强的中间衍生变量；再对被剔除的所述中间衍生变量做向前回补，尝试逐个加回被剔除的中间衍生变量，确保模型效果最优，在向后逻辑回归和向前回补过程结束后确定最终入模变量及其权重，即确定了计分模型；/n步骤S3，模型验证：利用样本验证集对所述计分模型进行验证，判断验证结果的合理性；当所述验证结果不合理时，退回执行所述步骤S2。/n

【技术特征摘要】
1.一种评分卡建模方法，其特征在于，包括以下步骤：
步骤S1，确定变量及筛选变量：对变量进行转换，转换为衍生变量，在所有所述衍生变量中通过筛选算法剔除部分所述衍生变量后，得到筛选后高解释性、低共线性的中间衍生变量；
步骤S2，中间衍生变量逻辑回归：先对所述中间衍生变量做向后逻辑回归，逐次剔除无效的或共线性较强的中间衍生变量；再对被剔除的所述中间衍生变量做向前回补，尝试逐个加回被剔除的中间衍生变量，确保模型效果最优，在向后逻辑回归和向前回补过程结束后确定最终入模变量及其权重，即确定了计分模型；
步骤S3，模型验证：利用样本验证集对所述计分模型进行验证，判断验证结果的合理性；当所述验证结果不合理时，退回执行所述步骤S2。

2.如权利要求1所述的一种评分卡建模方法，其特征在于，还包括：
步骤S4，评分转化及调整转换参数：对所述验证结果转化为评分，判断所述评分的合理性，并手动修正转化过程中的转化参数，从而输出最终评分；
步骤S5，模型稳定性验证：对所述计分模型初步应用，并验证所述计分模型的稳定性，适时做出模型微调。

3.如权利要求1所述的一种评分卡建模方法，其特征在于，所述步骤S2中确定变量并将所述变量转化为衍生变量的方法包括：
步骤S11：对变量分别做证据权重(WOE，WeightofEvidence)计算、重编码(Recode)计算，得到两组所述衍生变量；
步骤S12：对两组所述衍生变量的计算结果做相关性以及基于因子分析的变量聚类分析，剔除高共线性的所述衍生变量；
步骤S13：对确定的所述衍生变量以及变量值手动精调分箱，根据分箱结果得到所述中间衍生变量。

4.如权利要求3所述的一种评分卡建模方法，其特征在于，所述步骤S12中的相关性及变量聚类分析的方法包括以下步骤：
步骤S121：基于所述衍生变量的个数确定若干备选分簇数；
步骤S122：基于因子分析以及主成分分析(PCA，PrincipalcomponentAnalysis)算法将衍生变量按照备选分簇数分簇；
步骤S123：评估不同备选分簇数下分簇的结果对整个衍生变量的样本训练集的解释度，选取具有最大解释度的分簇方式作为分簇结果；
步骤S124：从最终所述分簇方式的每个分簇中各选取若干个最优衍生变量，选取最优衍生变量时，当所述分簇中具有WOE变量和Recode变量时优先选取WOE变量；
步骤S125：汇总每个分簇中选取的多个所述衍生变量，如果同一个变量衍生出的WOE变量和Recode变量同时存在时，优先选择WOE变量，从而最终筛选出所述中间衍生变量。

5.如权利要求4所述的一种评分卡建模方法，其特征在于，所述步骤S124中选取的多个衍生变量包括：
每个分簇中拟合系数率(coefficientofDeterminationratio)最小的衍生变量；
每个分簇中柯尔莫哥洛夫-斯米诺夫(K...

【专利技术属性】
技术研发人员：黄又钢，许洋，
申请(专利权)人：深圳前海弘犀智能科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人