一种基于坏账率单调的自动分箱方法技术

技术编号:38498168 阅读:8 留言:0更新日期:2023-08-15 17:07
本发明专利技术提供的一种基于坏账率单调的自动分箱方法包括:获取个人数值型特征,与违约标签建立待分箱数据集;特殊值单独分箱;正常值标记违约趋势;根据相邻两箱坏账趋势循环合并箱体;计算正常值相邻箱体卡方值,直至箱数小于等于首个箱数预设值;计算正常值分箱占比,并与箱体占比预设值比较,循环合并占比低于预设值的相邻箱体;计算正常值相邻箱体坏账率差值,循环合并坏账率差值最小的箱体,直至箱数小于等于第二个箱数预设值;拼接特殊值与正常值分箱结果,合并空值与正常值坏账率相近的分箱,计算各类指标。在满足单调性的前提下,最大化的保证模型效果。化的保证模型效果。化的保证模型效果。

【技术实现步骤摘要】
一种基于坏账率单调的自动分箱方法


[0001]本专利技术涉及风险管理领域,尤其涉及一种基于坏账率单调的自动分箱方法。

技术介绍

[0002]风险管理是金融活动的核心,在个人信贷领域,贷款表现为单笔金额小、数量大的特点,智能风控模型覆盖贷前、贷中、贷后三个阶段的个人信贷业务全流程,依托智能风控技术,对客户风险进行及时有效的识别、预警和标识。
[0003]智能风控模型以大数据分析技术为基础,融合多元信息,采用机器学习或集成学习策略,从不同层面对个体进行建模打分,帮助贷款方从多个方面考察个体的还款能力、还款意愿。
[0004]智能风控模型(逻辑回归)的特征工程过程,通常采用分箱法对连续型特征进行离散化处理,分箱的一般原则如下:
[0005]1)分箱差异原则:关于坏账率,组间差异大,组内差异小;
[0006]2)样本占比原则:每组样本占比不低于5%,如样本量充足,该比例可以适当降低;
[0007]3)必须有好、坏两种样本;
[0008]4)分箱数量一般为3~8箱;
[0009]5)单调性原则:严格单调(不含缺失值分箱)或不单调但业务可解释。
[0010]银行系金融机构构建风控模型时,不仅要求信贷风控模型的效果良好,还要求入模特征经过分箱后,坏样本在各箱的占比趋势符合业务逻辑。
[0011]当前,常用的特征分箱方法分为两大类:无监督学习和有监督学习。无监督学习方法包括等频分箱、等距分箱、聚类分箱(K

Means)等;有监督学习方法包括决策树分箱(Decision Tree)、卡方分箱(ChiMerge)等。现有的分箱方法,主要考虑的是特征样本数据的分布情况(如等频、等距、聚类分箱),或者特征与违约标签之间的关系(如决策树分箱、卡方分箱)。
[0012]上述方法未考虑分箱后,坏样本在各箱的占比趋势是否符合业务逻辑,实践中极易出现特征分箱后违约概率不单调或单一分箱占比不满足要求等情况,需要开发人员耗费大量精力手动调整分箱。
[0013]现有分箱方法的缺陷,有如下三点:
[0014]1、较多的手动调整过程耗时耗力;
[0015]2、人工重新寻找分箱切分点,主观干预性较大,鲁棒性差;
[0016]3、有些特征,无法通过合并现有分箱的方式,解决单调性的问题。

技术实现思路

[0017]鉴于上述问题,提出了本专利技术以便提供克服上述问题或者至少部分地解决上述问题的一种基于坏账率单调的自动分箱方法。
[0018]根据本专利技术的一个方面,提供了一种基于坏账率单调的自动分箱方法,所述分箱
方法包括:
[0019]步骤S1:获取个人数值型特征,与违约标签建立待分箱数据集;
[0020]步骤S2:特殊值单独分箱;
[0021]步骤S3:正常值标记违约趋势;
[0022]步骤S4:按变量正常值的枚举值分箱,根据相邻两箱坏账趋势循环合并箱体;
[0023]步骤S5:计算正常值相邻箱体卡方值,循环合并卡方值最小的箱体,直至箱数小于等于首个箱数预设值;
[0024]步骤S6:计算正常值分箱占比,并与箱体占比预设值比较,循环合并占比低于预设值的相邻箱体;
[0025]步骤S7:计算正常值相邻箱体坏账率差值,循环合并坏账率差值最小的箱体,直至箱数小于等于第二个箱数预设值;
[0026]步骤S8:拼接特殊值与正常值分箱结果,合并空值与正常值坏账率相近的分箱,计算各类指标。
[0027]可选的,所述步骤S1:获取个人数值型特征,与违约标签建立待分箱数据集具体包括:获取个人特征与违约标签建立待分箱数据集,选取数值型特征,与违约标签构建第一数据表T1。
[0028]可选的,所述步骤S2:特殊值单独分箱具体包括:
[0029]根据所述第一数据表T1需要单独分箱的特殊值,设置预分组编码并分箱,计算分箱的阈值上下限、总样本、坏样本、坏账率指标,保留为第二数据表T2。
[0030]可选的,所述步骤S3:正常值标记违约趋势具体包括:取出所述第一数据表T1中的正常值样本,标记特征坏账趋势,保留为第三数据表T3。
[0031]可选的,所述步骤S4:按变量正常值的枚举值分箱,根据相邻两箱坏账趋势循环合并箱体具体包括:
[0032]根据所述第一数据表T1正常值样本,按变量的枚举值分箱,计算分箱的阈值上下限、总样本、坏样本、坏账率指标,保留为第四数据表T4;
[0033]对比所述第四数据表T4相邻箱体之间单调性差异,循环合并相邻箱体坏账趋势与步骤S3标记趋势不符的分箱;
[0034]为保证组别间坏账率的单调性,将合并过程迭代25次,最终保留为第五数据表T5。
[0035]可选的,所述步骤S5:计算正常值相邻箱体卡方值,循环合并卡方值最小的箱体,直至箱数小于等于首个箱数预设值具体包括:
[0036]计算所述第五数据表T5相邻分箱的卡方值,循环合并卡方值最小的箱体,直至箱数小于等于首个箱数预设值,最终保留为第六数据表T6。
[0037]可选的,所述步骤S6:计算正常值分箱占比,并与箱体占比预设值比较,循环合并占比低于预设值的相邻箱体具体包括:
[0038]计算所述第六数据表T6每个分箱样本占比,循环合并占比低于最低预设值的相邻箱体;
[0039]为保证每组数据量满足分箱占比要求,将合并过程迭代5次,最终保留为第七数据表T7。
[0040]可选的,所述步骤S7:计算正常值相邻箱体坏账率差值,循环合并坏账率差值最小
的箱体,直至箱数小于等于第二个箱数预设值具体包括:
[0041]计算所述第七数据表T7相邻箱体坏账率差值,循环合并坏账率差值最小的箱体,直至箱数小于等于第二个箱数预设值,最终保留为第八数据表T8。
[0042]可选的,所述步骤S8:拼接特殊值与正常值分箱结果,合并空值与正常值坏账率相近的分箱,计算各类指标具体包括:
[0043]将所述第二数据表T2与所述第八数据表T8两张表进行拼接;
[0044]合并空值与正常值坏账率相近的分箱;
[0045]计算各类指标,作为自动分箱结果输出。
[0046]可选的,所述各类指标具体包括:WOE、IV值。
[0047]本专利技术提供的一种基于坏账率单调的自动分箱方法,所述分箱方法包括:获取个人数值型特征,与违约标签建立待分箱数据集;特殊值单独分箱;正常值标记违约趋势;按变量正常值的枚举值分箱,根据相邻两箱坏账趋势循环合并箱体;计算正常值相邻箱体卡方值,循环合并卡方值最小的箱体,直至箱数小于等于首个箱数预设值;计算正常值分箱占比,并与箱体占比预设值比较,循环合并占比低于预设值的相邻箱体;计算正常值相邻箱体坏账率差值,循环合并坏账率差值最小的箱体,直至箱数小于等于第二个箱数预设值;拼接特殊值与正常值分箱结果,合并空值与正常值坏账率相近的分箱,计算各类指标。在满足单调性的前提下,无需人工重新寻找分箱切分点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于坏账率单调的自动分箱方法,其特征在于,所述分箱方法包括:步骤S1:获取个人数值型特征,与违约标签建立待分箱数据集;步骤S2:特殊值单独分箱;步骤S3:正常值标记违约趋势;步骤S4:按变量正常值的枚举值分箱,根据相邻两箱坏账趋势循环合并箱体;步骤S5:计算正常值相邻箱体卡方值,循环合并卡方值最小的箱体,直至箱数小于等于首个箱数预设值;步骤S6:计算正常值分箱占比,并与箱体占比预设值比较,循环合并占比低于预设值的相邻箱体;步骤S7:计算正常值相邻箱体坏账率差值,循环合并坏账率差值最小的箱体,直至箱数小于等于第二个箱数预设值;步骤S8:拼接特殊值与正常值分箱结果,合并空值与正常值坏账率相近的分箱,计算各类指标。2.根据权利要求1所述的一种基于坏账率单调的自动分箱方法,其特征在于,所述步骤S1:获取个人数值型特征,与违约标签建立待分箱数据集具体包括:获取个人特征与违约标签建立待分箱数据集,选取数值型特征,与违约标签构建第一数据表T1。3.根据权利要求2所述的一种基于坏账率单调的自动分箱方法,其特征在于,所述步骤S2:特殊值单独分箱具体包括:根据所述第一数据表T1需要单独分箱的特殊值,设置预分组编码并分箱,计算分箱的阈值上下限、总样本、坏样本、坏账率指标,保留为第二数据表T2。4.根据权利要求2所述的一种基于坏账率单调的自动分箱方法,其特征在于,所述步骤S3:正常值标记违约趋势具体包括:取出所述第一数据表T1中的正常值样本,标记特征坏账趋势,保留为第三数据表T3。5.根据权利要求2所述的一种基于坏账率单调的自动分箱方法,其特征在于,所述步骤S4:按变量正常值的枚举值分箱,根据相邻两箱坏账趋势循环合并箱体具体包括:根据所述第一数据表T1正常值样本,按变量的枚举值分箱,计算分箱的阈值上下限、总样本、坏样本、坏账率指标,保留为第四数据表...

【专利技术属性】
技术研发人员:张文文陈兴隆
申请(专利权)人:北银金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1