一种基于最优变量分箱算法的信用评分卡开发方法及终端技术

技术编号:37615044 阅读:11 留言:0更新日期:2023-05-18 12:06
本发明专利技术的基于最优变量分箱算法的信用评分卡开发方法及终端,包括目标变量定义;根据分析型数据宽表,对数值型变量进行数据探索与清洗处理;对字符型变量及处理后的数值型变量进行样本切分;针对训练样本集中的变量,进行细分箱;计算并统计各个细分箱中的每个变量的IV值,将IV值低于阈值的变量剔除,形成第一新的分箱;采用最优分箱和单调分箱方法,对第一新的分箱的变量进行IV值的计算与切分点的处理,并对变量进行WOE转换;计算WOE转换后的变量的IV值,将IV值低于阈值的变量剔除,形成第二新的分箱;对第二新的分箱变量相关性筛选;以筛选变量为基础,构建模型;基于训练样本集、测试样本集、及跨时区校验样本集,评估模型的效果;最后进行评分卡标准化。最后进行评分卡标准化。最后进行评分卡标准化。

【技术实现步骤摘要】
一种基于最优变量分箱算法的信用评分卡开发方法及终端


[0001]本专利技术涉及消费金融行业评分卡模型开发构建
,更具体的,涉及基于最优变量分箱算法的信用评分卡开发方法及终端。

技术介绍

[0002]信用评分卡是指根据银行客户的各种历史信用资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的喜用分数,授信者可以通过分析客户按时还款的可能性,据此决定是否给给予申请人授信以及授信的额度和利率。相对于传统的人工分析来说,利用信用评分技术来进行量化风险计量的好处在于更加快速、更加客观,结果具有一致性。
[0003]随着我国信用消费市场的不断发展,为了防范银行系统的系统性金融,银保监会逐步加强了对商业银行量化风险管理的要求。在2020年银保监发布的《商业银行互联网贷款管理暂行办法》中明确要求采用评分模型的方法对授信人的信用风险作出科学的评估。同时,也要求在模型开发阶段做到开发测试、评审、监测、退出等环节的权责分离,责任清晰。可见,在当前信用市场高速发展的过程中,信用风险模型对商业银行的价值越来越大。
[0004]由于监管对商业银行的信用评分模型的可解释性有很高的要求,因此在建模技术上一般采用统计学的方法,在使用统计学模型进行建模的过程中,单变量的分析、加工、转换和筛选直接决定了模型的准确性和稳定性。传统上,一般会采用IV(Information Value)值来计算单变量的预测能力,通过IV对变量进行筛选,保留IV值较高的变量,再采用逻辑回归算法进行模型拟合。影响这种方法比较重要的是变量分箱的方案,不同的分箱方案所计算出的IV值有很大的差异。当前的分箱方法主要采取等额分箱或者等距分箱,不足之处在于分箱的结果依赖主观经验,难以取得预测效果最优的分箱方案,每个分箱结果的合理性也缺乏科学、有效的评估。

技术实现思路

[0005]为了克服现有技术的缺陷,本专利技术的一种基于最优变量分箱算法的信用评分卡开发方法及终端,解决技术中当前的分箱方法主要采取等额分箱或者等距分箱,不足之处在于分箱的结果依赖主观经验,难以取得预测效果最优的分箱方案,每个分箱结果的合理性也缺乏科学、有效的评估的问题。
[0006]为达此目的,本专利技术采用以下技术方案:
[0007]本专利技术提供了一种基于最优变量分箱算法的信用评分卡开发方法,包括以下步骤:
[0008]S101:目标变量定义,对客户的逾期行为进行Vintage分析,根据通过所述Vintage分析的结果,确定模型的表现窗口,并将所述Vintage分析中的逾期率拐点的时间作为所述表现窗口内“好、坏”客户的定义,即定义所述模型的Y值;
[0009]根据业务现状和业务数据积累的情况,定义观测窗口,调取所述客户在观测窗口
中的内部和外部银行行为数据,形成所述模型的候选变量集X;
[0010]S102:数据整合拼接形成分析型数据宽表,所述分析型数据宽表包括所述客户的ID、所述Y值、所述候选变量集X;
[0011]S103:根据所述分析型数据宽表,把所述候选变量集X中的变量分为字符型变量和数值型变量,对所述所述数值型变量进行数据探索与清洗处理;
[0012]S104:对所述字符型变量以及处理后的数值型变量进行样本切分,将所述样本分为训练样本集、测试样本集、以及跨时区校验样本集;
[0013]S105:针对所述训练样本集中的变量,若变量的数据类型为字符型,则将其每个取值作为单独分箱,缺失值单独作为一箱,若所述变量的数据类型为数值型,则将其等频的按照指定箱数bins划分,缺失值单独作为一箱,划分后如果箱数少于bins,则取消划分,将其每一个取值单独作为一箱;
[0014]S106:针对步骤S105中的各个分箱,计算并统计所述各个分箱中的每个变量的IV值,将所述IV值低于阈值的变量剔除,形成第一新的分箱;
[0015]S107:针对所述第一新的分箱的变量,采用最优分箱和单调分箱方法,进行IV值的计算与切分点的处理,分别构造最优分箱和单调分箱方法下的每个变量切分点的分箱字典,并对所述分箱字典中的变量进行WOE转换,形成WOE转换后的变量;
[0016]S108:计算所述WOE转换后的变量的IV值,将所述IV值低于阈值的变量剔除,形成第二新的分箱;
[0017]S109:对所述第二新的分箱变量相关性筛选,所述相关性筛选包括对所述第二新的分箱中变量的IV筛选和VIF筛选,形成筛选变量;
[0018]S110:以所述筛选变量为基础,构建模型,运用逻辑回归算法,进行模型系数检查,判断每个所述筛选变量的系数是否存在负值,如果存在则删除该筛选变量,再重复上述过程,直到逻辑回归中拟合变量系数无负值;
[0019]S111:基于所述测试样本集、以及跨时区校验样本集,利用逻辑回归模型的检验指标来评估模型的效果,所述检验指标至少包括:“好、坏”客户的累积占比、KS值、Gini系统、ROC曲线、C值;
[0020]S112:根据逻辑回归模型的系数对应的WOE值进行评分卡标准化,得到信用评分结果。
[0021]本专利技术的进一步地技术方案在于,通过公式(1)计算所述各个分箱中的每个变量的IV值;
[0022][0023]其中,i=1,2,

,n,n为分箱数,bad(i)为第i箱的坏样本数,bad(T)为变量的坏样本总数,good(i)为第i箱的好样本数,good(T)为变量的好样本总数。
[0024]本专利技术的进一步地技术方案在于,通过公式(2)进行WOE转换;
[0025][0026]其中,i=1,2,

,k为变量的箱数,WOE
i
表示第i箱的WOE转换,P
good(i)
表示第i箱的好样本数的分布,P
bad(i)
表示第i箱的坏样本数的分布。
[0027]本专利技术的进一步地技术方案在于,通过公式(3)计算所述WOE转换后的变量的IV值:
[0028][0029]其中,i=1,2,

,k为所述WOE转换后的变量的箱数,P
good(i)
表示第i箱的好样本数的分布,P
bad(i)
表示第i箱的坏样本数的分布。
[0030]本专利技术的进一步地技术方案在于,所述内部银行行为数据至少包括客户的卡片信息、账户信息、存款账户变动记录、信用账户消费记录、网上银行的行为记录;
[0031]所述外部银行行为数据至少包括客户的社交行为、客户在电商平台的消费记录、客户的人行征信记录、客户在运营商的行为。
[0032]本专利技术的进一步地技术方案在于,对于离散型变量,输出所述离散型变量的众数、中位数;
[0033]分析每个所述连续型变量、每个所述离散型变量缺失的情况,采用均值弥补、固定值弥补、预测值弥补、直接剔除方法中的任意一种方式或者组合方法,对变量的缺失值进行处理;对于异常值,可以采用均值替代、众数替代、固定值替代方式中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于最优变量分箱算法的信用评分卡开发方法,其特征在于,包括以下步骤:S101:目标变量定义,对客户的逾期行为进行Vintage分析,根据通过所述Vintage分析的结果,确定模型的表现窗口,并将所述Vintage分析中的逾期率拐点的时间作为所述表现窗口内“好、坏”客户的定义,即定义所述模型的Y值;根据业务现状和业务数据积累的情况,定义观测窗口,调取所述客户在观测窗口中的内部和外部银行行为数据,形成所述模型的候选变量集X;S102:数据整合拼接形成分析型数据宽表,所述分析型数据宽表包括所述客户的ID、所述Y值、所述候选变量集X;S103:根据所述分析型数据宽表,把所述候选变量集X中的变量分为字符型变量和数值型变量,对所述所述数值型变量进行数据探索与清洗处理;S104:对所述字符型变量以及处理后的数值型变量进行样本切分,将所述样本分为训练样本集、测试样本集、以及跨时区校验样本集;S105:针对所述训练样本集中的变量,若变量的数据类型为字符型,则将其每个取值作为单独分箱,缺失值单独作为一箱,若所述变量的数据类型为数值型,则将其等频的按照指定箱数bins划分,缺失值单独作为一箱,划分后如果箱数少于bins,则取消划分,将其每一个取值单独作为一箱;S106:针对步骤S105中的各个分箱,计算并统计所述各个分箱中的每个变量的IV值,将所述IV值低于阈值的变量剔除,形成第一新的分箱;S107:针对所述第一新的分箱的变量,采用最优分箱和单调分箱方法,进行IV值的计算与切分点的处理,分别构造最优分箱和单调分箱方法下的每个变量切分点的分箱字典,并对所述分箱字典中的变量进行WOE转换,形成WOE转换后的变量;S108:计算所述WOE转换后的变量的IV值,将所述IV值低于阈值的变量剔除,形成第二新的分箱;S109:对所述第二新的分箱变量相关性筛选,所述相关性筛选包括对所述第二新的分箱中变量的IV筛选和VIF筛选,形成筛选变量;S110:以所述筛选变量为基础,构建模型,运用逻辑回归算法,进行模型系数检查,判断每个所述筛选变量的系数是否存在负值,如果存在则删除该筛选变量,再重复上述过程,直到逻辑回归中拟合变量系数无负值;S111:基于所述测试样本集、以及跨时区校验样本集,利用逻辑回归模型的检验指标来评估模型的效果,所述检验指标至少包括:“好、坏”客户的累积占比、KS值、Gini系统、ROC曲线、C值;S112:根据逻辑回归模型的系数对应的WOE值进行评分卡标准化,得到信用评分结果。2.如权利要求1所述的一种基于最优变量分箱算法的信用评分卡开发方法,所述针对步骤S105中的各个分箱,计算并统计所述各个分箱中的每个变量的IV值,将所述IV值低于阈值的变量剔除,形成第一新的分箱,其特征在于,通过公式(1)计算所述各个分箱中的每个变量的IV值;
其中,i=1,2,

,n,...

【专利技术属性】
技术研发人员:江宇闻朱艳
申请(专利权)人:广东丞策智能科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1