【技术实现步骤摘要】
一种基于最优变量分箱算法的信用评分卡开发方法及终端
[0001]本专利技术涉及消费金融行业评分卡模型开发构建
,更具体的,涉及基于最优变量分箱算法的信用评分卡开发方法及终端。
技术介绍
[0002]信用评分卡是指根据银行客户的各种历史信用资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的喜用分数,授信者可以通过分析客户按时还款的可能性,据此决定是否给给予申请人授信以及授信的额度和利率。相对于传统的人工分析来说,利用信用评分技术来进行量化风险计量的好处在于更加快速、更加客观,结果具有一致性。
[0003]随着我国信用消费市场的不断发展,为了防范银行系统的系统性金融,银保监会逐步加强了对商业银行量化风险管理的要求。在2020年银保监发布的《商业银行互联网贷款管理暂行办法》中明确要求采用评分模型的方法对授信人的信用风险作出科学的评估。同时,也要求在模型开发阶段做到开发测试、评审、监测、退出等环节的权责分离,责任清晰。可见,在当前信用市场高速发展的过程中,信用风险模型对商业银行的价值越来越大。
[0004]由于监管对商业银行的信用评分模型的可解释性有很高的要求,因此在建模技术上一般采用统计学的方法,在使用统计学模型进行建模的过程中,单变量的分析、加工、转换和筛选直接决定了模型的准确性和稳定性。传统上,一般会采用IV(Information Value)值来计算单变量的预测能力,通过IV对变量进行筛选,保留IV值较高的变量,再采用逻辑回归算法进行模型拟合。影响这种方法比较重要的是变量分箱的方 ...
【技术保护点】
【技术特征摘要】
1.一种基于最优变量分箱算法的信用评分卡开发方法,其特征在于,包括以下步骤:S101:目标变量定义,对客户的逾期行为进行Vintage分析,根据通过所述Vintage分析的结果,确定模型的表现窗口,并将所述Vintage分析中的逾期率拐点的时间作为所述表现窗口内“好、坏”客户的定义,即定义所述模型的Y值;根据业务现状和业务数据积累的情况,定义观测窗口,调取所述客户在观测窗口中的内部和外部银行行为数据,形成所述模型的候选变量集X;S102:数据整合拼接形成分析型数据宽表,所述分析型数据宽表包括所述客户的ID、所述Y值、所述候选变量集X;S103:根据所述分析型数据宽表,把所述候选变量集X中的变量分为字符型变量和数值型变量,对所述所述数值型变量进行数据探索与清洗处理;S104:对所述字符型变量以及处理后的数值型变量进行样本切分,将所述样本分为训练样本集、测试样本集、以及跨时区校验样本集;S105:针对所述训练样本集中的变量,若变量的数据类型为字符型,则将其每个取值作为单独分箱,缺失值单独作为一箱,若所述变量的数据类型为数值型,则将其等频的按照指定箱数bins划分,缺失值单独作为一箱,划分后如果箱数少于bins,则取消划分,将其每一个取值单独作为一箱;S106:针对步骤S105中的各个分箱,计算并统计所述各个分箱中的每个变量的IV值,将所述IV值低于阈值的变量剔除,形成第一新的分箱;S107:针对所述第一新的分箱的变量,采用最优分箱和单调分箱方法,进行IV值的计算与切分点的处理,分别构造最优分箱和单调分箱方法下的每个变量切分点的分箱字典,并对所述分箱字典中的变量进行WOE转换,形成WOE转换后的变量;S108:计算所述WOE转换后的变量的IV值,将所述IV值低于阈值的变量剔除,形成第二新的分箱;S109:对所述第二新的分箱变量相关性筛选,所述相关性筛选包括对所述第二新的分箱中变量的IV筛选和VIF筛选,形成筛选变量;S110:以所述筛选变量为基础,构建模型,运用逻辑回归算法,进行模型系数检查,判断每个所述筛选变量的系数是否存在负值,如果存在则删除该筛选变量,再重复上述过程,直到逻辑回归中拟合变量系数无负值;S111:基于所述测试样本集、以及跨时区校验样本集,利用逻辑回归模型的检验指标来评估模型的效果,所述检验指标至少包括:“好、坏”客户的累积占比、KS值、Gini系统、ROC曲线、C值;S112:根据逻辑回归模型的系数对应的WOE值进行评分卡标准化,得到信用评分结果。2.如权利要求1所述的一种基于最优变量分箱算法的信用评分卡开发方法,所述针对步骤S105中的各个分箱,计算并统计所述各个分箱中的每个变量的IV值,将所述IV值低于阈值的变量剔除,形成第一新的分箱,其特征在于,通过公式(1)计算所述各个分箱中的每个变量的IV值;
其中,i=1,2,
…
,n,...
【专利技术属性】
技术研发人员:江宇闻,朱艳,
申请(专利权)人:广东丞策智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。