基于相似性合并的连续型特征自动分箱算法制造技术

技术编号:21274690 阅读:38 留言:0更新日期:2019-06-06 08:37
本发明专利技术公开了一种基于相似性合并的连续型特征自动分箱算法,包括建模数据,决策树初始分箱,100份等频分箱,线性趋势判断,趋势+ChiMerge合箱,IV、相关性等以及获取最终评分卡模型;该算法已使用python实现了整个流程,大大减少了在获取符合单调性的分割点过程的耗时和信息损耗,同时减少了分析师对分箱的干预,模型稳定性得到很好的检验,按照数据本身趋势进行箱合并的算法削弱了分析师在趋势判断方面的主观影响,使分箱结果所呈现的违约单调性更具有建模数据的支撑,增强了分箱的说服力,提高变量的表达能力。

【技术实现步骤摘要】
基于相似性合并的连续型特征自动分箱算法
本专利技术属于消费金融场景个人信用信用风险评估
,具体涉及基于相似性合并的连续型特征自动分箱算法。
技术介绍
信用评分卡是一种综合借款人的相关信息如身份地位、职业特征、收支状况等特征对借款人的还款能力和还款意愿进行量化的信用评估系统。一方面,对于申请人来说,信用评分高低意味着所享受信贷服务的优劣,另一方面,对于信贷金融机构来说,信用评分的高低往往预示着申请人违约风险的大小,也是进行风险定价的重要依据,与信贷金融机构的收益密切相关。由此,信用评分卡已成为金融机构有效快速的识别违约客户,提高信贷收益,降低风险损失的重要手段。与传统金融风控进行风险控制所使用的数据维度不同,在当下,金融大数据囊括了基本属性数据、行为数据、设备数据及其他关联数据,极大丰富了信用评估的可用数据维度,这使得全方位有效的进行信用评估成为可能,但同时也对评分卡模型的特征处理性能提出了更高的要求。金融信贷机构特征集合普遍具有数量多、纬度高的特点,但评分卡应关注的并不是数据规模本身,而是这些海量数据中有价值的特征,按照传统的方式人工进行特征筛选已不能很好的适用当前的信贷场景。以评分卡模型经常使用的LR线性分类器为例,为剔除特征中包含的噪声,降低过拟合风险,同时增强特征对评分关于业务逻辑的可解释性,相对严格的评分卡模型的连续型特征至少需要经历变量分箱→违约比例单调→IV达到阈值→共线性检验→逐步回归→符合业务逻辑的变量筛选过程。为缩短评分卡模型的建立时间,自动化的变量分箱和筛选过程已成为信贷金融机构进行评分卡建立的必然选择。针对连续型变量,多数机构会直接采取等频或等距自动切分的分箱方式,在箱数不超过一定阈值的前提下自动或人工进行合箱操作,以使各箱的违约比例单调,然后计算IV,将IV值达到一定大小的特征集合作为进入回归模型的变量集,最后,由分析师结合实际业务从主观角度判断变量各箱的违约比例趋势是否与业务逻辑相符合,可采取人工分箱的方式对箱进行调整,并据此对模型进行重建操作,一方面,等频或等距分箱属于无监督分箱方式,在等频或等距粗分箱的基础上进行合箱操作会造成较大的IV损失;另一方面合箱过程中简单地以违约比例单调为目标,以循环的方式进行判断、合箱、再判断,这种方式会存在以下问题:1、循环会造成合箱耗时较长;2、由于违约比例必须严格单调的限制,这种方式合箱的最终结果往往以2箱居多;3、这种方式得到的IV并非最佳IV,会造成相对较多的IV损失;4、不同的参数设定所得到的违约比例单调性趋势可能产生不一致的现象,同一个变量可能出现违约比例随划分区间值的增大而增大和违约比例随划分区间至的增大而减小两种情况;5、分析师会从从主观的角度对违约比例的单调趋势进行解释,不同的单调性趋势,不同的原因解释,这种解释缺乏客观的依据,说服力度差;6、单调性趋势存在异议的变量进入评分卡模型,会导致模型的稳定性变差。
技术实现思路
本专利技术的目的在于提供基于相似性合并的连续型特征自动分箱算法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:基于相似性合并的连续型特征自动分箱算法,包括如下步骤:S1、对建模训练集原始连续型变量使用决策树进行初始化分箱,获取初始的分割序列点cutlist_0;S2、对建模变量进行等频100份切分,计算每个箱的违约比例,利用线性回归将违约比例关于每个箱区间的最大值进行回归,获得变量对违约的影响趋势t;S3、根据S1中获取的初始分割序列点cutlist_0计算每个箱的违约比例,逐箱判断违约比例是否符合趋势t,若所有箱均符合趋势则程序终止;若不符合则进入S4;S4、分别计算不符合单调趋势的箱与上下两箱的卡方值,选择卡方值最小的两箱进行合并,同时获得新的分割序列点cutlist_1,重复S3的过程,直到各箱违约比例符合趋势t,并获得最终的分割序列点cutlist_k;S5、根据最终的分割序列点cutlist_k计算变量IV,进入变量IV、相关性、LR等筛选过程;S6、评估模型在测试集的效果,获取最终的评分卡模型。优选的,在S1中,所述决策树分箱本质上是进行二元分类,以CART为例,依次计算相邻元素的中位数,并切分数据集,将基尼值与切分前进行比较,基尼变化程度最大的切分点即为最优切分点,然后再按照相同的方法分别对切分后的数据集进行再次切分,直到树的深度或叶子节点数达到一定要求为止。优选的,在S2中,对原始变量值采用等频划分100箱的方式对数据进行离散化,计算每箱的违约比例,趋势拟合如下式所示:batrate=t*max(BIN)+c;其中,batrate代表每箱违约人数的比例,BIN代表划分的100个箱,max(BIN)代表每个箱区间的最大值,c代表回归常数项,t为违约比例关于箱区间的回归系数,代表着特征对违约的影响趋势,t>0则特征值越大,则违约概率越高,特征对违约产生正向影响,则特征值越大;t<0则违约概率越小,特征对违约产生负向影响。优选的,在S4中,计算卡方值的算法为ChiMerge算法。优选的,所述ChiMerge算法如下式:其中,Aij代表i箱中j类别样本数量,Eij代表i区间中j类别样本期望数量,x2代表卡方统计值,值越大,代表两箱差异较大,不能进行合并,值越小,则可以进行合并,实践中通过卡方检验来判断是否对箱进行合并。与现有技术相比,本专利技术的有益效果是:1、本算法已使用python实现了整个流程,大大减少了在获取符合单调性的分割点过程的耗时和信息损耗,同时减少了分析师对分箱的干预,模型稳定性得到很好的检验;2、本算法按照数据本身趋势进行箱合并的算法削弱了分析师在趋势判断方面的主观影响,使分箱结果所呈现的违约单调性更具有建模数据的支撑,增强了分箱的说服力,提高变量的表达能力。附图说明图1为本专利技术的算法流程示意图;具体实施方式下面结合实施例对本专利技术做进一步的描述。以下实施例用于说明本专利技术,但不能用来限制本专利技术的保护范围。实施例中的条件可以根据具体条件做进一步的调整,在本专利技术的构思前提下对本专利技术的方法简单改进都属于本专利技术要求保护的范围。请参阅图1,基于相似性合并的连续型特征自动分箱算法,包括如下步骤:S1、对建模训练集原始连续型变量使用决策树进行初始化分箱,获取初始的分割序列点cutlist_0,所述决策树分箱本质上是进行二元分类,以CART为例,依次计算相邻元素的中位数,并切分数据集,将基尼值与切分前进行比较,基尼变化程度最大的切分点即为最优切分点,然后再按照相同的方法分别对切分后的数据集进行再次切分,直到树的深度或叶子节点数达到一定要求为止;S2、对建模变量进行等频100份切分,计算每个箱的违约比例,利用线性回归将违约比例关于每个箱区间的最大值进行回归,获得变量对违约的影响趋势t,对原始变量值采用等频划分100箱的方式对数据进行离散化,计算每箱的违约比例,趋势拟合如下式所示:batrate=t*max(BIN)+c;其中,batrate代表每箱违约人数的比例,BIN代表划分的100个箱,max(BIN)代表每个箱区间的最大值,c代表回归常数项,t为违约比例关于箱区间的回归系数,代表着特征对违约的影响趋势,t>0则特征值越大,则违约概率越高,特征对违约产生正向影响,则特本文档来自技高网
...

【技术保护点】
1.基于相似性合并的连续型特征自动分箱算法,其特征在于,包括如下步骤:S1、对建模训练集原始连续型变量使用决策树进行初始化分箱,获取初始的分割序列点cutlist_0;S2、对建模变量进行等频100份切分,计算每个箱的违约比例,利用线性回归将违约比例关于每个箱区间的最大值进行回归,获得变量对违约的影响趋势t;S3、根据S1中获取的初始分割序列点cutlist_0计算每个箱的违约比例,逐箱判断违约比例是否符合趋势t,若所有箱均符合趋势则程序终止;若不符合则进入S4;S4、分别计算不符合单调趋势的箱与上下两箱的卡方值,选择卡方值最小的两箱进行合并,同时获得新的分割序列点cutlist_1,重复S3的过程,直到各箱违约比例符合趋势t,并获得最终的分割序列点cutlist_k;S5、根据最终的分割序列点cutlist_k计算变量IV,进入变量IV、相关性、LR等筛选过程;S6、评估模型在测试集的效果,获取最终的评分卡模型。

【技术特征摘要】
1.基于相似性合并的连续型特征自动分箱算法,其特征在于,包括如下步骤:S1、对建模训练集原始连续型变量使用决策树进行初始化分箱,获取初始的分割序列点cutlist_0;S2、对建模变量进行等频100份切分,计算每个箱的违约比例,利用线性回归将违约比例关于每个箱区间的最大值进行回归,获得变量对违约的影响趋势t;S3、根据S1中获取的初始分割序列点cutlist_0计算每个箱的违约比例,逐箱判断违约比例是否符合趋势t,若所有箱均符合趋势则程序终止;若不符合则进入S4;S4、分别计算不符合单调趋势的箱与上下两箱的卡方值,选择卡方值最小的两箱进行合并,同时获得新的分割序列点cutlist_1,重复S3的过程,直到各箱违约比例符合趋势t,并获得最终的分割序列点cutlist_k;S5、根据最终的分割序列点cutlist_k计算变量IV,进入变量IV、相关性、LR等筛选过程;S6、评估模型在测试集的效果,获取最终的评分卡模型。2.根据权利要求1所述的基于相似性合并的连续型特征自动分箱算法,其特征在于,在S1中,所述决策树分箱本质上是进行二元分类,以CART为例,依次计算相邻元素的中位数,并切分数据集,将基尼值与切分前进行比较,基尼变化程度最大的切分点即为最优切分点...

【专利技术属性】
技术研发人员:段兆阳王华瑞孙博
申请(专利权)人:杭州排列科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1