基于相似性合并的连续型特征自动分箱算法制造技术

技术编号：21274690 阅读：38 留言：0更新日期：2019-06-06 08:37

本发明专利技术公开了一种基于相似性合并的连续型特征自动分箱算法，包括建模数据，决策树初始分箱，100份等频分箱，线性趋势判断，趋势+ChiMerge合箱，IV、相关性等以及获取最终评分卡模型；该算法已使用python实现了整个流程，大大减少了在获取符合单调性的分割点过程的耗时和信息损耗，同时减少了分析师对分箱的干预，模型稳定性得到很好的检验，按照数据本身趋势进行箱合并的算法削弱了分析师在趋势判断方面的主观影响，使分箱结果所呈现的违约单调性更具有建模数据的支撑，增强了分箱的说服力，提高变量的表达能力。

全部详细技术资料下载

【技术实现步骤摘要】
基于相似性合并的连续型特征自动分箱算法
本专利技术属于消费金融场景个人信用信用风险评估
，具体涉及基于相似性合并的连续型特征自动分箱算法。
技术介绍
信用评分卡是一种综合借款人的相关信息如身份地位、职业特征、收支状况等特征对借款人的还款能力和还款意愿进行量化的信用评估系统。一方面，对于申请人来说，信用评分高低意味着所享受信贷服务的优劣，另一方面，对于信贷金融机构来说，信用评分的高低往往预示着申请人违约风险的大小，也是进行风险定价的重要依据，与信贷金融机构的收益密切相关。由此，信用评分卡已成为金融机构有效快速的识别违约客户，提高信贷收益，降低风险损失的重要手段。与传统金融风控进行风险控制所使用的数据维度不同，在当下，金融大数据囊括了基本属性数据、行为数据、设备数据及其他关联数据，极大丰富了信用评估的可用数据维度，这使得全方位有效的进行信用评估成为可能，但同时也对评分卡模型的特征处理性能提出了更高的要求。金融信贷机构特征集合普遍具有数量多、纬度高的特点，但评分卡应关注的并不是数据规模本身，而是这些海量数据中有价值的特征，按照传统的方式人工进行特征筛选已不能很好的适用当前的信贷场景。以评分卡模型经常使用的LR线性分类器为例，为剔除特征中包含的噪声，降低过拟合风险，同时增强特征对评分关于业务逻辑的可解释性，相对严格的评分卡模型的连续型特征至少需要经历变量分箱→违约比例单调→IV达到阈值→共线性检验→逐步回归→符合业务逻辑的变量筛选过程。为缩短评分卡模型的建立时间，自动化的变量分箱和筛选过程已成为信贷金融机构进行评分卡建立的必然选择。针对连续型变量，多数机构会...

【技术保护点】
1.基于相似性合并的连续型特征自动分箱算法，其特征在于，包括如下步骤：S1、对建模训练集原始连续型变量使用决策树进行初始化分箱，获取初始的分割序列点cutlist_0；S2、对建模变量进行等频100份切分，计算每个箱的违约比例，利用线性回归将违约比例关于每个箱区间的最大值进行回归，获得变量对违约的影响趋势t；S3、根据S1中获取的初始分割序列点cutlist_0计算每个箱的违约比例，逐箱判断违约比例是否符合趋势t，若所有箱均符合趋势则程序终止；若不符合则进入S4；S4、分别计算不符合单调趋势的箱与上下两箱的卡方值，选择卡方值最小的两箱进行合并，同时获得新的分割序列点cutlist_1,重复S3的过程，直到各箱违约比例符合趋势t，并获得最终的分割序列点cutlist_k；S5、根据最终的分割序列点cutlist_k计算变量IV，进入变量IV、相关性、LR等筛选过程；S6、评估模型在测试集的效果，获取最终的评分卡模型。

【技术特征摘要】
1.基于相似性合并的连续型特征自动分箱算法，其特征在于，包括如下步骤：S1、对建模训练集原始连续型变量使用决策树进行初始化分箱，获取初始的分割序列点cutlist_0；S2、对建模变量进行等频100份切分，计算每个箱的违约比例，利用线性回归将违约比例关于每个箱区间的最大值进行回归，获得变量对违约的影响趋势t；S3、根据S1中获取的初始分割序列点cutlist_0计算每个箱的违约比例，逐箱判断违约比例是否符合趋势t，若所有箱均符合趋势则程序终止；若不符合则进入S4；S4、分别计算不符合单调趋势的箱与上下两箱的卡方值，选择卡方值最小的两箱进行合并，同时获得新的分割序列点cutlist_1,重复S3的过程，直到各箱违约比例符合趋势t，并获得最终的分割序列点cutlist_k；S5、根据最终的分割序列点cutlist_k计算变量IV，进入变量IV、相关性、LR等筛选过程；S6、评估模型在测试集的效果，获取最终的评分卡模型。2.根据权利要求1所述的基于相似性合并的连续型特征自动分箱算法，其特征在于，在S1中，所述决策树分箱本质上是进行二元分类，以CART为例，依次计算相邻元素的中位数，并切分数据集，将基尼值与切分前进行比较，基尼变化程度最大的切分点即为最优切分点...

【专利技术属性】
技术研发人员：段兆阳，王华瑞，孙博，
申请(专利权)人：杭州排列科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人