一种基于机器学习的信用评分卡开发方法技术

技术编号:20869315 阅读:17 留言:0更新日期:2019-04-17 09:54
一种基于基于机器学习的评分卡开发方法,包括以下步骤:(1)根据vintage分析来定义目标用户的标签;(2)整合多种数据源获得最后数据;(3)对数据进行探索性分析和数据清洗;(4)对清洗后的数据使用优化后的卡方分箱法分箱;(5)对分箱后的变量进行变量筛选;(6)构建logistics回归模型;(7)对模型进行评价;(8)将模型输出目标用户违约概率转换为分数。本发明专利技术利用机器学习、vintage分析、logistics回归模型,针对大数据时代下人工效率低下,审核困难等难点,将问题从依靠人工解决转换到机器解决。

【技术实现步骤摘要】
一种基于机器学习的信用评分卡开发方法
本专利技术涉及一种互联网金融、机器学习、vintage分析、logistics回归模型、计算机应用领域,尤其涉及的是一种基于机器学习的信用评分卡开发方法;
技术介绍
随着信用评分模型和信贷行业的飞速发展,模型的建立方法多种多样,从开始的传统统计回归方法,到如今新兴的深度学习算法,并且模型在应用上,从预测违约概率逐渐向信贷各个生命周期渗透,如评分A卡,贷后的B卡,以及后续的C卡。但是一般金融企业的评分卡还是传统的专家型评分卡,既靠经验丰富的专家来制定规则,从而来区分好坏用户,这种方法在早期数据量不大的情况下还是有效果的,但是随着大数据的发展,这种依靠人工专家型的评分卡效率就十分低下,为了解决这种情况,开发基于数据的评分卡就显得十分必要。用基于数据驱动的评分卡来代替效率低下,不易控制的人工审核方式,提高信贷审核的时效性和准确性;
技术实现思路
为了克服现有技术的不足,本专利技术提出一种基于机器学习的信用评分卡开发方法,利用机器学习、vintage分析、logistics回归模型,针对大数据时代下人工效率低下,审核困难等难点,将问题从依靠人工解决转换到机器解决。本专利技术解决其技术问题所采用的技术方案是:一种基于机器学习的信用评分卡开发方法,包括以下步骤:1)目标变量的定义根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内用户逾期天数小于3天的定义为”好用户”,将逾期天数大于30天的定义为”坏用户”,将逾期天数大于3天小于30天的定义为”灰度用户”;2)数据的获取数据的来源多种多样,包括金融机构自身的字段:如用户的年龄、户籍、性别、收入、负债比、在本机构的借款行为;还有第三方的数据:历史消费数据、其它机构的借贷行为和网上购物行为;3)EDA探索性数据分析了解数据的情况,每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况,以便制定数据预处理方案;4)数据清洗对原始数据中脏数据、缺失值、异常值进行处理,对于缺失值的方法是删除缺失率超过给定阈值的变量,对于缺失率少于阈值的通过将缺失样本作为预测值,使用随机深林来预测该值进行填充,对于异常值的处理是将异常值作为一种状态;5)变量分箱使用卡方分箱法,并同时兼顾多种业务约束条件,:所述约束条件包括每个组最小样本占比、最大分箱数和woe单调;改进后变量分箱法的处理过程:1.输入:分箱的最大区间数n;2.初始化i)连续值按升序排序,离散值先转化为坏客户的比率,然后在按升序排序;ii)为了减少计算量,对于状态数大于某一阈值(100)的变量,利用等频分箱进行粗分箱,对于状态数少于最大区间数的不分箱;iii)若有缺失值,将缺失值单独作为一个分箱;3.合并区间i)计算每一对相邻区间的卡方值;ii)将卡方值最小的一对区间合并;Aij:第i区间第j类的实例数量Eij:N是合并区间的样本数,Ni是第i组的样本数,Cj第j类样本在合并区间的样本数;iii)重复以上步骤,直到分箱数量不大于n;4.分箱后处理i)对于坏客户比例为0或1的分箱进行合并(一个分箱内不能全为好客户或者全为坏客户);ii)检验分箱后woe是否单调,若不满足单调性,则合并箱子,步骤如下:步骤4.1:将该箱子和前一个箱子合并,计算卡方值chi2_1;步骤4.2:将该箱子和后一个箱子合并,计算卡方值chi2_2;步骤4.3:如果chi2_1>chi2_2,那么该箱子和后一个箱子合并,否则和前一个箱子合并,直到满足woe单调;iii)检验每一箱的样本占比对于某一箱样本占比超过95%的箱子进行合并步骤4.4:将该箱子和前一个箱子合并,计算卡方值chi2_3;步骤4.5:将该箱子和后一个箱子合并,计算卡方值chi2_4;步骤4.6:如果chi2_3>chi2_4,那么该箱子和后一个箱子合并,否则和前一个箱子合并,直到每一箱样本占比都大于5%;5.输出分箱后的数据和分箱区间对分箱中的woe计算的说明:对于自变量第i箱的WOE值为:公式(2)中变量说明如下:pi1:是第i箱中坏客户占所有坏客户的比例pi0:是第i箱中好客户占所有好客户的比例#Bi:是第i箱中坏客户人数#Gi:是第i箱中好客户人数#BT:是所有坏客户人数#GT:是所有好客户人数6)变量筛选基于IV值的变量筛选,IV值计算公式如下:变量对应的IV值为所有分箱对应的IV值之和:计算出各个变量的IV值后,基于IV值来筛选一部分特征,步骤如下:步骤6.1:将IV值升序排序,选择IV值大于0.02的变量;步骤6.2:使用皮尔逊相关系数计算两两变量的相关性,当两变量间相关系数大于阈值时,删除IV值较低的变量;步骤6.3:使用VIF来衡量一个变量和其他变量的多重共线性,当某个变量的VIF大于阈值时(一般阈值设为10或7),需要逐一剔除解释变量,删除变量时选择IV值较低的一个;以下是对VIF和皮尔逊相关系数说明:i)皮尔曼相关系数越接近0说明两变量线性相关性越低,越接近1或者-1两变量相关性越强,公式如下:公式(5)中,cov(X,Y)是两个变量的协方差,是变量X的标准差是变量Y的标准差;ii)通常VIF大于10说明变量之前存在较明显的多重共线,公式如下:公式(6)中Ri为Xi与其它变量的复相关系数。公式(7)中为其他变量的线性表示;7)构建logistics回归模型主要包括构建初步的逻辑回归模型,根据p-value进行变量筛选,根据各个变量的系数符号进行筛选,得到最终的逻辑回归模型;8)模型评价因为这是一个数据不平衡问题,样本集中正样本数量远多于负样本数量,所以使用AUC(ROC曲线下面积)来评价模型的好坏,同时也使用KS来判断模型对于好坏用户的区分能力;9)概率转换为分数score=offset+factor*ln(odds)(8)Logistics回归模型最后输出的是一个用户违约的概率,为了提高信用评分模型的实用性,可以将概率值转换为信用评分。一般使用转换法,即对好坏比的对数值进行线性变换,然后加上一个常数,使得分数在预先设定的范围之内,且得分越高,信用越好;公式(8)转换公式如下:其中odds=p/(1-p),p表示用户为坏客户的概率;factor表示线性变换的系数,通常设置为2/ln2;offset表示为调整常数;如何设定factor和offset是信用评分的关键,通常首先假定好坏比为50:1时所对应的分数为600分,在此基础上评分每增加20分则好坏比翻倍(“Pointstodoubletheodds:pro”设定为20),从而得到方程组:求解后:最终得到评分公式:公式(11)中a:截距;woeij:变量i当前分箱j的woe值;βi:变量i的回归系数;n:变量个数;j:分箱个数。本专利技术的技术构思为:首先,通过对变量按照其取值的可能状态使用优化过后的卡方分箱法进行分箱,其次,对分箱后的变量进行woe转换,使得每个特征都统一到相同的量纲下,同时也能起到将非线性特征转换成线性特征的效果,然后,通过IV值,皮尔逊相关系数,VIF等方法筛选出特征,接下来,将选择出的特征代入logistics回归模型检验特征的有效性,最后,将模型输出用户的违约概率转换为分数;本专利技术的有益效果主要表现在:1、将最本文档来自技高网...

【技术保护点】
1.一种基于机器学习的信用评分卡开发方法,其特征在于,所述方法包括以下步骤:1)目标变量的定义根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内用户逾期天数小于3天的定义为”好用户”,将逾期天数大于30天的定义为”坏用户”,将逾期天数大于3天小于30天的定义为”灰度用户”;(2)数据的获取数据的来源多种多样,包括金融机构自身的字段:用户的年龄、户籍、性别、收入、负债比和在本机构的借款行为;还有第三方的数据:历史消费数据、其它机构的借贷行为和网上购物行为;3)EDA探索性数据分析了解数据的大体情况,每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况等,以便制定数据预处理方案;4)数据清洗对原始数据中脏数据、缺失值、异常值进行处理,对于缺失值的方法是删除缺失率超过给定阈值的变量,对于缺失率少于阈值的可通过将缺失样本作为预测值,使用随机深林来预测该值进行填充,对于异常值的处理是将异常值作为一种状态;5)变量分箱使用卡方分箱法,并同时兼顾多种业务约束条件,所述约束条件包括每个组最小样本占比、最大分箱数或woe单调;#GT:是所有好客户人数;6)变量筛选基于IV值的变量筛选,IV值计算公式如下:...

【技术特征摘要】
1.一种基于机器学习的信用评分卡开发方法,其特征在于,所述方法包括以下步骤:1)目标变量的定义根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内用户逾期天数小于3天的定义为”好用户”,将逾期天数大于30天的定义为”坏用户”,将逾期天数大于3天小于30天的定义为”灰度用户”;(2)数据的获取数据的来源多种多样,包括金融机构自身的字段:用户的年龄、户籍、性别、收入、负债比和在本机构的借款行为;还有第三方的数据:历史消费数据、其它机构的借贷行为和网上购物行为;3)EDA探索性数据分析了解数据的大体情况,每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况等,以便制定数据预处理方案;4)数据清洗对原始数据中脏数据、缺失值、异常值进行处理,对于缺失值的方法是删除缺失率超过给定阈值的变量,对于缺失率少于阈值的可通过将缺失样本作为预测值,使用随机深林来预测该值进行填充,对于异常值的处理是将异常值作为一种状态;5)变量分箱使用卡方分箱法,并同时兼顾多种业务约束条件,所述约束条件包括每个组最小样本占比、最大分箱数或woe单调;#GT:是所有好客户人数;6)变量筛选基于IV值的变量筛选,IV值计算公式如下:变量对应的IV值为所有分箱对应的IV值之和:计算出各个变量的IV值后,基于IV值来筛选一部分特征,步骤如下:步骤6.1:将IV值升序排序,选择IV值大于0.02的变量;步骤6.2:使用皮尔逊相关系数计算两两变量的相关性,当两变量间相关系数大于阈值时,删除IV值较低的变量;步骤6.3:使用VIF来衡量一个变量和其他变量的多重共线性,当某个变量的VIF大于阈值时,需要逐一剔除解释变量,删除变量时选择IV值较低的一个;以下是对VIF和皮尔逊相关系数说明:i)皮尔曼相关系数越接近0说明两变量线性相关性越低,越接近1或者-1两变量相关性越强,公式如下:公式(5)中,cov(X,Y)是两个变量的协方差,是变量X的标准差是变量Y的标准差;ii)通常VIF大于10说明变量之前存在较明显的多重共线,公式如下:公式(6)中Ri为Xi与其它变量的复相关系数;公式(7)中为其他变量的线性表示;7)构建logistics回归模型包括构建初步的逻辑回归模型,根据p-value进行变量筛选,根据各个变量的系数符号进行筛选,得到最终的逻辑回归模型;8)模型评价因为这是一个数据不平衡问题,样本集中正样本数量远多于负样本数量,所以使用AUC来评价模型的好坏,同时也使用KS来判断模型对于好坏用户的区分能力;9)概率转换为分数score=offset+factor*ln(odds)(8)Logistics回归模型最后输出的是一个用户违约的概率,为了提高信用评分模型的实用性,可以将概率值转换为信用评分,使用转换法,...

【专利技术属性】
技术研发人员:陈国定徐英浩
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1