【技术实现步骤摘要】
一种基于机器学习的信用评分卡开发方法
本专利技术涉及一种互联网金融、机器学习、vintage分析、logistics回归模型、计算机应用领域,尤其涉及的是一种基于机器学习的信用评分卡开发方法;
技术介绍
随着信用评分模型和信贷行业的飞速发展,模型的建立方法多种多样,从开始的传统统计回归方法,到如今新兴的深度学习算法,并且模型在应用上,从预测违约概率逐渐向信贷各个生命周期渗透,如评分A卡,贷后的B卡,以及后续的C卡。但是一般金融企业的评分卡还是传统的专家型评分卡,既靠经验丰富的专家来制定规则,从而来区分好坏用户,这种方法在早期数据量不大的情况下还是有效果的,但是随着大数据的发展,这种依靠人工专家型的评分卡效率就十分低下,为了解决这种情况,开发基于数据的评分卡就显得十分必要。用基于数据驱动的评分卡来代替效率低下,不易控制的人工审核方式,提高信贷审核的时效性和准确性;
技术实现思路
为了克服现有技术的不足,本专利技术提出一种基于机器学习的信用评分卡开发方法,利用机器学习、vintage分析、logistics回归模型,针对大数据时代下人工效率低下,审核困难等难点,将问题从依靠人工解决转换到机器解决。本专利技术解决其技术问题所采用的技术方案是:一种基于机器学习的信用评分卡开发方法,包括以下步骤:1)目标变量的定义根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内用户逾期天数小于3天的定义为”好用户”,将逾期天数大于30天的定义为”坏用户”,将逾期天数大于3天小于30天的定义为”灰度用户”;2)数据的获取数据的来源多种多样,包括金融机构 ...
【技术保护点】
1.一种基于机器学习的信用评分卡开发方法,其特征在于,所述方法包括以下步骤:1)目标变量的定义根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内用户逾期天数小于3天的定义为”好用户”,将逾期天数大于30天的定义为”坏用户”,将逾期天数大于3天小于30天的定义为”灰度用户”;(2)数据的获取数据的来源多种多样,包括金融机构自身的字段:用户的年龄、户籍、性别、收入、负债比和在本机构的借款行为;还有第三方的数据:历史消费数据、其它机构的借贷行为和网上购物行为;3)EDA探索性数据分析了解数据的大体情况,每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况等,以便制定数据预处理方案;4)数据清洗对原始数据中脏数据、缺失值、异常值进行处理,对于缺失值的方法是删除缺失率超过给定阈值的变量,对于缺失率少于阈值的可通过将缺失样本作为预测值,使用随机深林来预测该值进行填充,对于异常值的处理是将异常值作为一种状态;5)变量分箱使用卡方分箱法,并同时兼顾多种业务约束条件,所述约束条件包括每个组最小样本占比、最大分箱数或woe单调;#GT:是所有好客户人 ...
【技术特征摘要】
1.一种基于机器学习的信用评分卡开发方法,其特征在于,所述方法包括以下步骤:1)目标变量的定义根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内用户逾期天数小于3天的定义为”好用户”,将逾期天数大于30天的定义为”坏用户”,将逾期天数大于3天小于30天的定义为”灰度用户”;(2)数据的获取数据的来源多种多样,包括金融机构自身的字段:用户的年龄、户籍、性别、收入、负债比和在本机构的借款行为;还有第三方的数据:历史消费数据、其它机构的借贷行为和网上购物行为;3)EDA探索性数据分析了解数据的大体情况,每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况等,以便制定数据预处理方案;4)数据清洗对原始数据中脏数据、缺失值、异常值进行处理,对于缺失值的方法是删除缺失率超过给定阈值的变量,对于缺失率少于阈值的可通过将缺失样本作为预测值,使用随机深林来预测该值进行填充,对于异常值的处理是将异常值作为一种状态;5)变量分箱使用卡方分箱法,并同时兼顾多种业务约束条件,所述约束条件包括每个组最小样本占比、最大分箱数或woe单调;#GT:是所有好客户人数;6)变量筛选基于IV值的变量筛选,IV值计算公式如下:变量对应的IV值为所有分箱对应的IV值之和:计算出各个变量的IV值后,基于IV值来筛选一部分特征,步骤如下:步骤6.1:将IV值升序排序,选择IV值大于0.02的变量;步骤6.2:使用皮尔逊相关系数计算两两变量的相关性,当两变量间相关系数大于阈值时,删除IV值较低的变量;步骤6.3:使用VIF来衡量一个变量和其他变量的多重共线性,当某个变量的VIF大于阈值时,需要逐一剔除解释变量,删除变量时选择IV值较低的一个;以下是对VIF和皮尔逊相关系数说明:i)皮尔曼相关系数越接近0说明两变量线性相关性越低,越接近1或者-1两变量相关性越强,公式如下:公式(5)中,cov(X,Y)是两个变量的协方差,是变量X的标准差是变量Y的标准差;ii)通常VIF大于10说明变量之前存在较明显的多重共线,公式如下:公式(6)中Ri为Xi与其它变量的复相关系数;公式(7)中为其他变量的线性表示;7)构建logistics回归模型包括构建初步的逻辑回归模型,根据p-value进行变量筛选,根据各个变量的系数符号进行筛选,得到最终的逻辑回归模型;8)模型评价因为这是一个数据不平衡问题,样本集中正样本数量远多于负样本数量,所以使用AUC来评价模型的好坏,同时也使用KS来判断模型对于好坏用户的区分能力;9)概率转换为分数score=offset+factor*ln(odds)(8)Logistics回归模型最后输出的是一个用户违约的概率,为了提高信用评分模型的实用性,可以将概率值转换为信用评分,使用转换法,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。