一种基于机器学习的信用评分卡开发方法技术

技术编号：20869315 阅读：17 留言：0更新日期：2019-04-17 09:54

一种基于基于机器学习的评分卡开发方法，包括以下步骤：(1)根据vintage分析来定义目标用户的标签；(2)整合多种数据源获得最后数据；(3)对数据进行探索性分析和数据清洗；(4)对清洗后的数据使用优化后的卡方分箱法分箱；(5)对分箱后的变量进行变量筛选；(6)构建logistics回归模型；(7)对模型进行评价；(8)将模型输出目标用户违约概率转换为分数。本发明专利技术利用机器学习、vintage分析、logistics回归模型，针对大数据时代下人工效率低下，审核困难等难点，将问题从依靠人工解决转换到机器解决。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的信用评分卡开发方法
本专利技术涉及一种互联网金融、机器学习、vintage分析、logistics回归模型、计算机应用领域，尤其涉及的是一种基于机器学习的信用评分卡开发方法；
技术介绍
随着信用评分模型和信贷行业的飞速发展，模型的建立方法多种多样，从开始的传统统计回归方法，到如今新兴的深度学习算法，并且模型在应用上，从预测违约概率逐渐向信贷各个生命周期渗透，如评分A卡，贷后的B卡，以及后续的C卡。但是一般金融企业的评分卡还是传统的专家型评分卡，既靠经验丰富的专家来制定规则，从而来区分好坏用户，这种方法在早期数据量不大的情况下还是有效果的，但是随着大数据的发展，这种依靠人工专家型的评分卡效率就十分低下，为了解决这种情况，开发基于数据的评分卡就显得十分必要。用基于数据驱动的评分卡来代替效率低下，不易控制的人工审核方式，提高信贷审核的时效性和准确性；
技术实现思路
为了克服现有技术的不足，本专利技术提出一种基于机器学习的信用评分卡开发方法，利用机器学习、vintage分析、logistics回归模型，针对大数据时代下人工效率低下，审核困难等难点，将问题从依靠人工解决转换到机器解决。本专利技术解决其技术问题所采用的技术方案是：一种基于机器学习的信用评分卡开发方法，包括以下步骤：1)目标变量的定义根据vintage分析，观察各月份平均逾期的走势，确定表现窗口的时间跨度，将表现期内用户逾期天数小于3天的定义为”好用户”，将逾期天数大于30天的定义为”坏用户”，将逾期天数大于3天小于30天的定义为”灰度用户”；2)数据的获取数据的来源多种多样，包括金融机构...

【技术保护点】
1.一种基于机器学习的信用评分卡开发方法，其特征在于，所述方法包括以下步骤：1)目标变量的定义根据vintage分析，观察各月份平均逾期的走势，确定表现窗口的时间跨度，将表现期内用户逾期天数小于3天的定义为”好用户”，将逾期天数大于30天的定义为”坏用户”，将逾期天数大于3天小于30天的定义为”灰度用户”；(2)数据的获取数据的来源多种多样，包括金融机构自身的字段：用户的年龄、户籍、性别、收入、负债比和在本机构的借款行为；还有第三方的数据：历史消费数据、其它机构的借贷行为和网上购物行为；3)EDA探索性数据分析了解数据的大体情况，每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况等，以便制定数据预处理方案；4)数据清洗对原始数据中脏数据、缺失值、异常值进行处理，对于缺失值的方法是删除缺失率超过给定阈值的变量，对于缺失率少于阈值的可通过将缺失样本作为预测值，使用随机深林来预测该值进行填充，对于异常值的处理是将异常值作为一种状态；5)变量分箱使用卡方分箱法，并同时兼顾多种业务约束条件，所述约束条件包括每个组最小样本占比、最大分箱数或woe单调；#GT:是所有好客户人...

【技术特征摘要】
1.一种基于机器学习的信用评分卡开发方法，其特征在于，所述方法包括以下步骤：1)目标变量的定义根据vintage分析，观察各月份平均逾期的走势，确定表现窗口的时间跨度，将表现期内用户逾期天数小于3天的定义为”好用户”，将逾期天数大于30天的定义为”坏用户”，将逾期天数大于3天小于30天的定义为”灰度用户”；(2)数据的获取数据的来源多种多样，包括金融机构自身的字段：用户的年龄、户籍、性别、收入、负债比和在本机构的借款行为；还有第三方的数据：历史消费数据、其它机构的借贷行为和网上购物行为；3)EDA探索性数据分析了解数据的大体情况，每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况等，以便制定数据预处理方案；4)数据清洗对原始数据中脏数据、缺失值、异常值进行处理，对于缺失值的方法是删除缺失率超过给定阈值的变量，对于缺失率少于阈值的可通过将缺失样本作为预测值，使用随机深林来预测该值进行填充，对于异常值的处理是将异常值作为一种状态；5)变量分箱使用卡方分箱法，并同时兼顾多种业务约束条件，所述约束条件包括每个组最小样本占比、最大分箱数或woe单调；#GT:是所有好客户人数；6)变量筛选基于IV值的变量筛选，IV值计算公式如下:变量对应的IV值为所有分箱对应的IV值之和：计算出各个变量的IV值后，基于IV值来筛选一部分特征，步骤如下：步骤6.1：将IV值升序排序，选择IV值大于0.02的变量；步骤6.2：使用皮尔逊相关系数计算两两变量的相关性，当两变量间相关系数大于阈值时，删除IV值较低的变量；步骤6.3：使用VIF来衡量一个变量和其他变量的多重共线性，当某个变量的VIF大于阈值时，需要逐一剔除解释变量，删除变量时选择IV值较低的一个；以下是对VIF和皮尔逊相关系数说明：i)皮尔曼相关系数越接近0说明两变量线性相关性越低，越接近1或者-1两变量相关性越强，公式如下：公式(5)中，cov(X,Y)是两个变量的协方差，是变量X的标准差是变量Y的标准差；ii)通常VIF大于10说明变量之前存在较明显的多重共线，公式如下：公式(6)中Ri为Xi与其它变量的复相关系数；公式(7)中为其他变量的线性表示；7)构建logistics回归模型包括构建初步的逻辑回归模型，根据p-value进行变量筛选，根据各个变量的系数符号进行筛选，得到最终的逻辑回归模型；8)模型评价因为这是一个数据不平衡问题，样本集中正样本数量远多于负样本数量，所以使用AUC来评价模型的好坏，同时也使用KS来判断模型对于好坏用户的区分能力；9)概率转换为分数score＝offset+factor*ln(odds)(8)Logistics回归模型最后输出的是一个用户违约的概率，为了提高信用评分模型的实用性，可以将概率值转换为信用评分，使用转换法，...

【专利技术属性】
技术研发人员：陈国定，徐英浩，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人