一种基于第三方数据的消费金融信用评分卡开发方法技术

技术编号:24578837 阅读:32 留言:0更新日期:2020-06-21 00:46
本发明专利技术提供了一种基于第三方数据的消费金融信用评分卡开发方法,包括目标变量定义、数据获取、探索性数据分析、数据预处理、特征工程、模型开发、模型开发和信用评分;所述特征工程包括变量分箱、WOE转换、信息值IV和变量相关系数计算、根据信息值IV和变量相关系数进行特征筛选,所述变量分箱包括:通过卡方分箱选出对逾期状态影响最显著的字段、针对特征变量进性自动化分箱;所述模型评估,包括根据模型评估指标评估模型的拟合能力,并利用逻辑回归的参数调参训练。实施本发明专利技术技术方案,首先,增加了第三方数据,从而增加了风险识别的维度;再次,增加了变量之间的相关性检验,一方面能够防止进入模型的变量过多,增加计算成本,另一方面能够防止模型过拟合,为模型构建增加稳定性;最后,通过模型评估和调参,增强了模型的准确性。

A development method of consumer finance credit score card based on third party data

【技术实现步骤摘要】
一种基于第三方数据的消费金融信用评分卡开发方法
本专利技术涉及消费金融行业评分卡模型开发构建技术,特别涉及一种基于第三方数据的消费金融信用评分卡开发方法。
技术介绍
据有关数据显示:2018年我国消费金融市场(不含房贷)规模为8.45万亿元,市场渗透率为22.36%,预计到2020年我国消费金融市场规模将达到12万亿元,届时渗透率将达25.05%。由此可以判断,我国消费金融行业处于发展初期,仍有较大增长空间。传统金融风控进行风险控制所使用的数据维度主要为:人行征信、银行流水、平台申请的个人基本属性数据,对于大数据风控要求,数据维度及风险把握不足。目前,金融大数据使用了更多的第三方数据,主要包括多头借贷行为、互联网、网上购物、第三方支付、反欺诈等数据,极大丰富了信用评估的可用数据维度,这使得全方位有效的进行信用评估成为可能,但同时也对评分卡模型的特征处理性能提出了更高的要求。金融信贷机构特征集合普遍具有数量多、纬度高的特点,但评分卡应关注的并不是数据规模本身,而是这些海量数据中有价值的特征,按照传统的方式人工进行特征筛选已不能很好的适用当前的信贷场景。另外,传统的数据处理当中的分箱方法主要利用操作较为简单的等频分箱和等距分箱,而这两种无监督的分箱方法不足之处在于:忽略了实例所属的类型,落在正确区间里的偶然性很大。分箱数量主要靠主观经验,未必是合适的数量。分箱后,每个区间的合理性,缺乏科学的评估和调整。
技术实现思路
为了解决上述技术问题,本专利技术中披露了一种基于第三方数据的消费金融信用评分卡开发方法,本专利技术的技术方案是这样实施的:一种基于第三方数据的消费金融信用评分卡开发方法,包括以下步骤:步骤一:目标变量定义,根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内逾期天数超过90天的用户定义为“坏用户”,将表现期内逾期天数未超过90天的用户定义为“好用户”;步骤二:数据获取,选取建模的客户,获取金融机构自身的字段和客户授权获取的第三方数据字段;步骤三:探索性数据分析,对所述金融机构自身的字段和所述第三方数据字段进行分类,了解数据的大体情况,包括每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值以及分布情况;步骤四:数据预处理,包括脏数据清洗、缺失值处理和异常值处理;步骤五:特征工程,包括变量分箱、WOE转换、信息值IV和变量相关系数计算、根据信息值IV和变量相关系数进行特征筛选;步骤六、数据集划分,随机或跨时间划分训练集、验证集;步骤七:模型开发,以特征筛选后获得的特征变量为基础,构建模型,运用逻辑回归算法,进行模型拟合;对拟合后的变量系数进行检查,删掉符号相反的变量,后再次进行模型拟合;循环以上步骤,直到变量系数全部正确;最后删除相关系数矩阵较高的特征变量或者VIF较高的特征变量,排除变量之间的多重共线性;步骤八:模型评估,利用逻辑回归的参数调参训练,并根据模型评估指标评估模型的拟合能力;所述模型评估指标包括ROC曲线、AUC及KS;所述逻辑回归的参数包括正则化选择参数、优化算法选择参数、分类方式选择参数、类型权重参数、样本权重参数、正则化参数C、迭代次数;步骤九:信用评分,根据逻辑回归的模型系数和WOE得到评分刻度,制成标准评分卡。进一步地,所述步骤二中的金融机构自身的字段包括客户的年龄、户籍、性别、收入、负债比以及在本机构的借款行为;所述步骤二中的第三方数据字段包括多头借贷、APP行为特征、网购行为、第三方支付、反欺诈数据。进一步地,所述步骤四中的缺失值处理包括删除缺失率较大的样本、根据样本值的相似性或者变量之间的关系填补缺失值;所述步骤四中的异常值处理包括单变量异常值检测、局部离群值因子检测。进一步地,所述步骤五中的变量分箱包括:通过卡方分箱选出对逾期状态影响最显著的字段、针对特征变量进性自动化分箱、根据分箱后的特征变量进行评分卡评估;所述自动化分箱实现方法为,将数据等频切分为p个区间,设定最大的分箱个数n,计算每一相邻区间的卡方值,将卡方值最小的一对区间合并;统计现存的数据区间数量q,如果q>n,重复执行计算,直至q≤n。进一步地,所述步骤五中的WOE转换为对每个特征变量分箱后的每组进行WOE转换,其计算公式为:该式中,WOEi表示第i个分箱的WOE值,good表示为“好用户”;#good(i)表示第i个分箱中标签为“好用户”的数量;#good(T)为标签为“好用户”的总数量;bad表示为“坏用户”;#bad(i)表示第i个分箱标签为“坏用户”的数量,#bad(T)为标签为“坏用户”的总数量。进一步地,所述步骤五中的信息值IV相当于WOE的加权求和,衡量自变量的预测能力,信息值IV的计算公式如下:。实施本专利技术的技术方案,有以下有益效果:(1)本专利技术技术方案增加了第三方数据,从而增加了风险识别的维度;(2)本专利技术技术方案在特征工程中利用有监督作用的卡方风箱,达到了最优的分箱目标;(3)本专利技术在特征筛选时,在现有技术上,增加了变量之间的相关性检验,一方面能够防止进入模型的变量过多,增加计算成本,另一方面能够防止模型过拟合,为模型构建增加稳定性;(4)本专利技术通过模型评估和调参,增强了模型的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一种实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。一种基于第三方数据的消费金融信用评分卡开发方法,结合图1所示,包括一下步骤:步骤一:目标变量定义,根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内逾期天数超过90天的用户定义为“坏用户”,将表现期内逾期天数未超过90天的用户定义为“好用户”;步骤二:数据获取,选取建模的客户,获取金融机构自身的字段和客户授权获取的第三方数据字段;步骤三:探索性数据分析,对所述金融机构自身的字段和所述第三方数据字段进行分类,了解数据的大体情况,包括每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值以及分布情况;步骤四:数据预处理,包括脏数据清洗、缺失值处理和异常值处理;步骤五:特征工程,包括变量分箱、WOE转换、信息值IV和变量相关系数计算、根据信息值IV和变量相关系数进行特征筛选;步骤六、数据集划分,随机或本文档来自技高网...

【技术保护点】
1.一种基于第三方数据的消费金融信用评分卡开发方法,其特征在于,包括一下步骤:/n步骤一:目标变量定义,根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内逾期天数超过90天的用户定义为“坏用户”,将表现期内逾期天数未超过90天的用户定义为“好用户”;/n步骤二:数据获取,选取建模的客户,获取金融机构自身的字段和客户授权获取的第三方数据字段;/n步骤三:探索性数据分析,对所述金融机构自身的字段和所述第三方数据字段进行分类,了解数据的大体情况,包括每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值以及分布情况;/n步骤四:数据预处理,包括脏数据清洗、缺失值处理和异常值处理;/n步骤五:特征工程,包括变量分箱、WOE转换、信息值IV和变量相关系数计算、根据信息值IV和变量相关系数进行特征筛选;/n步骤六、数据集划分,随机或跨时间划分训练集、验证集;/n步骤七:模型开发,以特征筛选后获得的特征变量为基础,构建模型,运用逻辑回归算法,进行模型拟合;对拟合后的变量系数进行检查,删掉符号相反的变量,后再次进行模型拟合;循环以上步骤,直到变量系数全部正确;最后删除相关系数矩阵较高的特征变量或者VIF较高的特征变量,排除变量之间的多重共线性;/n步骤八:模型评估,利用逻辑回归的参数调参训练,并根据模型评估指标评估模型的拟合能力;所述模型评估指标包括ROC曲线、AUC及KS;所述逻辑回归的参数包括正则化选择参数、优化算法选择参数、分类方式选择参数、类型权重参数、样本权重参数、正则化参数C、迭代次数;/n步骤九:信用评分,根据逻辑回归的模型系数和WOE得到评分刻度,制成标准评分卡。/n...

【技术特征摘要】
1.一种基于第三方数据的消费金融信用评分卡开发方法,其特征在于,包括一下步骤:
步骤一:目标变量定义,根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内逾期天数超过90天的用户定义为“坏用户”,将表现期内逾期天数未超过90天的用户定义为“好用户”;
步骤二:数据获取,选取建模的客户,获取金融机构自身的字段和客户授权获取的第三方数据字段;
步骤三:探索性数据分析,对所述金融机构自身的字段和所述第三方数据字段进行分类,了解数据的大体情况,包括每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值以及分布情况;
步骤四:数据预处理,包括脏数据清洗、缺失值处理和异常值处理;
步骤五:特征工程,包括变量分箱、WOE转换、信息值IV和变量相关系数计算、根据信息值IV和变量相关系数进行特征筛选;
步骤六、数据集划分,随机或跨时间划分训练集、验证集;
步骤七:模型开发,以特征筛选后获得的特征变量为基础,构建模型,运用逻辑回归算法,进行模型拟合;对拟合后的变量系数进行检查,删掉符号相反的变量,后再次进行模型拟合;循环以上步骤,直到变量系数全部正确;最后删除相关系数矩阵较高的特征变量或者VIF较高的特征变量,排除变量之间的多重共线性;
步骤八:模型评估,利用逻辑回归的参数调参训练,并根据模型评估指标评估模型的拟合能力;所述模型评估指标包括ROC曲线、AUC及KS;所述逻辑回归的参数包括正则化选择参数、优化算法选择参数、分类方式选择参数、类型权重参数、样本权重参数、正则化参数C、迭代次数;
步骤九:信用评分,根据逻辑回归的模型系数和WOE得到评分刻度,制成标准评分卡。


2.根据权利要求1所述的一种基于第三方数据的消费金融信用评分卡开发方法,其特征在于,所...

【专利技术属性】
技术研发人员:江远强
申请(专利权)人:百维金科上海信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1