【技术实现步骤摘要】
一种基于第三方数据的消费金融信用评分卡开发方法
本专利技术涉及消费金融行业评分卡模型开发构建技术,特别涉及一种基于第三方数据的消费金融信用评分卡开发方法。
技术介绍
据有关数据显示:2018年我国消费金融市场(不含房贷)规模为8.45万亿元,市场渗透率为22.36%,预计到2020年我国消费金融市场规模将达到12万亿元,届时渗透率将达25.05%。由此可以判断,我国消费金融行业处于发展初期,仍有较大增长空间。传统金融风控进行风险控制所使用的数据维度主要为:人行征信、银行流水、平台申请的个人基本属性数据,对于大数据风控要求,数据维度及风险把握不足。目前,金融大数据使用了更多的第三方数据,主要包括多头借贷行为、互联网、网上购物、第三方支付、反欺诈等数据,极大丰富了信用评估的可用数据维度,这使得全方位有效的进行信用评估成为可能,但同时也对评分卡模型的特征处理性能提出了更高的要求。金融信贷机构特征集合普遍具有数量多、纬度高的特点,但评分卡应关注的并不是数据规模本身,而是这些海量数据中有价值的特征,按照传统的方式人工进行特征筛 ...
【技术保护点】
1.一种基于第三方数据的消费金融信用评分卡开发方法,其特征在于,包括一下步骤:/n步骤一:目标变量定义,根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内逾期天数超过90天的用户定义为“坏用户”,将表现期内逾期天数未超过90天的用户定义为“好用户”;/n步骤二:数据获取,选取建模的客户,获取金融机构自身的字段和客户授权获取的第三方数据字段;/n步骤三:探索性数据分析,对所述金融机构自身的字段和所述第三方数据字段进行分类,了解数据的大体情况,包括每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值以及分布情况;/n步骤四:数据预处 ...
【技术特征摘要】
1.一种基于第三方数据的消费金融信用评分卡开发方法,其特征在于,包括一下步骤:
步骤一:目标变量定义,根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内逾期天数超过90天的用户定义为“坏用户”,将表现期内逾期天数未超过90天的用户定义为“好用户”;
步骤二:数据获取,选取建模的客户,获取金融机构自身的字段和客户授权获取的第三方数据字段;
步骤三:探索性数据分析,对所述金融机构自身的字段和所述第三方数据字段进行分类,了解数据的大体情况,包括每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值以及分布情况;
步骤四:数据预处理,包括脏数据清洗、缺失值处理和异常值处理;
步骤五:特征工程,包括变量分箱、WOE转换、信息值IV和变量相关系数计算、根据信息值IV和变量相关系数进行特征筛选;
步骤六、数据集划分,随机或跨时间划分训练集、验证集;
步骤七:模型开发,以特征筛选后获得的特征变量为基础,构建模型,运用逻辑回归算法,进行模型拟合;对拟合后的变量系数进行检查,删掉符号相反的变量,后再次进行模型拟合;循环以上步骤,直到变量系数全部正确;最后删除相关系数矩阵较高的特征变量或者VIF较高的特征变量,排除变量之间的多重共线性;
步骤八:模型评估,利用逻辑回归的参数调参训练,并根据模型评估指标评估模型的拟合能力;所述模型评估指标包括ROC曲线、AUC及KS;所述逻辑回归的参数包括正则化选择参数、优化算法选择参数、分类方式选择参数、类型权重参数、样本权重参数、正则化参数C、迭代次数;
步骤九:信用评分,根据逻辑回归的模型系数和WOE得到评分刻度,制成标准评分卡。
2.根据权利要求1所述的一种基于第三方数据的消费金融信用评分卡开发方法,其特征在于,所...
【专利技术属性】
技术研发人员:江远强,
申请(专利权)人:百维金科上海信息科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。