【技术实现步骤摘要】
一种基于随机森林算法的消费信贷场景的风险评估方法
本专利技术涉及互联网金融消费信贷行业的风控
,具体来说,涉及一种基于随机森林算法的消费信贷场景的风险评估方法。
技术介绍
随着互联网+概念的兴起,以P2P借贷、消费金融、汽车租赁等为代表的互联网金融消费信贷公司如雨后春笋般,但在野蛮生长之后,公司的发展速度和命门都集中在风控上面。传统的风控审核是基于机器学习算法的评分卡模型,包括逻辑回归、决策树、支持向量机和神经网络等,这几类算法解释性强,且简单易于理解,能够直接看到各个特征的权重,也能容易地吸收新的数据来更新模型,所以在GBDT、随机森林、lightGBM等集成算法陆续出现的时候,传统评分卡模型仍然是消费信贷行业风险评估的常用方法。随着大数据的发展,互联网信贷数据不在局限于申请及征信数据,而更多结合网购消费、网络社交、APP使用行为等第三方数据,整个数据呈现出高维稀疏的特点,传统评分卡模型对于该类互联网数据局限性也比较明显,具体问题及难点有以下几个方面:数据预处理繁琐:传统评分卡模型对于数据预处理要求极 ...
【技术保护点】
1.一种基于随机森林算法的消费信贷场景的风险评估方法,其特征在于,包括信息采集模块(1)、数据预处理模块(2)、特征工程模块(3)、模型训练及调参模块(4)、特征重要性评估模块(5)、模型评价与选择模块(6)和模型部署监控模块(7),所述信息采集模块(1)通过所述数据预处理模块(2)与所述特征工程模块(3)连接,所述特征工程模块(3)通过所述模型训练及调参模块(4)与所述特征重要性评估模块(5)连接,所述特征重要性评估模块(5)通过所述模型评价与选择模块(6)与所述模型部署监控模块(7)连接。/n
【技术特征摘要】
1.一种基于随机森林算法的消费信贷场景的风险评估方法,其特征在于,包括信息采集模块(1)、数据预处理模块(2)、特征工程模块(3)、模型训练及调参模块(4)、特征重要性评估模块(5)、模型评价与选择模块(6)和模型部署监控模块(7),所述信息采集模块(1)通过所述数据预处理模块(2)与所述特征工程模块(3)连接,所述特征工程模块(3)通过所述模型训练及调参模块(4)与所述特征重要性评估模块(5)连接,所述特征重要性评估模块(5)通过所述模型评价与选择模块(6)与所述模型部署监控模块(7)连接。
2.根据权利要求1所述的一种基于随机森林算法的消费信贷场景的风险评估方法,其特征在于,所述基于随机森林算法的消费信贷场景的风险评估方法,包括以下步骤:
建模数据获取:从公司业务系统中按申请月份随机抽取建模样本客户,对于表现不充分(近期申请,坏账率明显低于前期客户)的不平衡样本通过SMOTE(syntheticminorityoversamplingtechnique:合成少数过采样技术)获得建模客户,用建模客户的编号作为主键去关联提取建模客户的申请数据、征信数据、APP操作埋点数据及客户授权的第三方数据合并成建模数据集;
数据预处理:检验用户编号的唯一性和样本完整性作为对样本数据质量检验标准,并对建模样本的变量做统计性分析,可做分布图直观描述变量的分布范围,并统计变量的均值、分位点值、异常值、缺失值,若和业务关联性比较高的变量缺失率比较高,可使用随机森林算法构造决策树对缺失值预测插补缺失率,该方法能够有效辅助填充缺失变量信息,针对较为稀疏的变量可采用K-Means算法进行聚类,对稀疏变量聚类利于变量特征工程的处理;
特征工程:对原始数据预处理之后进行特征处理和加工,一般通过构建衍生变量来获取更有预测力和解释性的变量,常用的特征衍生方法有:计数、求和、比例、时间差和波动率等,深层次挖掘更多更有用的变量,也可以把两个有关联业务逻辑的变量通过加减乘除等运算生成衍生变量,最终生成更高维的特征宽表,特征选择工作可在随机森林模型训练优化中进行;
模型训练及调参:运用python的sklearn模块中的随机森林分类器(RandomForestClassifier)进行模型训练及调参;
特征重要性评估及特征选择:随机森林模型不同于其他传统评分卡模型在于能够输出特征的重要性程度,重要性程度是各个特征的重要性值经过归一化的结果,特征重要性越高代表特征越匹配预测函数,在sklearn中已经实现了用随机森林评估特征重要性,在训练好随机森林模型后,直接调用feature_importances属性就能得到每个特征的重要性,并按降序排序,根据样本的总特征数选取重要性的TOP500或T0P100特征得到一个新的特征子集后重新进行训练调参,最终得到泛化性和稳定性更优的随机森林模型,并且根据特征重要性可以构建消费信贷行业风险评估方体系及其指标权重,以此评估客户信用得分及逾期风险等级;
模型评价与选择:通过KS和AUC来评估随机森林模型的整体效果,KS值不仅能够反映模型是否准确,还能够评估模型对好坏客户是否有足够的区分度;AUC值能够保证在样本不均匀的情况下,准确评估模型的好坏与否,并结合对比LR、SVM、GBDT、XGBoost等其他传统评分卡模型,综合评估比较随机森林模型准确性和稳定性;
模型部署监控:通过网格化调参及五折交叉验证方法重复训练达到最优参数组合的随机森林模型后,将模型部署至系统平台,通过监控变量IV及均值、模型分布的PSI(PopulationStabilityIndex,人群稳定性指数)、KS、AUC等指标来更新调整优化模型。
3.根据权利要求2所述的一种基于随机森林算法的消费信贷场景的风险评估方法,其特征在于,所述随机森林分类器(RandomForestClassifier)包括以下模型参数:
子模型的数量(n_estimators):关系到随机森林模型的复杂度,理论上,子模型的数量越大结果更稳定,但计算量会大增,且n_estimators到达一定数量后,模型的表现提升度不大,故实际中,一般需...
【专利技术属性】
技术研发人员:江远强,韩璐,李兰,
申请(专利权)人:百维金科上海信息科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。