一种基于XGBoost的互联网金融风控模型制造技术

技术编号:24579807 阅读:46 留言:0更新日期:2020-06-21 00:55
本发明专利技术提供了一种基于XGBoost的互联网金融风控模型,以下步骤:S1:抽取合适的建模样本客户;S2:获取样本客户的网贷数据,提取与所述网贷数据对应的特征变量;S3:根据客户的还款行为、目标客群质量以及产品类型对建模样本的“good”和“bad”定义;S4:数据处理,包括脏数据清洗、缺失值处理、异常值处理;S5:特征工程,包括特征构建和特征筛选;S6:数据集划分,随机或跨时间划分训练集、验证集;S7:运用XGBoost算法训练,模型调参;S8:模型评估:根据评估指标评估模型的好坏。一方面,本发明专利技术增加使用了第三方数据,增加了风险识别的维度,同时通过预测能力强的XGBoost算法,使得模型算法的效率和健壮性得到优化;另一方面,本发明专利技术通过XGBoost算法调参和模型评估不断优化模型的准确性,更加适合大数据风控的需求。

An internet financial risk control model based on xgboost

【技术实现步骤摘要】
一种基于XGBoost的互联网金融风控模型
本专利技术涉及互联网金融风控
,特别涉及一种基于XGBoost的互联网金融风控模型。
技术介绍
我国国内P2P发展迅速,现金贷、消费信贷等互联网金融如雨后春笋一样涌现出来,但利用大数据的互联网金融风控在国内属于一个相对新的课题,大部分互联网金融公司仍按照传统的美国FICO评分卡模型风控建模。传统的评分卡模型属于线性模型,特点在于因变量和自变量属于线性关系,简单好解释,模型表现稳定,过拟合程度低,容易并行化,可以轻松处理上亿条数据,但由于评分卡模型只能解释变量间的线性关系,学习能力十分有限,所以其需要大量的特征工程来增加模型的学习能力,预测能力也相对较低。XGboost的全称是eXtremeGradientBoosting,即极端梯度提升树,是梯度提升机器算法GBDT的扩展,也是boosting算法的其中一种,其可以解释复杂的多维关系,预测能力强,模型在训练数据上可以达到很好的预测表现结果。但是其缺点也很明显,其一是模型内部的逻辑关系像黑盒子一样复杂无法解释,容易出现过拟合现象,这意味着模本文档来自技高网...

【技术保护点】
1.一种基于XGBoost的互联网金融风控模型,其特征在于,包括以下步骤:/nS1:抽取合适的建模样本客户;/nS2:获取样本客户的网贷数据,提取与所述网贷数据对应的特征变量;/nS3:根据客户的还款行为、目标客群质量以及产品类型对建模样本的“good”和“bad”定义;/nS4:数据处理,包括脏数据清洗、缺失值处理、异常值处理;/nS5:特征工程,包括特征构建和特征筛选;/nS6:数据集划分,随机或跨时间划分训练集、验证集;/nS7:运用XGBoost算法训练,模型调参;/nS8:模型评估:根据评估指标评估模型的好坏。/n

【技术特征摘要】
1.一种基于XGBoost的互联网金融风控模型,其特征在于,包括以下步骤:
S1:抽取合适的建模样本客户;
S2:获取样本客户的网贷数据,提取与所述网贷数据对应的特征变量;
S3:根据客户的还款行为、目标客群质量以及产品类型对建模样本的“good”和“bad”定义;
S4:数据处理,包括脏数据清洗、缺失值处理、异常值处理;
S5:特征工程,包括特征构建和特征筛选;
S6:数据集划分,随机或跨时间划分训练集、验证集;
S7:运用XGBoost算法训练,模型调参;
S8:模型评估:根据评估指标评估模型的好坏。


2.根据权利要求1所述一种基于XGBoost的互联网金融风控模型,其特征在于,所述步骤S1包括以下步骤:
S101:获取产品的目标客群、准入拒绝率、费率期限、逾期率、滚动率、催收情况;
S102:根据评分卡所用的风控节点,选取相关的客户群体,所述风控节点包括贷前申请、贷中监控、贷后管理;
S103:排除特定客户,建模样本客户选取日常审批客户,排除非目标客户、白名单客户、欺诈客户、特殊客户;
S104:确定样本观察期和样本表现期。


3.根据权利要求1所述一种基于XGBoost的互联网金融风控模型,其特征在于,所述网贷数据包括人行征信、银行流水、平台申请的个人基本属性数据、客户操作行为数据以及客户授权获取的第三方数据。


4.根据权利要求3所述一种基于XGBoost的互联网金融风控模型,其特征在于,所述第三方数据包括多头借贷行为、...

【专利技术属性】
技术研发人员:江远强
申请(专利权)人:百维金科上海信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1