基于制造技术

技术编号:39399152 阅读:10 留言:0更新日期:2023-11-19 15:52
本申请实施例公开了一种基于

【技术实现步骤摘要】
基于LightGBM的分期准入预测模型建立方法及应用


[0001]本申请涉及商业风险评估
,具体涉及一种基于
LightGBM
的分期准入预测模型建立方法及应用


技术介绍

[0002]近年来,互联网金融发展迅速,尤其在消费分期领域,机器学习的应用场景比比皆是

现阶段,银行主要通过借款人的申请信息

征信数据以及第三方数据来预估借款人欺诈逾期的风险概率

但是,借款过程中如果对客户进行多次查征,会引起客户投诉,而且部分高风险客户,后期也会直接被银行拒绝,但从订单创建到银行给出预审批结果,不仅有较高的时间成本,而且也会增加银行人员的人力成本


技术实现思路

[0003]本申请实施例的目的在于提供一种基于
LightGBM
的分期准入预测模型建立方法及应用,用以解决现有技术中的对借款分期客户的查征容易引起客户投诉,以及分期审批的时间成本和人力成本较高的问题

[0004]为实现上述目的,本申请实施例提供一种基于
LightGBM
的分期准入预测模型建立方法,包括:获取分期的禁入规则,并对所述禁入规则进行维度划分和筛选,得到禁入规则集合;
[0005]针对所述禁入规则集合,选取能够提供个人金融数据的第三方数据源;
[0006]获取作为样本的用户数据,并拼接从所述第三方数据源获取的对应的三方数据,得到原始数据,并且将所述样本中每个用户是否命中各个维度的所述禁入规则分别作为目标变量以训练不同的模型;
[0007]对所述原始数据进行预处理,并基于预处理后的所述原始数据进行特征筛选,得到特征集;
[0008]基于所述特征集和所述目标变量,针对每个维度的所述禁入规则建立基于
LightGBM
算法的模型,利用所述原始数据进行模型训练后,将得到的最终模型作为所述分期准入预测模型

[0009]可选地,所述对所述禁入规则进行维度划分和筛选,包括:
[0010]将所述禁入规则划分为外部数据规则

逾期类规则

多头类规则以及组合规则;
[0011]通过瀑布分析法对所述禁入规则进行筛选,删掉命中率低于预设值的规则

[0012]可选地,所述获取作为样本的用户数据,包括:
[0013]获取所述用户数据,具体包括:个人基本信息

信用评分

多头类指标和消费类指标;
[0014]根据客户自身特点,总结并得出与所述禁入规则相关的指标集,具体包括:个人基本信息指标

信用类指标

多头类指标和消费类指标

[0015]可选地,在所述对所述原始数据进行预处理之前,还包括:
[0016]对所述原始数据进行结构化整理,具体包括:以每笔分期申请订单号和用户身份证号为主键,并关联对应的所述用户数据,进行数据的格式化整理,包括格式

单位的统一

[0017]可选地,所述对所述原始数据进行预处理,包括:
[0018]对所述原始数据进行数据清洗和独热编码,具体包括:
[0019]对数据中存在的缺失值

异常值

区间值进行处理,删除外部数据覆盖率低于预设值的特征,对其他缺失的情况,采用一定值作为插补缺失值的数值,根据3σ
原则鉴别数据集中异常值,然后对其进行删除,对区间变量,使用区间的均值替换区间值;
[0020]对所用的特征中的类别型变量,在建模之前,采用独热编码将其数值化

[0021]可选地,所述基于预处理后的所述原始数据进行特征筛选,得到特征集,包括:
[0022]基于特征
IV
值进行筛选,基于特征相关性进行筛选,以及基于特征重要性进行筛选;
[0023]针对不同维度的所述禁入规则分别使用
LightGBM
算法对所述原始数据进行初步训练,以获得所有特征的重要性,选出其中重要性排名前预设位数的特征作为所述特征集,用于后续的建模

[0024]可选地,所述基于所述特征集和所述目标变量,针对每个维度的所述禁入规则建立基于
LightGBM
算法的模型,利用所述原始数据进行模型训练后,将得到的最终模型作为所述分期准入预测模型,包括:
[0025]将所述原始数据划分为训练集和测试集;
[0026]对于选定的所述特征集,对不同的特征组合,执行:
[0027]在所述训练集上利用五折交叉验证法进行模型训练和验证,
[0028]使用网格搜索算法进行超参数调优,
[0029]采用所述测试集数据对预测模型进行评估,使用精确率

召回率和
F1
值作为模型评估的指标,得到该特征子集下的最优模型;
[0030]选择效果最优的模型作为所述最终模型,其使用的特征子集作为入模特征

[0031]可选地,在所述将得到的最终模型作为所述分期准入预测模型之后,还包括:
[0032]对不同的所述禁入规则构建策略体系:每条所述禁入规则都用其对应的模型进行预测,阈值点的确定依据如下目标:预测准确率需在预设值以上;
[0033]每条所述禁入规则确定好对应的阈值后,评估其在整体样本上的效果

[0034]为实现上述目的,本申请还提供一种基于
LightGBM
的分期准入预测方法,包括:获取申请分期的用户的三方数据作为输入,基于对应的禁入规则,利用对应的根据上述的基于
LightGBM
的分期准入预测模型建立方法所建立的分期准入预测模型,对所述用户进行分期准入预测,得到所述用户后续是否会被所述禁入规则命中的预测结果

[0035]为实现上述目的,本申请还提供一种计算机存储介质,其上存储有计算机程序,其中所述计算机程序被机器执行时实现如上所述的方法的步骤

[0036]本申请实施例具有如下优点:
[0037]本申请实施例提供一种基于
LightGBM
的分期准入预测模型建立方法,包括:获取分期的禁入规则,并对所述禁入规则进行维度划分和筛选,得到禁入规则集合;针对所述禁入规则集合,选取能够提供个人金融数据的第三方数据源;获取作为样本的用户数据,并拼接从所述第三方数据源获取的对应的三方数据,得到原始数据,并且将所述样本中每个用
户是否命中各个维度的所述禁入规则分别作为目标变量以训练不同的模型;对所述原始数据进行预处理,并基于预处理后的所述原始数据进行特征筛选,得到特征集;基于所述特征集和所述目标变量,针对每个维度的所述禁入规则建立基于
LightGBM
算法的模型,利用所述原始数据进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
LightGBM
的分期准入预测模型建立方法,其特征在于,包括:获取分期的禁入规则,并对所述禁入规则进行维度划分和筛选,得到禁入规则集合;针对所述禁入规则集合,选取能够提供个人金融数据的第三方数据源;获取作为样本的用户数据,并拼接从所述第三方数据源获取的对应的三方数据,得到原始数据,并且将所述样本中每个用户是否命中各个维度的所述禁入规则分别作为目标变量以训练不同的模型;对所述原始数据进行预处理,并基于预处理后的所述原始数据进行特征筛选,得到特征集;基于所述特征集和所述目标变量,针对每个维度的所述禁入规则建立基于
LightGBM
算法的模型,利用所述原始数据进行模型训练后,将得到的最终模型作为所述分期准入预测模型
。2.
根据权利要求1所述的基于
LightGBM
的分期准入预测模型建立方法,其特征在于,所述对所述禁入规则进行维度划分和筛选,包括:将所述禁入规则划分为外部数据规则

逾期类规则

多头类规则以及组合规则;通过瀑布分析法对所述禁入规则进行筛选,删掉命中率低于预设值的规则
。3.
根据权利要求1所述的基于
LightGBM
的分期准入预测模型建立方法,其特征在于,所述获取作为样本的用户数据,包括:获取所述用户数据,具体包括:个人基本信息

信用评分

多头类指标和消费类指标;根据客户自身特点,总结并得出与所述禁入规则相关的指标集,具体包括:个人基本信息指标

信用类指标

多头类指标和消费类指标
。4.
根据权利要求1所述的基于
LightGBM
的分期准入预测模型建立方法,其特征在于,在所述对所述原始数据进行预处理之前,还包括:对所述原始数据进行结构化整理,具体包括:以每笔分期申请订单号和用户身份证号为主键,并关联对应的所述用户数据,进行数据的格式化整理,包括格式

单位的统一
。5.
根据权利要求1所述的基于
LightGBM
的分期准入预测模型建立方法,其特征在于,所述对所述原始数据进行预处理,包括:对所述原始数据进行数据清洗和独热编码,具体包括:对数据中存在的缺失值

异常值

区间值进行处理,删除外部数据覆盖率低于预设值的特征,对其他缺失的情况,采用一定值作为插补缺失值的数值,根据3σ
原则鉴别数据集中...

【专利技术属性】
技术研发人员:朱维佳徐栋周波
申请(专利权)人:浙江惠瀜网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1