一种互联网信贷逾期预测方法、装置、服务器和存储介质制造方法及图纸

技术编号:24356548 阅读:32 留言:0更新日期:2020-06-03 02:41
本发明专利技术公开了一种互联网信贷逾期预测方法,包括:获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;根据所述信贷逾期概率对待评估用户进行信贷预期评估。本发明专利技术还公开了一种互联网信贷逾期预测装置、服务器和存储介质。本发明专利技术通过使用逾期预测模型,将用户数据输入模型,得到逾期预测结果,实现对用户信贷逾期概率的准确预测,提高了逾期预测准确率。

An Internet credit overdue prediction method, device, server and storage medium

【技术实现步骤摘要】
一种互联网信贷逾期预测方法、装置、服务器和存储介质
本专利技术实施例涉及互联网金融
,尤其涉及一种互联网信贷逾期预测方法、装置、服务器和存储介质。
技术介绍
互联网金融行业公司也逐渐把个人信用贷款业务作为研究突破的重要领域之一。然而,随着大数据技术的日益成熟,互联网金融个人信用原始数据集数据类型越来越复杂且数据量大,互联网金融公司面临着数据集越来越大、数据特征越来越复杂的问题。数据集中各个指标都有可能影响个人信用评估的效果,个人基本信息、经济情况和历史信用记录等多被证明是重要因素。目前常用的互联网信贷用户的逾期预测方法主要是基于专家经验制定的评分卡和基于LR模型的传统信用评分卡。前者根据专家经验制定一套评分规则,再根据用户的实际数据,使用该规则进行信用评分。这种方法评估结果不准确,同时无法充分挖掘数据信息,对数据的利用率不高。
技术实现思路
本专利技术提供一种互联网信贷逾期预测方法,将用户数据输入模型,得到逾期预测结果,实现对用户信贷逾期概率的准确预测。第一方面,本专利技术实施例提供一种互联网信贷逾期预测方法,包括:获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;根据所述信贷逾期概率对待评估用户进行信贷预期评估。进一步地,所述逾期预测模型的生成方法包括:获取历史用户的样本用户数据,所述样本用户数据包括历史用户的性别、年龄、工作年限、通话记录、和/或历史借贷行为,所述样本用户数据还包括用户标签,所述用户标签记载所述历史用户出现信贷逾期或未出现信贷逾期;将所述样本用户数据分为训练集和测试集;从所述训练集中筛选出第一数据特征;将所述训练集通过GBDT模型学习得到第二数据特征;将所述第一数据特征和第二数据特征合并生成第三数据特征,使用LR模型训练所述第三数据特征,生成所述逾期预测模型。进一步地,所述从所述训练集中筛选出第一数据特征,包括:对所述训练集进行EDA数据分析,获取所述训练集的缺失值、异常值、众数、平均值、第1中位数、第2中位数、第3中位数、标准差、最大值和最小值的分布状态;对所述训练集依次执行数据处理和变量筛选,生成第一数据特征。进一步地,所述对所述训练集依次执行数据处理和变量筛选,生成第一数据特征,包括:基于第一预设阈值,去掉所述训练集中缺失率超过第一预设阈值的训练集数据;采用卡方分箱法,对去除缺失率过高的所述训练集数据进行分箱操作;将分箱操作后的所述训练集数据的特征从非线性可分空间映射到近似线性可分空间内,生成待处理变量;基于第二预设阈值,删除所述待处理变量中iv值超出第二预设阈值的变量,同时,基于第三预设阈值,删除所述待处理变量中VIF方差膨胀因子值超出第三预设阈值的变量,生成第一数据特征。进一步地,所述将所述训练集通过GBDT模型学习得到第二数据特征,包括:所述GBDT模型使用决策树模型作为学习器;基于所述性别、年龄、工作年限、通话记录、和/或历史借贷行为生成对应的决策树;将所述用户标签中用户信贷逾期记为维度1,用户信贷未逾期记为维度0;所述训练集根据所述决策树进行学习,生成多个叶子结点;将所述多个叶子结点的维度取值生成所述第二数据特征。进一步地,所述使用LR模型训练所述第三数据特征,生成所述逾期预测模型之后,还包括:使用所述测试集测试所述逾期预测模型;基于预测效果调整所述逾期预测模型参数。第二方面,本专利技术实施例还提供一种互联网信贷逾期预测装置,包括:第一获取模块,用于获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;预测模块,用于使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;政策制定模块,用于根据所述信贷逾期概率对待评估用户进行信贷预期评估。进一步地,所述互联网信贷逾期预测装置还包括:第二获取模块,用于获取历史用户的样本用户数据,所述样本用户数据包括历史用户的性别、年龄、工作年限、通话记录、和/或历史借贷行为,所述样本用户数据还包括用户标签,所述用户标签记载所述历史用户出现信贷逾期或未出现信贷逾期;数据拆分模块,用于将所述样本用户数据分为训练集和测试集;第一特征生成模块,用于从所述训练集中筛选出第一数据特征;第二特征生成模块,用于将所述训练集通过GBDT模型学习得到第二数据特征;训练模块,用于将所述第一数据特征和第二数据特征合并生成第三数据特征,使用LR模型训练所述第三数据特征,生成所述逾期预测模型。第三方面,本专利技术实施例提供一种服务器,包括存储器和处理器,所述存储器上存储有可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的互联网信贷逾期预测方法。第四方面,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被执行时实现如上述任意一项所述的互联网信贷逾期预测方法。本专利技术通过使用逾期预测模型,将用户数据输入模型,得到逾期预测结果,实现对用户信贷逾期概率的准确预测,提高了逾期预测准确率,另外使用本专利技术的逾期预测模型,还提高了逾期预测准确率,同时便于根据预测结果为用户制定针对性的信贷政策,提高抗风险能力。附图说明图1是本专利技术实施例一中的互联网信贷逾期预测方法的流程图。图2是本专利技术实施例二中的互联网信贷逾期预测方法的流程图。图3是本专利技术实施例三中的互联网信贷逾期预测装置模块图。图4是本专利技术实施例三中的替代实施例的互联网信贷逾期预测装置模块图。图5是本专利技术实施例三中的替代实施例的互联网信贷逾期预测装置模块图。图6是本专利技术实施例四提供的一种服务器结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱本文档来自技高网...

【技术保护点】
1.一种互联网信贷逾期预测方法,其特征在于,包括:/n获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;/n使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;/n根据所述信贷逾期概率对待评估用户进行信贷预期评估。/n

【技术特征摘要】
1.一种互联网信贷逾期预测方法,其特征在于,包括:
获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;
使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;
根据所述信贷逾期概率对待评估用户进行信贷预期评估。


2.根据权利要求1所述的互联网信贷逾期预测方法,其特征在于,所述逾期预测模型的生成方法包括:
获取历史用户的样本用户数据,所述样本用户数据包括历史用户的性别、年龄、工作年限、通话记录、和/或历史借贷行为,所述样本用户数据还包括用户标签,所述用户标签记载所述历史用户出现信贷逾期或未出现信贷逾期;
将所述样本用户数据分为训练集和测试集;
从所述训练集中筛选出第一数据特征;
将所述训练集通过GBDT模型学习得到第二数据特征;
将所述第一数据特征和第二数据特征合并生成第三数据特征,使用LR模型训练所述第三数据特征,生成所述逾期预测模型。


3.根据权利要求2所述的互联网信贷逾期预测方法,其特征在于,所述从所述训练集中筛选出第一数据特征,包括:
对所述训练集进行EDA数据分析,获取所述训练集的缺失值、异常值、众数、平均值、第1中位数、第2中位数、第3中位数、标准差、最大值和最小值的分布状态;
对所述训练集依次执行数据处理和变量筛选,生成第一数据特征。


4.根据权利要求3所述的互联网信贷逾期预测方法,其特征在于,所述对所述训练集依次执行数据处理和变量筛选,生成第一数据特征,包括:
基于第一预设阈值,去掉所述训练集中缺失率超过第一预设阈值的训练集数据;
采用卡方分箱法,对去除缺失率过高的所述训练集数据进行分箱操作;
将分箱操作后的所述训练集数据的特征从非线性可分空间映射到近似线性可分空间内,生成待处理变量;
基于第二预设阈值,删除所述待处理变量中iv值超出第二预设阈值的变量,同时,基于第三预设阈值,删除所述待处理变量中VIF方差膨胀因子值超出第三预设阈值的变量,生成第一数据特征。


5.根据权利要求2所述的互联网信贷逾期预测方法,其特征在于,所述将所述训练集通过GBDT模型学习得到第二数据特征,包括:
所述GBDT模型使用决策树模型作...

【专利技术属性】
技术研发人员:李萍
申请(专利权)人:随手北京信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1