基于过采样与随机森林的不平衡信贷用户分类方法技术

技术编号：27468425 阅读：13 留言：0更新日期：2021-03-02 17:32

本发明专利技术公开了一种基于过采样与随机森林的不平衡信贷用户分类方法，包括：步骤一：在数据清洗阶段，首先进行了探索性数据分析，对数据集中的缺值进行处理，并对数据集进行特征工程；步骤二：在数据变换阶段，采用过采样的SMOTE方法进行了处理，使训练集中违约用户和还清用户的数目接近一致,对离散型变量进行独热编码或标签编码。本发明专利技术的有益效果：本发明专利技术相比P2P信贷平台传统的信用评定方法，本发明专利技术能快速准确地提取用户贷前特征，对用户进行分类，不需要耗费大量时间进行人工审核。不需要耗费大量时间进行人工审核。不需要耗费大量时间进行人工审核。

全部详细技术资料下载

【技术实现步骤摘要】
基于过采样与随机森林的不平衡信贷用户分类方法

[0001]本专利技术涉及信贷用户分类领域，具体涉及一种基于过采样与随机森林的不平衡信贷用户分类方法。

技术介绍

[0002]P2P信贷是以“普惠”为核心思想的互联金融的典型代表，它利用网络实现了投资人和借款人的直接连接，使信贷在P2P领域焕发新的活力。但是，目前P2P市场情况复杂，借款用户资质参差不齐，投资人和借款人之间存在信息不对称、逆向选择、羊群效应等问题，导致P2P信贷相关平台的坏账率居高不下，倒闭平台数逐年上升。为降低用户的违约率，合理科学地甄别不同的贷款用户，减少平台运营风险，建立一个可靠的贷前用户分类体系至关重要。通常，P2P信贷平台对于首次贷款的用户会进行风险数据建模，对于预测信用较差的人，贷款机构一般会给予其较高的利息和较小的贷款金额；而对于预测信用较好的人，贷款机构则会给予其较低的利息和较大的贷款金额。在P2P平台发展初期，预测借款人的信用往往采用机器筛选加人工审核的方式，机器筛选往往用于辅佐人工审核以提高效率。然而，由于借款人提供的信息较多，人工审核往往需要耗费大量时间，加之人工核验具有较大的主观偏好，难免会存在漏审、误审等问题，该方法准确率往往不高。引入机器学习主导的贷款用户贷前分类方法能极大地提高效率和准确性。
[0003]近年来，P2P信贷平台的学术研究从未停歇，常用的方法包括BP神经网络、K均值聚类法、支持向量机SVM、决策树等，这些方法在高维大规模用户数据的表现上不尽人意，且各自存在一定的缺陷。BP神经网络输出结果难以解释，且学习时

【技术保护点】

【技术特征摘要】
1.一种基于过采样与随机森林的不平衡信贷用户分类方法，其特征在于，包括：步骤一：在数据清洗阶段，首先进行了探索性数据分析，对数据集中的缺值进行处理，并对数据集进行特征工程；步骤二：在数据变换阶段，采用过采样的SMOTE方法进行了处理，使训练集中违约用户和还清用户的数目接近一致,对离散型变量进行独热编码或标签编码；步骤三：在模型训练阶段，划分训练集和测试集，建立随机森林模型进行模型训练，并进行参数调节，给出最优参数；步骤四：用该所述随机森林模型模型对测试集的用户进行预测，并给出借款人贷前特征的重要性排序。2.如权利要求1所述的基于过采样与随机森林的不平衡信贷用户分类方法，其特征在于，所述数据集是Lending Club公开的2007-2018借贷数据集；该数据集共2260668个数据项，145个字段，标签项是loan_status，表示贷款状态，共有9种取值；对于贷款用户贷前分类，只需要保留其中的2种取值，即Fully Paid和Charged Off。3.如权利要求1所述的基于过采样与随机森林的不平衡信贷用户分类方法，其特征在于，“对数据集中的缺值进行处理”，具体包括：字段缺失超过70％则删除该字段；字段缺失少于5％则删除含有缺值的数据项；对于连续型字段，采用中位数或平均数进行填充；对于离散型字段，采用众数进行填充。4.如权利要求1所述的基于过采样与随机森林的不平衡信贷用户分类方法，其特征在于，“数据...

【专利技术属性】
技术研发人员：陶砚蕴，黄锐，岳国旗，吴澄，
申请(专利权)人：苏州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人