当前位置: 首页 > 专利查询>苏州大学专利>正文

基于过采样与随机森林的不平衡信贷用户分类方法技术

技术编号:27468425 阅读:13 留言:0更新日期:2021-03-02 17:32
本发明专利技术公开了一种基于过采样与随机森林的不平衡信贷用户分类方法,包括:步骤一:在数据清洗阶段,首先进行了探索性数据分析,对数据集中的缺值进行处理,并对数据集进行特征工程;步骤二:在数据变换阶段,采用过采样的SMOTE方法进行了处理,使训练集中违约用户和还清用户的数目接近一致,对离散型变量进行独热编码或标签编码。本发明专利技术的有益效果:本发明专利技术相比P2P信贷平台传统的信用评定方法,本发明专利技术能快速准确地提取用户贷前特征,对用户进行分类,不需要耗费大量时间进行人工审核。不需要耗费大量时间进行人工审核。不需要耗费大量时间进行人工审核。

【技术实现步骤摘要】
基于过采样与随机森林的不平衡信贷用户分类方法


[0001]本专利技术涉及信贷用户分类领域,具体涉及一种基于过采样与随机森林的不平衡信贷用户分类方法。

技术介绍

[0002]P2P信贷是以“普惠”为核心思想的互联金融的典型代表,它利用网络实现了投资人和借款人的直接连接,使信贷在P2P领域焕发新的活力。但是,目前P2P市场情况复杂,借款用户资质参差不齐,投资人和借款人之间存在信息不对称、逆向选择、羊群效应等问题,导致P2P信贷相关平台的坏账率居高不下,倒闭平台数逐年上升。为降低用户的违约率,合理科学地甄别不同的贷款用户,减少平台运营风险,建立一个可靠的贷前用户分类体系至关重要。通常,P2P信贷平台对于首次贷款的用户会进行风险数据建模,对于预测信用较差的人,贷款机构一般会给予其较高的利息和较小的贷款金额;而对于预测信用较好的人,贷款机构则会给予其较低的利息和较大的贷款金额。在P2P平台发展初期,预测借款人的信用往往采用机器筛选加人工审核的方式,机器筛选往往用于辅佐人工审核以提高效率。然而,由于借款人提供的信息较多,人工审核往往需要耗费大量时间,加之人工核验具有较大的主观偏好,难免会存在漏审、误审等问题,该方法准确率往往不高。引入机器学习主导的贷款用户贷前分类方法能极大地提高效率和准确性。
[0003]近年来,P2P信贷平台的学术研究从未停歇,常用的方法包括BP神经网络、K均值聚类法、支持向量机SVM、决策树等,这些方法在高维大规模用户数据的表现上不尽人意,且各自存在一定的缺陷。BP神经网络输出结果难以解释,且学习时间过长;K均值聚类法的K值选择十分困难,且需要不断调整中心,不适合在海量数据中使用;支持向量机对缺失数据极其敏感,对非线性问题没有通用的解决方案,也不适用于海量数据;决策树的可解释性良好,但容易陷入过拟合,需要进行剪枝,层数过多时会占用较大的内存。借贷平台的数据量往往很大,用户特征繁多,且用户资质不平衡,违约用户往往只占少数。传统的方法很难给出用户贷前特征的重要程度。

技术实现思路

[0004]本专利技术要解决的技术问题是提供一种基于过采样与随机森林的不平衡信贷用户分类方法,具有较高的准确率和良好的可解释性。
[0005]为了解决上述技术问题,本专利技术提供了一种基于过采样与随机森林的不平衡信贷用户分类方法,包括:
[0006]步骤一:在数据清洗阶段,首先进行了探索性数据分析,对数据集中的缺值进行处理,并对数据集进行特征工程;
[0007]步骤二:在数据变换阶段,采用过采样的SMOTE方法进行了处理,使训练集中违约用户和还清用户的数目接近一致,对离散型变量进行独热编码或标签编码;
[0008]步骤三:在模型训练阶段,划分训练集和测试集,建立随机森林模型进行模型训
练,并进行参数调节,给出最优参数;
[0009]步骤四:用该所述随机森林模型模型对测试集的用户进行预测,并给出借款人贷前特征的重要性排序。
[0010]本专利技术的有益效果:
[0011]本专利技术相比P2P信贷平台传统的信用评定方法,本专利技术能快速准确地提取用户贷前特征,对用户进行分类,不需要耗费大量时间进行人工审核;相比于传统的数据采样方法,本专利技术采用SMOTE的过采样方法,避免了由于数据集不平衡导致模型训练时产生归纳偏好,能提高对违约用户识别的准确率;相比于用户贷前分类的决策树模型,随机森林模型不易陷入过拟合,可以并行化处理,训练速度快,还可以输出特征的重要性;具有较高的准确率和良好的可解释性。
[0012]在其中一个实施例中,所述数据集是Lending Club公开的2007-2018借贷数据集;该数据集共2260668个数据项,145个字段,标签项是loan_status,表示贷款状态,共有9种取值;对于贷款用户贷前分类,只需要保留其中的2种取值,即Fully Paid和Charged Off。
[0013]在其中一个实施例中,“对数据集中的缺值进行处理”,具体包括:字段缺失超过70%则删除该字段;字段缺失少于5%则删除含有缺值的数据项;对于连续型字段,采用中位数或平均数进行填充;对于离散型字段,采用众数进行填充。
[0014]在其中一个实施例中,“数据集进行特征工程”中,若变量的缺失率大于0.9或iv值小于0.05或相关性高于0.7时,该变量将被删除。
[0015]在其中一个实施例中,“对数据集中的缺值进行处理”和“对数据集进行特征工程”之间还包括对数据集进行业务理解,所述数据集进行业务理解具体包括:对数据集中所有特征进行理解,对数据进行进一步清洗;删除类别较多的离散型字段,防止独热编码后特征空间过大;甄别贷后变量并删除,防止标签泄露。
[0016]在其中一个实施例中,“对离散型变量进行独热编码或标签编码;”具体包括:如果字段类别少于2个,采用标签编码进行编码;其余情况采用独热编码,将离散型字段转换为连续性字段。
[0017]在其中一个实施例中,步骤三中,利用随机搜索法得到所述随机森林模型在所述数据集上的最优参数。
[0018]基于同样的专利技术构思,本申请还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
[0019]基于同样的专利技术构思,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
[0020]基于同样的专利技术构思,本申请还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
附图说明
[0021]图1是本专利技术基于过采样与随机森林的不平衡信贷用户分类方法的流程示意图。
[0022]图2是本专利技术基于过采样与随机森林的不平衡信贷用户分类方法的smote原理图。
[0023]图3是本专利技术基于过采样与随机森林的不平衡信贷用户分类方法的特征重要性排
序示意图。
[0024]图4是本专利技术基于过采样与随机森林的不平衡信贷用户分类方法的ROC曲线示意图。
具体实施方式
[0025]下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。
[0026]参阅图1,一种基于过采样与随机森林的不平衡信贷用户分类方法,包括:
[0027]步骤一:在数据清洗阶段,首先进行了探索性数据分析,对数据集中的缺值进行处理,并对数据集进行特征工程;
[0028]步骤二:在数据变换阶段,采用过采样的SMOTE方法进行了处理,使训练集中违约用户和还清用户的数目接近一致,对离散型变量进行独热编码或标签编码;
[0029]步骤三:在模型训练阶段,划分训练集和测试集,建立随机森林模型进行模型训练,并进行参数调节,给出最优参数;
[0030]步骤四:用该所述随机森林模型模型对测试集的用户进行预测,并给出借款人贷前特征的重要性排序。
...

【技术保护点】

【技术特征摘要】
1.一种基于过采样与随机森林的不平衡信贷用户分类方法,其特征在于,包括:步骤一:在数据清洗阶段,首先进行了探索性数据分析,对数据集中的缺值进行处理,并对数据集进行特征工程;步骤二:在数据变换阶段,采用过采样的SMOTE方法进行了处理,使训练集中违约用户和还清用户的数目接近一致,对离散型变量进行独热编码或标签编码;步骤三:在模型训练阶段,划分训练集和测试集,建立随机森林模型进行模型训练,并进行参数调节,给出最优参数;步骤四:用该所述随机森林模型模型对测试集的用户进行预测,并给出借款人贷前特征的重要性排序。2.如权利要求1所述的基于过采样与随机森林的不平衡信贷用户分类方法,其特征在于,所述数据集是Lending Club公开的2007-2018借贷数据集;该数据集共2260668个数据项,145个字段,标签项是loan_status,表示贷款状态,共有9种取值;对于贷款用户贷前分类,只需要保留其中的2种取值,即Fully Paid和Charged Off。3.如权利要求1所述的基于过采样与随机森林的不平衡信贷用户分类方法,其特征在于,“对数据集中的缺值进行处理”,具体包括:字段缺失超过70%则删除该字段;字段缺失少于5%则删除含有缺值的数据项;对于连续型字段,采用中位数或平均数进行填充;对于离散型字段,采用众数进行填充。4.如权利要求1所述的基于过采样与随机森林的不平衡信贷用户分类方法,其特征在于,“数据...

【专利技术属性】
技术研发人员:陶砚蕴黄锐岳国旗吴澄
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1