面向不平衡数据集的信用风险预测方法技术

技术编号：30087382 阅读：18 留言：0更新日期：2021-09-18 08:47

本发明专利技术公开了一种面向不平衡数据集的信用风险预测方法，包括：采集并预处理网贷平台的用户历史数据，并对预处理后的用户历史数据按预设比例划分为训练集和测试集；利用随机森林算法对训练集进行特征选择，得到最优特征子集；利用改进过采样方法对最优特征子集进行处理，得到平衡数据集；利用Focal Loss函数改进LightGBM算法的损失函数，以建立信用风险模型，利用平衡数据集对信用风险模型进行训练，得到信用风险预测模型；通过网格搜索算法对信用风险预测模型的参数进行优化，得到最佳信用风险预测模型；将测试集输入最佳信用风险预测模型中，得到预测结果。该方法从数据和算法两个方面来解决不平衡数据对模型分类效果的影响。响。响。

全部详细技术资料下载

【技术实现步骤摘要】
面向不平衡数据集的信用风险预测方法

[0001]本专利技术涉及互联网金融的风控
，特别涉及一种面向不平衡数据集的信用风险预测方法。

技术介绍

[0002]互联网技术的快速发展给传统金融行业带来了巨大的影响，网络借贷就是一项重要的创新成果。它是指个体与个体之间的直接贷款行为，不使用银行等传统金融中介作为媒介提供闲散资金，而是通过第三方互联网平台匹配借贷双方之间的资金和贷款。这为借贷人提供了更灵活，更便捷的融资方式，因此也使网络借贷成为了越来越多的人选择融资的渠道。但是另一方面，信用风险问题也一直制约着网贷平台的发展，较高的违约率带来了极大的负面影响。因此，建立有效的信用风险预测模型对借贷人的风险控制以及网贷平台的持续发展具有重大的意义。在实际研究借贷人信用风险问题时，由于数据集中违约人数的数量占比较小，使得数据集的正负比例极不平衡，严重影响模型的分类效果。如何提高不平衡数据集下的信用风险预测效果，是亟待解决的问题之一。
[0003]近年来，针对解决不平衡数据集的分类问题，主要从数据和算法两个方面进行。一是利用采样方法处理数据，解决数据集本身分布不均的现象；二是对传统分类算法进行改进。
[0004]在数据方面，目前常用的过采样方法有SMOTE、Borderline
‑
SMOTE和ADASYN等方法，虽然都被证实了在不平衡分类问题中的有效性，但是仍然存在很多问题需要改进。SMOTE方法在合成新样本的过程中容易出现样本重叠的问题，Borderline
‑
SMOTE方法

【技术保护点】

【技术特征摘要】
1.一种面向不平衡数据集的信用风险预测方法，其特征在于，包括以下步骤：步骤S1，采集并预处理网贷平台的用户历史数据，并对预处理后的用户历史数据按预设比例划分为训练集和测试集；步骤S2，利用随机森林算法对所述训练集进行特征选择，得到最优特征子集；步骤S3，利用改进过采样方法对所述最优特征子集进行处理，得到所述平衡数据集；步骤S4，利用Focal Loss函数改进LightGBM算法的损失函数，以建立信用风险模型，利用所述平衡数据集对所述信用风险模型进行训练，得到信用风险预测模型；步骤S5，通过网格搜索算法对所述信用风险预测模型的参数进行优化，得到最佳信用风险预测模型；步骤S6，将所述测试集输入所述最佳信用风险预测模型中，得到预测结果。2.根据权利要求1所述的面向不平衡数据集的信用风险预测方法，其特征在于，所述步骤S1具体步骤为：步骤S101，在网贷平台采集所述用户历史数据；步骤S102，统计所述用户历史数据中每个特征的缺失值比例，删除缺失值比例超过60％的特征；步骤S103，采用特殊值填充法对分类型变量的缺失值进行填充，采用均值填充法对数值型变量的缺失值进行填充；步骤S104，将填充后的分类型变量和填充后的数值型变量进行归一化处理，并按照所述预设划分比例将归一化后的数据划分为所述训练集和所述测试集。3.根据权利要求1所述的面向不平衡数据集的信用风险预测方法，其特征在于，所述步骤S2中利用随机森林算法的最小袋外数据误差率准则度量所述训练集中每个特征的重要性程度，通过每次有放回地从数据集中抽取M个样本，共抽取n次，得到n组袋外数据，再对第j个特征加入噪声，并计算加入噪声前后两次决策树误差值的变化大小，得到第j个特征的重要程度，直至获得全部特征的重要程度，筛选出所述最优特征子集。4.根据权利要求3所述的面向不平衡数据集的信用风险预测方法，其特征在于，所述第j个特征的重要程度的公式为：其中，Error1
i
为根据n组袋外数据计算得到的第i棵决策树的误差值，Error2
ji
为对第j个特征添加噪声后的第i棵决策树的误差值。5.根据权利要求1所述的面向不平衡数据集的信用风险预测方法，其特征在于，所述步骤S3具体包括：步骤S301，找所述最优特征子集中每个少数类样本的K个最近邻样本；步骤S302，若所述K个最近邻样本中多数类样本的个数多于少数类样本的个数，则将所述少数类样本加入边界样本集合中；步骤S303，计算需要合成的样本总数G＝(L
maj
‑
L
min
)*b，其中，L
maj
为所述最优特征子集中多数类样本个数，L
min
为所述最优特征子集中少数类样本个数，b为[0,1]区间的数；步骤S304，将所述边界样本集合(X1,X2,X3,K X
n
)中的每一个少数类样本，记为X
i
，计算出X
i
的所述K个最近邻样本中多数类样本的个数，记为N
i
，则所述...

【专利技术属性】
技术研发人员：陈海龙，杨畅，杜梅，张颖宇，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人