面向不平衡数据集的信用风险预测方法技术

技术编号:30087382 阅读:18 留言:0更新日期:2021-09-18 08:47
本发明专利技术公开了一种面向不平衡数据集的信用风险预测方法,包括:采集并预处理网贷平台的用户历史数据,并对预处理后的用户历史数据按预设比例划分为训练集和测试集;利用随机森林算法对训练集进行特征选择,得到最优特征子集;利用改进过采样方法对最优特征子集进行处理,得到平衡数据集;利用Focal Loss函数改进LightGBM算法的损失函数,以建立信用风险模型,利用平衡数据集对信用风险模型进行训练,得到信用风险预测模型;通过网格搜索算法对信用风险预测模型的参数进行优化,得到最佳信用风险预测模型;将测试集输入最佳信用风险预测模型中,得到预测结果。该方法从数据和算法两个方面来解决不平衡数据对模型分类效果的影响。响。响。

【技术实现步骤摘要】
面向不平衡数据集的信用风险预测方法


[0001]本专利技术涉及互联网金融的风控
,特别涉及一种面向不平衡数据集的信用风险预测方法。

技术介绍

[0002]互联网技术的快速发展给传统金融行业带来了巨大的影响,网络借贷就是一项重要的创新成果。它是指个体与个体之间的直接贷款行为,不使用银行等传统金融中介作为媒介提供闲散资金,而是通过第三方互联网平台匹配借贷双方之间的资金和贷款。这为借贷人提供了更灵活,更便捷的融资方式,因此也使网络借贷成为了越来越多的人选择融资的渠道。但是另一方面,信用风险问题也一直制约着网贷平台的发展,较高的违约率带来了极大的负面影响。因此,建立有效的信用风险预测模型对借贷人的风险控制以及网贷平台的持续发展具有重大的意义。在实际研究借贷人信用风险问题时,由于数据集中违约人数的数量占比较小,使得数据集的正负比例极不平衡,严重影响模型的分类效果。如何提高不平衡数据集下的信用风险预测效果,是亟待解决的问题之一。
[0003]近年来,针对解决不平衡数据集的分类问题,主要从数据和算法两个方面进行。一是利用采样方法处理数据,解决数据集本身分布不均的现象;二是对传统分类算法进行改进。
[0004]在数据方面,目前常用的过采样方法有SMOTE、Borderline

SMOTE和ADASYN等方法,虽然都被证实了在不平衡分类问题中的有效性,但是仍然存在很多问题需要改进。SMOTE方法在合成新样本的过程中容易出现样本重叠的问题,Borderline

SMOTE方法虽然改善了样本重叠的现象,但是该方法只对处于边界的少数类样本进行过采样,容易造成正负类边界模糊的问题,同样ADASYN方法虽然改进了新样本的分布情况,但是仍会出现样本重叠的问题。
[0005]在算法方面,传统分类算法在解决不平衡数据的分类问题时存在局限性,为此可以在算法层面上做出改进,主要方法有代价敏感学习以及集成学习方法。代价敏感学习解决数据不平衡的方法是增加少数类样本错分的惩罚代价,通过优化目标函数使分类模型更关注少数类样本的分类准确率。而集成学习方法是通过某种方式将多个基分类器集成起来,减少单个分类器对不平衡数据分类形成的误差,从而提高分类器整体的预测效果,但是有时基分类器的选择和集成方式的不同也会影响少数类样本的分类准确率问题。

技术实现思路

[0006]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0007]为此,本专利技术的目的在于提出一种面向不平衡数据集的信用风险预测方法,该方法从数据和算法两个方面来解决不平衡数据对模型分类效果的影响。
[0008]为达到上述目的,本专利技术实施例提出了面向不平衡数据集的信用风险预测方法,包括以下步骤:步骤S1,采集并预处理网贷平台的用户历史数据,并对预处理后的用户历史
数据按预设比例划分为训练集和测试集;步骤S2,利用随机森林算法对所述训练集进行特征选择,得到最优特征子集;步骤S3,利用改进过采样方法对所述最优特征子集进行处理,得到所述平衡数据集;步骤S4,利用Focal Loss函数改进LightGBM算法的损失函数,以建立信用风险模型,利用所述平衡数据集对所述信用风险模型进行训练,得到信用风险预测模型;步骤S5,通过网格搜索算法对所述信用风险预测模型的参数进行优化,得到最佳信用风险预测模型;步骤S6,将所述测试集输入所述最佳信用风险预测模型中,得到预测结果。
[0009]本专利技术实施例的面向不平衡数据集的信用风险预测方法,解决了不平衡数据对模型分类效果的影响,数据方面,提出了改进的过采样方法,通过自适应的为处于边界的少数类样本生成不同数量的新样本来改善样本重叠的现象,并利用新的插值方法解决样本边界模糊问题,以此来平衡数据集,达到提高模型分类效果的目的;算法方面,利用Focal Loss函数改进LightGBM算法中的损失函数,通过引入参数α和γ来调整类别权重、易分类样本权重和难分类样本权重,使模型更关注少数类样本和难分类样本,进一步提高模型的分类效果。
[0010]另外,根据本专利技术上述实施例的面向不平衡数据集的信用风险预测方法还可以具有以下附加的技术特征:
[0011]进一步地,在本专利技术的一个实施例中,所述步骤S1具体步骤为:步骤S101,在网贷平台采集所述用户历史数据;步骤S102,统计所述用户历史数据中每个特征的缺失值比例,删除缺失值比例超过60%的特征;步骤S103,采用特殊值填充法对分类型变量的缺失值进行填充,采用均值填充法对数值型变量的缺失值进行填充;步骤S104,将填充后的分类型变量和填充后的数值型变量进行归一化处理,并按照所述预设划分比例将归一化后的数据划分为所述训练集和所述测试集。
[0012]进一步地,在本专利技术的一个实施例中,所述步骤S2中利用随机森林算法的最小袋外数据误差率准则度量所述训练集中每个特征的重要性程度,通过每次有放回地从数据集中抽取M个样本,共抽取n次,得到n组袋外数据,再对第j个特征加入噪声,并计算加入噪声前后两次决策树误差值的变化大小,得到第j个特征的重要程度,直至获得全部特征的重要程度,筛选出所述最优特征子集。
[0013]进一步地,在本专利技术的一个实施例中,所述第j个特征的重要程度的公式为:
[0014][0015]其中,Error1
i
为根据n组袋外数据计算得到的第i棵决策树的误差值,Error2
ji
为对第j个特征添加噪声后的第i棵决策树的误差值。
[0016]进一步地,在本专利技术的一个实施例中,所述步骤S3具体包括:
[0017]步骤S301,找所述最优特征子集中每个少数类样本的K个最近邻样本;
[0018]步骤S302,若所述K个最近邻样本中多数类样本的个数多于少数类样本的个数,则将所述少数类样本加入边界样本集合中;
[0019]步骤S303,计算需要合成的样本总数G=(L
maj

L
min
)*b,其中,L
maj
为所述最优特征子集中多数类样本个数,L
min
为所述最优特征子集中少数类样本个数,b为[0,1]区间的数;
[0020]步骤S304,将所述边界样本集合(X1,X2,X3,K X
n
)中的每一个少数类样本,记为X
i
,计算出X
i
的所述K个最近邻样本中多数类样本的个数,记为N
i
,则所述K个最近邻样本中多数
类样本的占比R
i
为:
[0021]R
i
=N
i
/K
[0022]步骤S305,计算所述K个最近邻样本中多数类样本分布情况的总和Z:
[0023]Z=R1+R2+R3+L+R
n
[0024]步骤S306,计算所述边界样本集合中每个少数类样本X
i
需要合成的新样本数g
i...

【技术保护点】

【技术特征摘要】
1.一种面向不平衡数据集的信用风险预测方法,其特征在于,包括以下步骤:步骤S1,采集并预处理网贷平台的用户历史数据,并对预处理后的用户历史数据按预设比例划分为训练集和测试集;步骤S2,利用随机森林算法对所述训练集进行特征选择,得到最优特征子集;步骤S3,利用改进过采样方法对所述最优特征子集进行处理,得到所述平衡数据集;步骤S4,利用Focal Loss函数改进LightGBM算法的损失函数,以建立信用风险模型,利用所述平衡数据集对所述信用风险模型进行训练,得到信用风险预测模型;步骤S5,通过网格搜索算法对所述信用风险预测模型的参数进行优化,得到最佳信用风险预测模型;步骤S6,将所述测试集输入所述最佳信用风险预测模型中,得到预测结果。2.根据权利要求1所述的面向不平衡数据集的信用风险预测方法,其特征在于,所述步骤S1具体步骤为:步骤S101,在网贷平台采集所述用户历史数据;步骤S102,统计所述用户历史数据中每个特征的缺失值比例,删除缺失值比例超过60%的特征;步骤S103,采用特殊值填充法对分类型变量的缺失值进行填充,采用均值填充法对数值型变量的缺失值进行填充;步骤S104,将填充后的分类型变量和填充后的数值型变量进行归一化处理,并按照所述预设划分比例将归一化后的数据划分为所述训练集和所述测试集。3.根据权利要求1所述的面向不平衡数据集的信用风险预测方法,其特征在于,所述步骤S2中利用随机森林算法的最小袋外数据误差率准则度量所述训练集中每个特征的重要性程度,通过每次有放回地从数据集中抽取M个样本,共抽取n次,得到n组袋外数据,再对第j个特征加入噪声,并计算加入噪声前后两次决策树误差值的变化大小,得到第j个特征的重要程度,直至获得全部特征的重要程度,筛选出所述最优特征子集。4.根据权利要求3所述的面向不平衡数据集的信用风险预测方法,其特征在于,所述第j个特征的重要程度的公式为:其中,Error1
i
为根据n组袋外数据计算得到的第i棵决策树的误差值,Error2
ji
为对第j个特征添加噪声后的第i棵决策树的误差值。5.根据权利要求1所述的面向不平衡数据集的信用风险预测方法,其特征在于,所述步骤S3具体包括:步骤S301,找所述最优特征子集中每个少数类样本的K个最近邻样本;步骤S302,若所述K个最近邻样本中多数类样本的个数多于少数类样本的个数,则将所述少数类样本加入边界样本集合中;步骤S303,计算需要合成的样本总数G=(L
maj

L
min
)*b,其中,L
maj
为所述最优特征子集中多数类样本个数,L
min
为所述最优特征子集中少数类样本个数,b为[0,1]区间的数;步骤S304,将所述边界样本集合(X1,X2,X3,K X
n
)中的每一个少数类样本,记为X
i
,计算出X
i
的所述K个最近邻样本中多数类样本的个数,记为N
i
,则所述...

【专利技术属性】
技术研发人员:陈海龙杨畅杜梅张颖宇
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1