一种基于聚类选择集成的风险控制方法技术

技术编号:35110492 阅读:24 留言:0更新日期:2022-10-01 17:24
本发明专利技术公开了一种基于聚类选择集成的风险控制方法,属于风险控制技术领域,包括获取信贷信息中授信后原始特征的特征值;采用分箱算法对原始特征进行计算,得到分箱特征值;采用过采样方法对分箱特征值进行处理,将处理后的分箱特征值输入基学习器,得到基学习器的预测结果;将基学习器的预测结果合并为矩阵,采用聚类算法计算矩阵,得到聚类中心;提取聚类中心对应的基学习器作为集成学习的第一层学习器;采用XGBoost模型或者LightGBM模型作为集成学习的第二层学习器,训练得到集成学习器数据测试。本发明专利技术较好地解决样本数量不平衡引发的过拟合问题,同时显著将基学习器差异化,增大基学习器的异质性,降低计算成本和内存开销。销。销。

【技术实现步骤摘要】
一种基于聚类选择集成的风险控制方法


[0001]本专利技术属于风险控制
,具体涉及一种基于聚类选择集成的风险控制方法。

技术介绍

[0002]银行、信贷机构等提供对外借贷属于一种风险行为,为了降低借贷违约风险,智能信贷数字化场景应运而生,其中贷前风控策略作为第一道门槛。银行、信贷机构等通过各种途径对供应商进行全面调查,以达到对企业或个人贷款前的风险预测,其重要性显而易见。目前较为流行的风控建模方法是评分卡模型,然而该模型是一种是线性模型,无法提取特征变量之间的高阶交叉项,模型表达能力受限,导致违约识别准确率不高。而集成模型由于选择若干基学习器,每个基学习器的训练都需要计算和存储空间,随着海量数据不断地增大,易导致集成模型运算速度变慢。
[0003]因此,本专利技术提供了一种基于聚类选择集成的风险控制方法,以至少解决上述部分技术问题,可适用于多源数据,且融合多种机器学习模型,从而提升金融风控预测准确率。

技术实现思路

[0004]本专利技术要解决的技术问题是:提供一种基于聚类选择集成的风险控制方法,以至少解决上述部分技术问题。
[0005]为实现上述目的,本专利技术采用的技术方案如下:一种基于聚类选择集成的风险控制方法,包括以下步骤:步骤S1、获取信贷信息中授信后原始特征的特征值;步骤S2、采用分箱算法对原始特征进行计算,得到分箱特征值;步骤S3、采用过采样方法对分箱特征值进行处理,将处理后的分箱特征值输入基学习器,得到基学习器的预测结果;步骤S4、将基学习器的预测结果合并为矩阵,采用聚类算法计算矩阵,得到聚类中心;步骤S5、提取聚类中心对应的基学习器作为集成学习的第一层学习器;步骤S6、采用XGBoost模型或者LightGBM模型作为集成学习的第二层学习器,得到集成学习器,然后进行数据测试。
[0006]进一步地,所述步骤S2包括:步骤S21、将每个原始特征的特征值由小到大排序进行分箱,得到分箱区间;步骤S22、计算每个分箱区间内的累计好样本数占总好样本数比率为好占比率、累计坏样本数占总坏样本数比率为坏占比率;步骤S23、将好占比率和坏占比率差值绝对值的最大值作为切点,基于切点把特征值切分成两部分;步骤S24、重复步骤S21至步骤S23,将切点D左右的数据进一步切分直至箱体数达到预设阈值,得到分箱特征值。
[0007]进一步地,排序分箱采用等频分箱、等距分箱或自定义距离分箱的任意一种。
[0008]进一步地,所述步骤S3包括:步骤S31、对于分箱特征值中好样本的每一个样本x
i
{x1,x2,...,x
N
},以欧氏距离为标准计算它的k个近邻x
i(near)
,near∈{1,2,...,k};步骤S32、从k个近邻中选取一个样本x
ij
,生成随机数τ∈[0,1],由合成新样本x
i new
;步骤S33、将步骤S32重复进行N次得到样本集;步骤S34、好样本扩充得到全体样本x
old
,将全体样本x
old
与样本集x
new
合并得到样本x,通过预设的基学习器F(x)训练,得到基础学习的预测结果。
[0009]进一步地,所述步骤S4包括:步骤S41、将多个基学习器的预测结果合并为矩阵M=(M
ij
)
k0
×
N
,其中k0表示基学习器数量,M
ij
表示基学习器对实例的预测结果;步骤S42、从矩阵M中随机挑选k0个样本作为初始聚类中心{c1,c2,... c
i
...,c
k0
},k0表示基学习器的数量;步骤S43、计算每个实例到聚类中心的距离,选择距该实例最近的聚类中心,并将该实例加入到该聚类中心所在的聚类;步骤S44、如存在实例数目小于c
min
的聚类,c
min
表示每个聚类所要求的最少样本数目,则舍去该聚类,使聚类中心数量k减少1个并将舍去的聚类中的实例重新分配给距离最近的聚类;步骤S45、重新计算每个聚类的聚类中心,N
ci
为第i个聚类的样本数量,m表示M
ij
中的任意一行;步骤S46、当前聚类中心数量k≤k0/2时,计算每个聚类下实例的方差σ
ij
,计算每个聚类下的最大方差的分量σ
i max
,若某个聚类的σ
i max
大于预设的最大方差值,并且该聚类中实例数量大于等于2c
min
,由公式分裂成聚类中心为c
s+
、c
s

的两个聚类,使聚类中心数量k增加1个;当前聚类中心数量k≥2k0时,计算任意两个聚类中心的距离,将最小距离的两个聚类合并为新的聚类,使聚类中心数量k减少1个,直至聚类中心数量满足k<2k0;步骤S47、跳转至步骤S43重复迭代直至达到最大的迭代次数,终止聚类算法,输出选择后的k个聚类中心{c1,c2,...,c
k
}。
[0010]进一步地,所述步骤S43中,计算每个实例到聚类中心的距离的方法为:,其中m表示M
ij
中的任意一行。
[0011]进一步地,所述步骤S46中,采用公式将最小距离的两个聚类合并为新的聚类,其中,p、q表示两个聚类,N
p
、N
q
分别代表p、q两个聚类的实例个数,c
p
、c
q
分别代表p、q两个聚类的聚类中心。
[0012]进一步地,所述基学习器数量k0∈[50,100]。
[0013]进一步地,所述步骤S5中,提取聚类中心所对应的算法作为集成学习第一层的选择性算法。
[0014]进一步地,所述步骤S1中,原始特征至少包括供应商基础信息、供应商行为表现信
息和信贷产品相关信息。
[0015]与现有技术相比,本专利技术具有以下有益效果:本专利技术基于类聚选择集成,采用了过采样和聚类选择的算法,较好地解决风控领域好坏样本数量不平衡引发的过拟合等问题,同时采用基于无监督的聚类算法,能显著将基学习器差异化,增大基学习器的异质性,降低计算成本和内存开销。
附图说明
[0016]图1为本专利技术方法流程图。
具体实施方式
[0017]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术进一步详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0018]本专利技术提供的一种基于聚类选择集成的风险控制方法,包括以下步骤:步骤S1、获取信贷信息中授信后原始特征的特征值;步骤S2、采用分箱算法对原始特征进行计算,得到分箱特征值;步骤S3、采用过采样方法对分箱特征值进行处理,将处理后的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类选择集成的风险控制方法,其特征在于,包括以下步骤:步骤S1、获取信贷信息中授信后原始特征的特征值;步骤S2、采用分箱算法对原始特征进行计算,得到分箱特征值;步骤S3、采用过采样方法对分箱特征值进行处理,将处理后的分箱特征值输入基学习器,得到基学习器的预测结果;步骤S4、将基学习器的预测结果合并为矩阵,采用聚类算法计算矩阵,得到聚类中心;步骤S5、提取聚类中心对应的基学习器作为集成学习的第一层学习器;步骤S6、采用XGBoost模型或者LightGBM模型作为集成学习的第二层学习器,得到集成学习器,然后进行数据测试。2.根据权利要求1所述的一种基于聚类选择集成的风险控制方法,其特征在于,所述步骤S2包括:步骤S21、将每个原始特征的特征值由小到大排序进行分箱,得到分箱区间;步骤S22、计算每个分箱区间内的累计好样本数占总好样本数比率为好占比率、累计坏样本数占总坏样本数比率为坏占比率;步骤S23、将好占比率和坏占比率差值绝对值的最大值作为切点,基于切点把特征值切分成两部分;步骤S24、重复步骤S21至步骤S23,将切点左右的数据进一步切分直至箱体数达到预设阈值,得到分箱特征值。3.根据权利要求2所述的一种基于聚类选择集成的风险控制方法,其特征在于,排序分箱采用等频分箱、等距分箱或自定义距离分箱的任意一种。4.根据权利要求2所述的一种基于聚类选择集成的风险控制方法,其特征在于,所述步骤S3包括:步骤S31、对于分箱特征值中好样本的每一个样本x
i
{x1,x2,...,x
N
},以欧氏距离为标准计算它的k个近邻;步骤S32、从k个近邻中选取一个样本x
ij
,生成随机数τ∈[0,1],由合成新样本x
i new
;步骤S33、将步骤S32重复进行N次得到样本集;步骤S34、好样本扩充得到全体样本x
old
,将全体样本x
old
与样本集x
new
合并得到样本x,通过预设的基学习器对样本x进行训练,得到基础学习的预测结果。5.根据权利要求4所述的一种基于聚类选择集成的风险控制方法,其特征在于,所述步骤S4包括:步骤S41、将多个基学习器的预测结果合并为矩阵M=(M
ij
)
k0
×
N
,其中k0表示基学习器数量,M
ij
表示基学习器对实例的预测结果;步骤S42、从矩阵M中随机挑选k0个样本作为初始聚类中心{c1,c2,... c
i
...,c
k0
...

【专利技术属性】
技术研发人员:谷满昌朱科宇
申请(专利权)人:中建电子商务有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1