【技术实现步骤摘要】
一种基于聚类选择集成的风险控制方法
[0001]本专利技术属于风险控制
,具体涉及一种基于聚类选择集成的风险控制方法。
技术介绍
[0002]银行、信贷机构等提供对外借贷属于一种风险行为,为了降低借贷违约风险,智能信贷数字化场景应运而生,其中贷前风控策略作为第一道门槛。银行、信贷机构等通过各种途径对供应商进行全面调查,以达到对企业或个人贷款前的风险预测,其重要性显而易见。目前较为流行的风控建模方法是评分卡模型,然而该模型是一种是线性模型,无法提取特征变量之间的高阶交叉项,模型表达能力受限,导致违约识别准确率不高。而集成模型由于选择若干基学习器,每个基学习器的训练都需要计算和存储空间,随着海量数据不断地增大,易导致集成模型运算速度变慢。
[0003]因此,本专利技术提供了一种基于聚类选择集成的风险控制方法,以至少解决上述部分技术问题,可适用于多源数据,且融合多种机器学习模型,从而提升金融风控预测准确率。
技术实现思路
[0004]本专利技术要解决的技术问题是:提供一种基于聚类选择集成的风险控制方法,以至少解决上述部分技术问题。
[0005]为实现上述目的,本专利技术采用的技术方案如下:一种基于聚类选择集成的风险控制方法,包括以下步骤:步骤S1、获取信贷信息中授信后原始特征的特征值;步骤S2、采用分箱算法对原始特征进行计算,得到分箱特征值;步骤S3、采用过采样方法对分箱特征值进行处理,将处理后的分箱特征值输入基学习器,得到基学习器的预测结果;步骤S4、将基学习器的预测结果合并为矩阵, ...
【技术保护点】
【技术特征摘要】
1.一种基于聚类选择集成的风险控制方法,其特征在于,包括以下步骤:步骤S1、获取信贷信息中授信后原始特征的特征值;步骤S2、采用分箱算法对原始特征进行计算,得到分箱特征值;步骤S3、采用过采样方法对分箱特征值进行处理,将处理后的分箱特征值输入基学习器,得到基学习器的预测结果;步骤S4、将基学习器的预测结果合并为矩阵,采用聚类算法计算矩阵,得到聚类中心;步骤S5、提取聚类中心对应的基学习器作为集成学习的第一层学习器;步骤S6、采用XGBoost模型或者LightGBM模型作为集成学习的第二层学习器,得到集成学习器,然后进行数据测试。2.根据权利要求1所述的一种基于聚类选择集成的风险控制方法,其特征在于,所述步骤S2包括:步骤S21、将每个原始特征的特征值由小到大排序进行分箱,得到分箱区间;步骤S22、计算每个分箱区间内的累计好样本数占总好样本数比率为好占比率、累计坏样本数占总坏样本数比率为坏占比率;步骤S23、将好占比率和坏占比率差值绝对值的最大值作为切点,基于切点把特征值切分成两部分;步骤S24、重复步骤S21至步骤S23,将切点左右的数据进一步切分直至箱体数达到预设阈值,得到分箱特征值。3.根据权利要求2所述的一种基于聚类选择集成的风险控制方法,其特征在于,排序分箱采用等频分箱、等距分箱或自定义距离分箱的任意一种。4.根据权利要求2所述的一种基于聚类选择集成的风险控制方法,其特征在于,所述步骤S3包括:步骤S31、对于分箱特征值中好样本的每一个样本x
i
{x1,x2,...,x
N
},以欧氏距离为标准计算它的k个近邻;步骤S32、从k个近邻中选取一个样本x
ij
,生成随机数τ∈[0,1],由合成新样本x
i new
;步骤S33、将步骤S32重复进行N次得到样本集;步骤S34、好样本扩充得到全体样本x
old
,将全体样本x
old
与样本集x
new
合并得到样本x,通过预设的基学习器对样本x进行训练,得到基础学习的预测结果。5.根据权利要求4所述的一种基于聚类选择集成的风险控制方法,其特征在于,所述步骤S4包括:步骤S41、将多个基学习器的预测结果合并为矩阵M=(M
ij
)
k0
×
N
,其中k0表示基学习器数量,M
ij
表示基学习器对实例的预测结果;步骤S42、从矩阵M中随机挑选k0个样本作为初始聚类中心{c1,c2,... c
i
...,c
k0
...
【专利技术属性】
技术研发人员:谷满昌,朱科宇,
申请(专利权)人:中建电子商务有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。