一种基于聚类选择集成的风险控制方法技术

技术编号：35110492 阅读：24 留言：0更新日期：2022-10-01 17:24

本发明专利技术公开了一种基于聚类选择集成的风险控制方法，属于风险控制技术领域，包括获取信贷信息中授信后原始特征的特征值；采用分箱算法对原始特征进行计算，得到分箱特征值；采用过采样方法对分箱特征值进行处理，将处理后的分箱特征值输入基学习器，得到基学习器的预测结果；将基学习器的预测结果合并为矩阵，采用聚类算法计算矩阵，得到聚类中心；提取聚类中心对应的基学习器作为集成学习的第一层学习器；采用XGBoost模型或者LightGBM模型作为集成学习的第二层学习器，训练得到集成学习器数据测试。本发明专利技术较好地解决样本数量不平衡引发的过拟合问题，同时显著将基学习器差异化，增大基学习器的异质性，降低计算成本和内存开销。销。销。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于聚类选择集成的风险控制方法

[0001]本专利技术属于风险控制
，具体涉及一种基于聚类选择集成的风险控制方法。

技术介绍

[0002]银行、信贷机构等提供对外借贷属于一种风险行为，为了降低借贷违约风险，智能信贷数字化场景应运而生，其中贷前风控策略作为第一道门槛。银行、信贷机构等通过各种途径对供应商进行全面调查，以达到对企业或个人贷款前的风险预测，其重要性显而易见。目前较为流行的风控建模方法是评分卡模型，然而该模型是一种是线性模型，无法提取特征变量之间的高阶交叉项，模型表达能力受限，导致违约识别准确率不高。而集成模型由于选择若干基学习器，每个基学习器的训练都需要计算和存储空间，随着海量数据不断地增大，易导致集成模型运算速度变慢。
[0003]因此，本专利技术提供了一种基于聚类选择集成的风险控制方法，以至少解决上述部分技术问题，可适用于多源数据，且融合多种机器学习模型，从而提升金融风控预测准确率。

技术实现思路

[0004]本专利技术要解决的技术问题是：提供一种基于聚类选择集成的风险控制方法，以至少解决上述部分技术问题。
[0005]为实现上述目的，本专利技术采用的技术方案如下：一种基于聚类选择集成的风险控制方法，包括以下步骤：步骤S1、获取信贷信息中授信后原始特征的特征值；步骤S2、采用分箱算法对原始特征进行计算，得到分箱特征值；步骤S3、采用过采样方法对分箱特征值进行处理，将处理后的分箱特征值输入基学习器，得到基学习器的预测结果；步骤S4、将基学习器的预测结果合并为矩阵，...

【技术保护点】

【技术特征摘要】
1.一种基于聚类选择集成的风险控制方法，其特征在于，包括以下步骤：步骤S1、获取信贷信息中授信后原始特征的特征值；步骤S2、采用分箱算法对原始特征进行计算，得到分箱特征值；步骤S3、采用过采样方法对分箱特征值进行处理，将处理后的分箱特征值输入基学习器，得到基学习器的预测结果；步骤S4、将基学习器的预测结果合并为矩阵，采用聚类算法计算矩阵，得到聚类中心；步骤S5、提取聚类中心对应的基学习器作为集成学习的第一层学习器；步骤S6、采用XGBoost模型或者LightGBM模型作为集成学习的第二层学习器，得到集成学习器，然后进行数据测试。2.根据权利要求1所述的一种基于聚类选择集成的风险控制方法，其特征在于，所述步骤S2包括：步骤S21、将每个原始特征的特征值由小到大排序进行分箱，得到分箱区间；步骤S22、计算每个分箱区间内的累计好样本数占总好样本数比率为好占比率、累计坏样本数占总坏样本数比率为坏占比率；步骤S23、将好占比率和坏占比率差值绝对值的最大值作为切点，基于切点把特征值切分成两部分；步骤S24、重复步骤S21至步骤S23，将切点左右的数据进一步切分直至箱体数达到预设阈值，得到分箱特征值。3.根据权利要求2所述的一种基于聚类选择集成的风险控制方法，其特征在于，排序分箱采用等频分箱、等距分箱或自定义距离分箱的任意一种。4.根据权利要求2所述的一种基于聚类选择集成的风险控制方法，其特征在于，所述步骤S3包括：步骤S31、对于分箱特征值中好样本的每一个样本x
i
{x1，x2，...，x
N
}，以欧氏距离为标准计算它的k个近邻；步骤S32、从k个近邻中选取一个样本x
ij
，生成随机数τ∈[0，1]，由合成新样本x
i new
；步骤S33、将步骤S32重复进行N次得到样本集；步骤S34、好样本扩充得到全体样本x
old
，将全体样本x
old
与样本集x
new
合并得到样本x，通过预设的基学习器对样本x进行训练，得到基础学习的预测结果。5.根据权利要求4所述的一种基于聚类选择集成的风险控制方法，其特征在于，所述步骤S4包括：步骤S41、将多个基学习器的预测结果合并为矩阵M=(M
ij
)
k0
×
N
，其中k0表示基学习器数量，M
ij
表示基学习器对实例的预测结果；步骤S42、从矩阵M中随机挑选k0个样本作为初始聚类中心{c1，c2，... c
i
...，c
k0
...

【专利技术属性】
技术研发人员：谷满昌，朱科宇，
申请(专利权)人：中建电子商务有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人