基于变量分组的模型生成方法、模型生成装置和电子设备制造方法及图纸

技术编号：26793727 阅读：17 留言：0更新日期：2020-12-22 17:09

本申请涉及一种基于变量分组的模型生成方法、模型生成装置和电子设备。该基于变量分组的模型生成方法包括：获取包含多个变量的数据集；计算所述多个变量中的每个变量的预定参数；基于所述预定参数的大小对所述多个变量进行排序；针对所述多个变量，基于变量之间的相关系数和变量的方差膨胀因子值将全部变量划分为多个彼此不同的变量集；以及，基于每个变量集生成模型。这样，可以基于预设标准筛选变量，并将筛选的变量聚类为不同分组以用于模型生成，从而提高了数据利用率和模型的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
基于变量分组的模型生成方法、模型生成装置和电子设备
本申请总的来说涉及数据处理领域，且更为具体地，涉及一种基于变量分组的模型生成方法、模型生成装置和电子设备。
技术介绍
信用评分模型广泛用于信贷信用风险领域，特别是在零售信贷风险管理实践中，信用评分具有关键作用和广泛应用。具体地，在信贷申请阶段，通过基于申请评分的策略实现自动决策；在贷后管理阶段，可以使用行为评分及催收评分设计客户管理、预警以及催收策略。基于信用评分的决策机制可以帮助信用风险管理人员高效、客观的管理信贷业务。不管是申请评分模型、行为评分模型还是催收评分模型，其目的在于能够根据特征变量来生成模型，且在模型生成过程中，涉及到变量降维，或者说变量筛选过程。传统上，生成模型的过程中的变量筛选过程仅筛选出一组变量用于最终的模型拟合，这通常导致未选择的部分有用的变量因为筛选阈值的原因最终不能用于模型生成。因此，需要改进的模型生成方案。
技术实现思路
为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于变量分组的模型生成方法、模型生成装置和电子设备，其可以基于预设标准筛选变量，并将筛选的变量聚类为不同分组以用于模型生成，从而提高了数据利用率和模型的鲁棒性。根据本申请的一方面，提供了一种基于变量分组的模型生成方法，包括：步骤1：获取包含多个变量的数据集；步骤2：计算所述多个变量中的每个变量的预定参数；步骤3：基于所述预定参数的大小对所述多个变量进行排序；步骤4：获取所述多个...

【技术保护点】
1.一种基于变量分组的模型生成方法，包括：/n步骤1：获取包含多个变量的数据集；/n步骤2：计算所述多个变量中的每个变量的预定参数；/n步骤3：基于所述预定参数的大小对所述多个变量进行排序；/n步骤4：获取所述多个变量中的第一变量；/n步骤5：计算所述第一变量与其余变量的相关系数；/n步骤6：删除所述相关系数大于第一阈值的变量以获得相对于所述第一变量的初始变量集；/n步骤7：计算所述初始变量集中的最后变量的方差膨胀因子值；/n步骤8：响应于所述方差膨胀因子值大于第二阈值从所述初始变量集中删除所述最后变量和响应于所述方差膨胀因子小于第二阈值在所述初始变量集中保留所述最后变量；/n步骤9：针对所述初始变量集中的每个变量重复上述步骤7和步骤8以获得相对于所述第一变量的第一变量集；/n步骤10：针对所述多个变量中所述第一变量集以外的变量，重复所述步骤3到所述步骤9，以获得多个变量集；以及/n步骤11：基于每个变量集生成模型。/n

【技术特征摘要】
1.一种基于变量分组的模型生成方法，包括：
步骤1：获取包含多个变量的数据集；
步骤2：计算所述多个变量中的每个变量的预定参数；
步骤3：基于所述预定参数的大小对所述多个变量进行排序；
步骤4：获取所述多个变量中的第一变量；
步骤5：计算所述第一变量与其余变量的相关系数；
步骤6：删除所述相关系数大于第一阈值的变量以获得相对于所述第一变量的初始变量集；
步骤7：计算所述初始变量集中的最后变量的方差膨胀因子值；
步骤8：响应于所述方差膨胀因子值大于第二阈值从所述初始变量集中删除所述最后变量和响应于所述方差膨胀因子小于第二阈值在所述初始变量集中保留所述最后变量；
步骤9：针对所述初始变量集中的每个变量重复上述步骤7和步骤8以获得相对于所述第一变量的第一变量集；
步骤10：针对所述多个变量中所述第一变量集以外的变量，重复所述步骤3到所述步骤9，以获得多个变量集；以及
步骤11：基于每个变量集生成模型。

2.根据权利要求1所述的基于变量分组的模型生成方法，其中，所述预定参数用于表示所述变量的区分能力，且包括以下的其中之一：基尼指数，KS值，ROC值。

3.根据权利要求2所述的基于变量分组的模型生成方法，其中，基于所述预定参数的大小对所述多个变量进行排序包括：
基于所述每个变量的基尼指数的绝对值的大小，按照从大到小的顺序对所述多个变量进行排序。

4.根据权利要求1所述的基于变量分组的模型生成方法，其中，基于每个变量集生成模型包括：
针对每个变量集生成多个分类器；以及
以集成方法将所述多个分类器集成为最终分类器。

5.根据权利要求1所述的基于变量分组的模型生成方法，其中，获取包含多个变量的数据集包括：
获取初始数据集；
确定所述初始数据集的大小是否大于第三阈值；
响应于所述初始数据集的大小大于所述第三阈值，将所述初始数据集划分为训练数据集和测试数据集；以及
将所述训练数据集设置为所述包含多个变量的数据集。

6.一种基于变量分组的模型生成装置，包括：
数据获取单元，用于获取包含多个变量的数据集；
参数计算单元，用于计算所述多个变量中的...

【专利技术属性】
技术研发人员：刘志玲，党亚瑞，李莉，
申请(专利权)人：中科聚信信息技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人