基于变量分组的模型生成方法、模型生成装置和电子设备制造方法及图纸

技术编号:26793727 阅读:17 留言:0更新日期:2020-12-22 17:09
本申请涉及一种基于变量分组的模型生成方法、模型生成装置和电子设备。该基于变量分组的模型生成方法包括:获取包含多个变量的数据集;计算所述多个变量中的每个变量的预定参数;基于所述预定参数的大小对所述多个变量进行排序;针对所述多个变量,基于变量之间的相关系数和变量的方差膨胀因子值将全部变量划分为多个彼此不同的变量集;以及,基于每个变量集生成模型。这样,可以基于预设标准筛选变量,并将筛选的变量聚类为不同分组以用于模型生成,从而提高了数据利用率和模型的鲁棒性。

【技术实现步骤摘要】
基于变量分组的模型生成方法、模型生成装置和电子设备
本申请总的来说涉及数据处理领域,且更为具体地,涉及一种基于变量分组的模型生成方法、模型生成装置和电子设备。
技术介绍
信用评分模型广泛用于信贷信用风险领域,特别是在零售信贷风险管理实践中,信用评分具有关键作用和广泛应用。具体地,在信贷申请阶段,通过基于申请评分的策略实现自动决策;在贷后管理阶段,可以使用行为评分及催收评分设计客户管理、预警以及催收策略。基于信用评分的决策机制可以帮助信用风险管理人员高效、客观的管理信贷业务。不管是申请评分模型、行为评分模型还是催收评分模型,其目的在于能够根据特征变量来生成模型,且在模型生成过程中,涉及到变量降维,或者说变量筛选过程。传统上,生成模型的过程中的变量筛选过程仅筛选出一组变量用于最终的模型拟合,这通常导致未选择的部分有用的变量因为筛选阈值的原因最终不能用于模型生成。因此,需要改进的模型生成方案。
技术实现思路
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于变量分组的模型生成方法、模型生成装置和电子设备,其可以基于预设标准筛选变量,并将筛选的变量聚类为不同分组以用于模型生成,从而提高了数据利用率和模型的鲁棒性。根据本申请的一方面,提供了一种基于变量分组的模型生成方法,包括:步骤1:获取包含多个变量的数据集;步骤2:计算所述多个变量中的每个变量的预定参数;步骤3:基于所述预定参数的大小对所述多个变量进行排序;步骤4:获取所述多个变量中的第一变量;步骤5:计算所述第一变量与其余变量的相关系数;步骤6:删除所述相关系数大于第一阈值的变量以获得相对于所述第一变量的初始变量集;步骤7:计算所述初始变量集中的最后变量的方差膨胀因子值;步骤8:响应于所述方差膨胀因子值大于第二阈值从所述初始变量集中删除所述最后变量和响应于所述方差膨胀因子小于第二阈值在所述初始变量集中保留所述最后变量;步骤9:针对所述初始变量集中的每个变量重复上述步骤7和步骤8以获得相对于所述第一变量的第一变量集;步骤10:针对所述多个变量中所述第一变量集以外的变量,重复所述步骤3到所述步骤9,以获得多个变量集;以及步骤11:基于每个变量集生成模型。在上述基于变量分组的模型生成方法中,所述预定参数用于表示所述变量的区分能力,且包括以下的其中之一:基尼指数,KS值,ROC值。在上述基于变量分组的模型生成方法中,基于所述预定参数的大小对所述多个变量进行排序包括:基于所述每个变量的基尼指数的绝对值的大小,按照从大到小的顺序对所述多个变量进行排序。在上述基于变量分组的模型生成方法中,基于所述每个变量集生成模型包括:针对每个变量集生成多个分类器;以及,以集成方法将所述多个分类器集成为最终分类器。在上述基于变量分组的模型生成方法中,获取包含多个变量的数据集包括:获取初始数据集;确定所述初始数据集的大小是否大于第三阈值;响应于所述初始数据集的大小大于所述第三阈值,将所述初始数据集划分为训练数据集和测试数据集;以及,将所述训练数据集设置为所述包含多个变量的数据集。根据本申请的另一方面,提供了一种基于变量分组的模型生成装置,包括:数据获取单元,用于获取包含多个变量的数据集;参数计算单元,用于计算所述多个变量中的每个变量的预定参数;变量分组单元,用于执行以下步骤:步骤1:基于所述预定参数的大小对所述多个变量进行排序;步骤2:获取所述多个变量中的第一变量;步骤3:计算所述第一变量与其余变量的相关系数;步骤4:删除所述相关系数大于第一阈值的变量以获得相对于所述第一变量的初始变量集;步骤5:计算所述初始变量集中的最后变量的方差膨胀因子值;步骤6:响应于所述方差膨胀因子值大于第二阈值从所述初始变量集中删除所述最后变量和响应于所述方差膨胀因子小于第二阈值在所述初始变量集中保留所述最后变量;步骤7:针对所述初始变量集中的每个变量重复上述步骤5和步骤6以获得相对于所述第一变量的第一变量集;步骤8:针对所述多个变量中所述第一变量集以外的变量,重复所述步骤1到所述步骤7,以获得多个变量集;以及模型生成单元,用于基于每个变量集生成模型。在上述基于变量分组的模型生成装置中,所述预定参数用于表示所述变量的区分能力,且包括以下的其中之一:基尼指数,KS值,ROC值。在上述基于变量分组的模型生成装置中,基于所述预定参数的大小对所述多个变量进行排序包括:基于所述每个变量的基尼指数的绝对值的大小,按照从大到小的顺序对所述多个变量进行排序。在上述基于变量分组的模型生成装置中,所述模型生成单元用于:针对每个变量集生成多个分类器;以及,以集成方法将所述多个分类器集成为最终分类器。在上述基于变量分组的模型生成装置中,所述数据获取单元用于:获取初始数据集;确定所述初始数据集的大小是否大于第三阈值;响应于所述初始数据集的大小大于所述第三阈值,将所述初始数据集划分为训练数据集和测试数据集;以及,将所述训练数据集设置为所述包含多个变量的数据集。根据本申请的又一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于变量分组的模型生成方法。本申请提供的基于变量分组的模型生成方法、模型生成装置和电子设备,可以基于预设标准筛选变量,并将筛选的变量聚类为不同分组以用于模型生成,从而提高了数据利用率和模型的鲁棒性。附图说明通过阅读下文优选的具体实施方式中的详细描述,本申请各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。显而易见地,下面描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。而且在整个附图中,用相同的附图标记表示相同的部件。图1图示了根据本申请实施例的基于变量分组的模型生成方法的流程图;图2图示了根据本申请实施例的基于变量分组的模型生成方法中基尼指数计算的示意图;图3图示了根据本申请实施例的基于变量分组的模型生成装置的框图;图4图示了根据本申请实施例的电子设备的框图。具体实施方式下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。申请概述如上所述,在传统的模型生成过程中,变量筛选过程仅筛选出一组变量用于最终的模型拟合,这通常导致未选择的有用变量最终不能用于模型生成,从而影响数据利用率,并且影响模型性能。针对该技术问题,本申请的基本构思是提出一种用于基于变量分组的模型生成本文档来自技高网...

【技术保护点】
1.一种基于变量分组的模型生成方法,包括:/n步骤1:获取包含多个变量的数据集;/n步骤2:计算所述多个变量中的每个变量的预定参数;/n步骤3:基于所述预定参数的大小对所述多个变量进行排序;/n步骤4:获取所述多个变量中的第一变量;/n步骤5:计算所述第一变量与其余变量的相关系数;/n步骤6:删除所述相关系数大于第一阈值的变量以获得相对于所述第一变量的初始变量集;/n步骤7:计算所述初始变量集中的最后变量的方差膨胀因子值;/n步骤8:响应于所述方差膨胀因子值大于第二阈值从所述初始变量集中删除所述最后变量和响应于所述方差膨胀因子小于第二阈值在所述初始变量集中保留所述最后变量;/n步骤9:针对所述初始变量集中的每个变量重复上述步骤7和步骤8以获得相对于所述第一变量的第一变量集;/n步骤10:针对所述多个变量中所述第一变量集以外的变量,重复所述步骤3到所述步骤9,以获得多个变量集;以及/n步骤11:基于每个变量集生成模型。/n

【技术特征摘要】
1.一种基于变量分组的模型生成方法,包括:
步骤1:获取包含多个变量的数据集;
步骤2:计算所述多个变量中的每个变量的预定参数;
步骤3:基于所述预定参数的大小对所述多个变量进行排序;
步骤4:获取所述多个变量中的第一变量;
步骤5:计算所述第一变量与其余变量的相关系数;
步骤6:删除所述相关系数大于第一阈值的变量以获得相对于所述第一变量的初始变量集;
步骤7:计算所述初始变量集中的最后变量的方差膨胀因子值;
步骤8:响应于所述方差膨胀因子值大于第二阈值从所述初始变量集中删除所述最后变量和响应于所述方差膨胀因子小于第二阈值在所述初始变量集中保留所述最后变量;
步骤9:针对所述初始变量集中的每个变量重复上述步骤7和步骤8以获得相对于所述第一变量的第一变量集;
步骤10:针对所述多个变量中所述第一变量集以外的变量,重复所述步骤3到所述步骤9,以获得多个变量集;以及
步骤11:基于每个变量集生成模型。


2.根据权利要求1所述的基于变量分组的模型生成方法,其中,所述预定参数用于表示所述变量的区分能力,且包括以下的其中之一:基尼指数,KS值,ROC值。


3.根据权利要求2所述的基于变量分组的模型生成方法,其中,基于所述预定参数的大小对所述多个变量进行排序包括:
基于所述每个变量的基尼指数的绝对值的大小,按照从大到小的顺序对所述多个变量进行排序。


4.根据权利要求1所述的基于变量分组的模型生成方法,其中,基于每个变量集生成模型包括:
针对每个变量集生成多个分类器;以及
以集成方法将所述多个分类器集成为最终分类器。


5.根据权利要求1所述的基于变量分组的模型生成方法,其中,获取包含多个变量的数据集包括:
获取初始数据集;
确定所述初始数据集的大小是否大于第三阈值;
响应于所述初始数据集的大小大于所述第三阈值,将所述初始数据集划分为训练数据集和测试数据集;以及
将所述训练数据集设置为所述包含多个变量的数据集。


6.一种基于变量分组的模型生成装置,包括:
数据获取单元,用于获取包含多个变量的数据集;
参数计算单元,用于计算所述多个变量中的...

【专利技术属性】
技术研发人员:刘志玲党亚瑞李莉
申请(专利权)人:中科聚信信息技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1