准入模型的变量处理方法及装置制造方法及图纸

技术编号:28297292 阅读:9 留言:0更新日期:2021-04-30 16:22
本发明专利技术提供了一种准入模型的变量处理方法及装置,可用于金融领域或其他领域。所述方法包括:根据准入模型对应的历史数据生成数据宽表;数据宽表中包括n个变量,n为大于1的正整数;根据预设的抽样比例对数据宽表中的变量进行抽样,将抽样后的变量输入预设的随机森林模型中,得到各变量对应的重要性度量值;根据重要性度量值确定变量从高到低的重要性排序,从重要性排序中选取前m个变量作为准入模型中的逻辑回归模型的输入变量;其中,m为小于n的正整数。本发明专利技术通过随机森林模型进行变量筛选,可以大大提升变量后续处理的效率,减少人为进行的变量挑选,从而提升准入模型整体流程的工作效率,提高业务处理的整体时效,节约大量的服务器资源。

【技术实现步骤摘要】
准入模型的变量处理方法及装置
本专利技术涉及个人信贷准入模型
,尤指一种准入模型的变量处理方法及装置。
技术介绍
客户的准入模型一直是个人信贷领域的重中之重,由于该模型要求对客户的可解释性非常高,所以逻辑回归模型一直是大家的不二之选。然而该模型在兼顾可解释性的同时就必须在数据方面做更多的处理,从准入模型建立之初接收数据开始,先后会经历数据类型的处理、数据的缺失值单一值计算等多种处理,再调用逻辑回归模型。而不管最开始的维度是几百个还是几千上万个,最后逻辑回归留下的大都是二十个以内,所以如果前期的每个步骤都是在全量的维度上进行的话,无疑会增加很多不必要的计算,并且会浪费很多资源和时间。因此,如何在准入模型建立之初缩减变量个数,同时又保留重要性高的变量不会对模型结果造成较大影响甚至有所提升,直接决定后期变量处理时能否减少计算、节约资源和提升效率。
技术实现思路
针对现有技术中的问题,本专利技术实施例的主要目的在于提供一种准入模型的变量处理方法及装置,缩减准入模型中后期需要处理变量的个数,从而减少计算量,以提升变量处理的效率和节约资源。为了实现上述目的,本专利技术实施例提供一种准入模型的变量处理方法,所述方法包括:根据准入模型对应的历史数据生成数据宽表;其中,所述数据宽表中包括n个变量,n为大于1的正整数;根据预设的抽样比例对所述数据宽表中的变量进行抽样,将抽样后的变量输入预设的随机森林模型中,得到各变量对应的重要性度量值;根据所述重要性度量值确定所述变量从高到低的重要性排序,从所述重要性排序中选取前m个变量作为准入模型中的逻辑回归模型的输入变量;其中,m为小于n的正整数。可选的,在本专利技术一实施例中,所述从所述重要性排序中选取前m个变量作为准入模型中的逻辑回归模型的输入变量包括:从所述重要性排序中选取前m个变量,对m个变量进行变量后续处理,将经过变量后续处理的变量作为准入模型中的逻辑回归模型的输入变量。可选的,在本专利技术一实施例中,所述变量后续处理包括:缺失值处理、单一值处理、缺失值填补处理、连续型及离散型变量区分处理、计算WOE值及IV值、计算变量的两两相关性及多重共线性,以及单变量分析处理。可选的,在本专利技术一实施例中,所述根据预设的抽样比例对所述数据宽表中的变量进行抽样,将抽样后的变量输入预设的随机森林模型中,得到各变量对应的重要性度量值包括:根据预设的抽样比例,对所述数据宽表中的变量进行i次有放回的抽样,重复k次抽样,得到k个训练样本以及与训练样本一一对应的k个袋外数据;其中,i及k为大于1的正整数;利用所述训练样本对所述随机森林模型进行训练,生成与所述训练样本对应的k棵决策树;利用所述决策树,根据对应的袋外数据计算各变量的重要性度量值。可选的,在本专利技术一实施例中,所述利用所述决策树,根据对应的袋外数据计算各变量的重要性度量值包括:随机选取所述数据宽表中的一个变量作为待测变量,利用各所述决策树对对应的袋外数据进行计算,得到所述待测变量的第一误差值;对各所述袋外数据中的所述待测变量随机加入噪声干扰,利用各所述决策树对对应的袋外数据进行计算,得到加入噪声干扰后的所述待测变量的第二误差值;根据所述第一误差值及所述第二误差值,得到所述待测变量的重要性度量值;重新随机选取所述数据宽表中的一个变量作为新的待测变量,利用所述决策树及袋外数据计算新的待测变量的重要性度量值,直至得到所述数据宽表中所有变量的重要性度量值。本专利技术实施例还提供一种准入模型的变量处理装置,所述装置包括:数据宽表模块,用于根据准入模型对应的历史数据生成数据宽表;其中,所述数据宽表中包括n个变量,n为大于1的正整数;重要性度量值模块,用于根据预设的抽样比例对所述数据宽表中的变量进行抽样,将抽样后的变量输入预设的随机森林模型中,得到各变量对应的重要性度量值;变量筛选模块,用于根据所述重要性度量值确定所述变量从高到低的重要性排序,从所述重要性排序中选取前m个变量作为准入模型中的逻辑回归模型的输入变量;其中,m为小于n的正整数。可选的,在本专利技术一实施例中,所述变量筛选模块还用于从所述重要性排序中选取前m个变量,对m个变量进行变量后续处理,将经过变量后续处理的变量作为准入模型中的逻辑回归模型的输入变量。可选的,在本专利技术一实施例中,所述变量后续处理包括:缺失值处理、单一值处理、缺失值填补处理、连续型及离散型变量区分处理、计算WOE值及IV值、计算变量的两两相关性及多重共线性,以及单变量分析处理。可选的,在本专利技术一实施例中,所述重要性度量值模块包括:变量抽样单元,用于根据预设的抽样比例,对所述数据宽表中的变量进行i次有放回的抽样,重复k次抽样,得到k个大小为i的训练样本以及与训练样本一一对应的k个袋外数据;其中,i及k为大于1的正整数;决策树单元,用于利用所述训练样本对所述随机森林模型进行训练,生成与所述训练样本对应的k棵决策树;度量值单元,用于利用所述决策树,根据对应的袋外数据计算各变量的重要性度量值。可选的,在本专利技术一实施例中,所述度量值单元包括:第一误差值子单元,用于随机选取所述数据宽表中的一个变量作为待测变量,利用各所述决策树对对应的袋外数据进行计算,得到所述待测变量的第一误差值;第二误差值子单元,用于对各所述袋外数据中的所述待测变量随机加入噪声干扰,利用各所述决策树对对应的袋外数据进行计算,得到加入噪声干扰后的所述待测变量的第二误差值;度量值子单元,用于根据所述第一误差值及所述第二误差值,得到所述待测变量的重要性度量值;变量选取子单元,用于重新随机选取所述数据宽表中的一个变量作为新的待测变量,利用所述决策树及袋外数据计算新的待测变量的重要性度量值,直至得到所述数据宽表中所有变量的重要性度量值。本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。本专利技术通过随机森林模型进行变量筛选,可以大大提升变量后续处理的效率,减少人为进行的变量挑选,从而提升准入模型整体流程的工作效率,提高业务处理的整体时效,并可节约大量的服务器资源。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一种准入模型的变量处理方法的流程图;图2为本专利技术实施例中信贷领域准入环节的处理流程图;图3为本专利技术实施例中准入模型的变量筛选及后续处理的流程图;图4为本专利技术实施例中建立随机森林模型的流程图;图5为本专利技术实施例中重要性度量值计算的流程图;图6为本专利技术实施例一种准入模型的变量处理装置的结构示意图;图7为本专利技术实施例中本文档来自技高网...

【技术保护点】
1.一种准入模型的变量处理方法,其特征在于,所述方法包括:/n根据准入模型对应的历史数据生成数据宽表;其中,所述数据宽表中包括n个变量,n为大于1的正整数;/n根据预设的抽样比例对所述数据宽表中的变量进行抽样,将抽样后的变量输入预设的随机森林模型中,得到各变量对应的重要性度量值;/n根据所述重要性度量值确定所述变量从高到低的重要性排序,从所述重要性排序中选取前m个变量作为准入模型中的逻辑回归模型的输入变量;其中,m为小于n的正整数。/n

【技术特征摘要】
1.一种准入模型的变量处理方法,其特征在于,所述方法包括:
根据准入模型对应的历史数据生成数据宽表;其中,所述数据宽表中包括n个变量,n为大于1的正整数;
根据预设的抽样比例对所述数据宽表中的变量进行抽样,将抽样后的变量输入预设的随机森林模型中,得到各变量对应的重要性度量值;
根据所述重要性度量值确定所述变量从高到低的重要性排序,从所述重要性排序中选取前m个变量作为准入模型中的逻辑回归模型的输入变量;其中,m为小于n的正整数。


2.根据权利要求1所述的方法,其特征在于,所述从所述重要性排序中选取前m个变量作为准入模型中的逻辑回归模型的输入变量包括:
从所述重要性排序中选取前m个变量,对m个变量进行变量后续处理,将经过变量后续处理的变量作为准入模型中的逻辑回归模型的输入变量。


3.根据权利要求1所述的方法,其特征在于,所述变量后续处理包括:缺失值处理、单一值处理、缺失值填补处理、连续型及离散型变量区分处理、计算WOE值及IV值、计算变量的两两相关性及多重共线性,以及单变量分析处理。


4.根据权利要求1所述的方法,其特征在于,所述根据预设的抽样比例对所述数据宽表中的变量进行抽样,将抽样后的变量输入预设的随机森林模型中,得到各变量对应的重要性度量值包括:
根据预设的抽样比例,对所述数据宽表中的变量进行i次有放回的抽样,重复k次抽样,得到k个大小为i的训练样本以及与训练样本一一对应的k个袋外数据;其中,i及k为大于1的正整数;
利用所述训练样本对所述随机森林模型进行训练,生成与所述训练样本对应的k棵决策树;
利用所述决策树,根据对应的袋外数据计算各变量的重要性度量值。


5.根据权利要求4所述的方法,其特征在于,所述利用所述决策树,根据对应的袋外数据计算各变量的重要性度量值包括:
随机选取所述数据宽表中的一个变量作为待测变量,利用各所述决策树对对应的袋外数据进行计算,得到所述待测变量的第一误差值;
对各所述袋外数据中的所述待测变量随机加入噪声干扰,利用各所述决策树对对应的袋外数据进行计算,得到加入噪声干扰后的所述待测变量的第二误差值;
根据所述第一误差值及所述第二误差值,得到所述待测变量的重要性度量值;
重新随机选取所述数据宽表中的一个变量作为新的待测变量,利用所述决策树及袋外数据计算新的待测变量的重要性度量值,直至得到所述数据宽表中所有变量的重要性度量值。


6.一种准入模型的变量处理装置,其特征在于,所述装置包括:
数据宽表模块,用于根据准入模型对应的历史数据生成数据宽表;其中,所述数...

【专利技术属性】
技术研发人员:高宝梁桥红陈阳阳孙斌华
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1