交叉因子生成方法、交叉因子生成装置和电子设备制造方法及图纸

技术编号:26793725 阅读:12 留言:0更新日期:2020-12-22 17:09
本申请涉及一种交叉因子生成方法、交叉因子生成装置和电子设备。该交叉因子生成方法包括:根据样本分布分析结果对样本数据进行行采样以获得至少一个子样本;基于特征变量列表的含义对样本数据进行列采样以获得至少一个特征变量子集;配对至少一个子样本和至少一个特征变量子集以获得至少一个配对样本集;针对每一配对样本集生成两层决策树;以及将每一决策树设置为候选交叉因子。这样,可以通过基于定量分析的数据挖掘获取交叉因子,从而提高了交叉因子获取的深度和效率。

【技术实现步骤摘要】
交叉因子生成方法、交叉因子生成装置和电子设备
本申请总的来说涉及数据处理领域,且更为具体地,涉及一种交叉因子方法、交叉因子生成装置和电子设备。
技术介绍
信用评分模型广泛用于信贷信用风险领域,特别是在零售信贷风险管理实践中,信用评分具有关键作用。具体地,在信贷申请阶段,通过基于申请评分的策略实现自动决策;在贷后管理阶段,可以使用行为评分及催收评分设计客户管理、预警以及催收策略。基于信用评分的决策机制可以帮助信用风险管理人员高效、客观的管理信贷业务。不管是申请评分模型、行为评分模型还是催收评分模型,在开发过程中,预测变量的设计对于模型最终表现起到非常重要的作用。合理高效的变量设计,能够显著地提高模型开发效率以及模型表现效果。交叉因子(interactionfactor)相对于单因子具有更好的性能,但是,交叉因子的设计非常困难,传统的交叉因子发现机制主要依赖于业务经验,且效率较低,导致很多时候只使用单因子进行模型开发,因此不能充分发掘数据蕴含的信息。因此,需要改进的交叉因子生成机制。
技术实现思路
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种交叉因子生成方法、交叉因子生成装置和电子设备,其可以通过基于定量分析的数据挖掘获取交叉因子,从而提高了交叉因子获取的深度和效率。根据本申请的一方面,提供了一种交叉因子生成方法,包括:根据样本分布分析结果对样本数据进行行采样以获得至少一个子样本;基于特征变量列表的含义对所述样本数据进行列采样以获得至少一个特征变量子集;配对所述至少一个子样本和所述至少一个特征变量子集以获得至少一个配对样本集;针对每一配对样本集生成两层决策树;以及,将每一决策树设置为候选交叉因子。在上述交叉因子生成方法中,根据样本分布分析结果对样本数据进行行采样以获得至少一个子样本包括以下的至少其中之一:响应于所述样本数据的样本量小于第一数目阈值,采用放回方式对所述样本数据进行采样;响应于质量低于预定质量标准的样本数目小于第二数目阈值,保留全部质量低于所述预定质量标准的样本,并对质量高于所述预定质量标准的样本采用不放回方式进行采样;以及,响应于质量低于预定质量标准的样本和质量高于所述预定质量标准的样本的数目都大于所述第二数目阈值,采用分层不放回方式进行采样。在上述交叉因子生成方法中,基于特征变量列表的含义对所述样本数据进行列采样以获得至少一个特征变量子集包括以下的至少其中之一:响应于特征变量能够粗分大类,按照分层随机的方式进行采样;以及,响应于特征变量不能够粗分大类,按照简单随机的方式进行采样。在上述交叉因子生成方法中,针对每一配对样本集生成两层决策树包括:针对每一配对样本集采用CHAID算法生成两层决策树,所述每一决策树设置为全样本的一个交叉因子。在上述交叉因子生成方法中,针对每一配对样本集采用CHAID算法生成两层决策树包括:确定所述特征变量的第一分组的样本数是否小于第三数目阈值;以及,响应于所述第一分组的样本数小于第三数目阈值,将所述第一分组合并到逻辑相邻的最相似的分组;其中,所述逻辑相邻的分组是对于次序型变量在次序上相邻的分组,和对于分类型变量的任意分组;所述最相似的分组是两个分组的p值最大的分组。在上述交叉因子生成方法中,将每一决策树设置为候选交叉因子之后进一步包括:在全样本上计算所述候选交叉因子的区分能力;确定所述候选交叉因子的区分能力是否大于预定区分阈值;以及,响应于所述候选交叉因子的区分能力大于所述预定区分阈值,将所述候选交叉因子设置为初选交叉因子。在上述交叉因子生成方法中,将所述候选交叉因子设置为初选交叉因子进一步包括:确定所述初选交叉因子是否与业务逻辑矛盾;以及,响应于所述初选交叉因子不与业务矛盾逻辑,将所述初选交叉因子设置为最终交叉因子。根据本申请的又一方面,提供了一种交叉因子生成装置,包括:行采样单元,用于根据样本分布分析结果对样本数据进行行采样以获得至少一个子样本;列采样单元,用于基于特征变量列表的含义对所述样本数据进行列采样以获得至少一个特征变量子集;配对单元,用于配对所述至少一个子样本和所述至少一个特征变量子集以获得至少一个配对样本集;决策树单元,用于针对每一配对样本集生成两层决策树;以及,设置单元,用于将每一决策树设置为候选交叉因子。在上述交叉因子生成装置中,所述行采样单元用于以下的至少其中之一:响应于所述样本数据的样本量小于第一数目阈值,采用放回方式对所述样本数据进行采样;响应于质量低于预定质量标准的样本数目小于第二数目阈值,保留全部质量低于所述预定质量标准的样本,并对质量高于所述预定质量标准的样本采用不放回方式进行采样;以及,响应于质量低于预定质量标准的样本和质量高于所述预定质量标准的样本的数目都大于所述第二数目阈值,采用分层不放回方式进行采样。在上述交叉因子生成装置中,所述列采样单元用于以下的至少其中之一:响应于特征变量能够粗分大类,按照分层随机的方式进行采样;以及,响应于特征变量不能够粗分大类,按照简单随机的方式进行采样。在上述交叉因子生成装置中,所述决策树单元用于:针对每一配对样本集采用CHAID算法生成两层决策树,所述每一决策树设置为全样本的一个交叉因子。在上述交叉因子生成装置中,所述决策树单元用于:确定所述特征变量的第一分组的样本数是否小于第三数目阈值;以及,响应于所述第一分组的样本数小于第三数目阈值,将所述第一分组合并到逻辑相邻的最相似的分组;其中,所述逻辑相邻的分组是对于次序型变量在次序上相邻的分组,和对于分类型变量的任意分组;所述最相似的分组是两个分组的p值最大的分组。在上述交叉因子生成装置中,进一步包括初选单元,所述初选单元用于在将每一决策树设置为候选交叉因子之后:在全样本上计算所述候选交叉因子的区分能力;确定所述候选交叉因子的区分能力是否大于预定区分阈值;以及,响应于所述候选交叉因子的区分能力大于所述预定区分阈值,将所述候选交叉因子设置为初选交叉因子。在上述交叉因子生成装置中,进一步包括终选单元,所述终选单元用于在将所述候选交叉因子设置为初选交叉因子之后:确定所述初选交叉因子是否与业务逻辑矛盾;以及,响应于所述初选交叉因子不与业务矛盾逻辑,将所述初选交叉因子设置为最终交叉因子。根据本申请的又一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的交叉因子生成方法。本申请提供的交叉因子生成方法、交叉因子生成装置和电子设备可以通过基于定量分析的数据挖掘获取交叉因子,从而提高了交叉因子获取的深度和效率。附图说明通过阅读下文优选的具体实施方式中的详细描述,本申请各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。显而易见地,下面描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以本文档来自技高网...

【技术保护点】
1.一种交叉因子生成方法,包括:/n根据样本分布分析结果对样本数据进行行采样以获得至少一个子样本;/n基于特征变量列表的含义对所述样本数据进行列采样以获得至少一个特征变量子集;/n配对所述至少一个子样本和所述至少一个特征变量子集以获得至少一个配对样本集;/n针对每一配对样本集生成两层决策树;以及/n将每一决策树设置为候选交叉因子。/n

【技术特征摘要】
1.一种交叉因子生成方法,包括:
根据样本分布分析结果对样本数据进行行采样以获得至少一个子样本;
基于特征变量列表的含义对所述样本数据进行列采样以获得至少一个特征变量子集;
配对所述至少一个子样本和所述至少一个特征变量子集以获得至少一个配对样本集;
针对每一配对样本集生成两层决策树;以及
将每一决策树设置为候选交叉因子。


2.根据权利要求1所述的交叉因子生成方法,其中,根据样本分布分析结果对样本数据进行行采样以获得至少一个子样本包括以下的至少其中之一:
响应于所述样本数据的样本量小于第一数目阈值,采用放回方式对所述样本数据进行采样;
响应于质量低于预定质量标准的样本数目小于第二数目阈值,保留全部质量低于所述预定质量标准的样本,并对质量高于所述预定质量标准的样本采用不放回方式进行采样;以及
响应于质量低于预定质量标准的样本和质量高于所述预定质量标准的样本的数目都大于所述第二数目阈值,采用分层不放回方式进行采样。


3.根据权利要求1所述的交叉因子生成方法,其中,基于特征变量列表的含义对所述样本数据进行列采样以获得至少一个特征变量子集包括以下的至少其中之一:
响应于特征变量能够粗分大类,按照分层随机的方式进行采样;以及
响应于特征变量不能够粗分大类,按照简单随机的方式进行采样。


4.根据权利要求1所述的交叉因子生成方法,其中,针对每一配对样本集生成两层决策树包括:
针对每一配对样本集采用CHAID算法生成两层决策树,所述每一决策树对应于全样本的一个交叉因子。


5.根据权利要求4所述的交叉因子生成方法,其中,针对每一配对样本集采用CHAID算法生成两层决策树包括:
确定所述特征变量的第一分组的样本数是否小于第三数目阈值;以及
响应于所述第一分组的样本数小于第三数目阈值,将所述第一分组合并到逻辑相邻的最相似的分组;
其中,所述逻辑相邻的分组是对于次序型变量在次序上相邻的分组,和对于分类型变量的任意分组;
所述最相似的分组是两个分组的p值最大的分组。


6.根据权利要求1所述的交叉因子生成方法,其中,将每一决策树设置为候选交叉因子之后进一步包括:
在全样本上计算所述候选交叉因子的区分能力;
确定所述候选交叉因子的区分能力是否大于预定区分阈值;以及
响应于所述候选交叉因子的区分能力大于所述预定区分阈值,将所述候选交叉因子设置为初选交叉因子。


7.根据权利要求6所述的交叉因子生成方法,其中,将所述候选交叉因子设置为初选交叉因子进一步包括:
确定所述初选交叉因子是否与业务逻辑矛盾;以及
响应于所述初选交叉因子不与业务矛盾逻辑,将所述初选交叉因子设置为最终交叉因子。


8.一种交叉因子生成装置,包括:
行采样单元,用于根据样本分布分析结果对样本数据进行...

【专利技术属性】
技术研发人员:刘志玲党亚瑞李莉
申请(专利权)人:中科聚信信息技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1