交叉因子生成方法、交叉因子生成装置和电子设备制造方法及图纸

技术编号：26793725 阅读：26 留言：0更新日期：2020-12-22 17:09

本申请涉及一种交叉因子生成方法、交叉因子生成装置和电子设备。该交叉因子生成方法包括：根据样本分布分析结果对样本数据进行行采样以获得至少一个子样本；基于特征变量列表的含义对样本数据进行列采样以获得至少一个特征变量子集；配对至少一个子样本和至少一个特征变量子集以获得至少一个配对样本集；针对每一配对样本集生成两层决策树；以及将每一决策树设置为候选交叉因子。这样，可以通过基于定量分析的数据挖掘获取交叉因子，从而提高了交叉因子获取的深度和效率。

全部详细技术资料下载

【技术实现步骤摘要】
交叉因子生成方法、交叉因子生成装置和电子设备
本申请总的来说涉及数据处理领域，且更为具体地，涉及一种交叉因子方法、交叉因子生成装置和电子设备。
技术介绍
信用评分模型广泛用于信贷信用风险领域，特别是在零售信贷风险管理实践中，信用评分具有关键作用。具体地，在信贷申请阶段，通过基于申请评分的策略实现自动决策；在贷后管理阶段，可以使用行为评分及催收评分设计客户管理、预警以及催收策略。基于信用评分的决策机制可以帮助信用风险管理人员高效、客观的管理信贷业务。不管是申请评分模型、行为评分模型还是催收评分模型，在开发过程中，预测变量的设计对于模型最终表现起到非常重要的作用。合理高效的变量设计，能够显著地提高模型开发效率以及模型表现效果。交叉因子(interactionfactor)相对于单因子具有更好的性能，但是，交叉因子的设计非常困难，传统的交叉因子发现机制主要依赖于业务经验，且效率较低，导致很多时候只使用单因子进行模型开发，因此不能充分发掘数据蕴含的信息。因此，需要改进的交叉因子生成机制。专利技...

【技术保护点】
1.一种交叉因子生成方法，包括：/n根据样本分布分析结果对样本数据进行行采样以获得至少一个子样本；/n基于特征变量列表的含义对所述样本数据进行列采样以获得至少一个特征变量子集；/n配对所述至少一个子样本和所述至少一个特征变量子集以获得至少一个配对样本集；/n针对每一配对样本集生成两层决策树；以及/n将每一决策树设置为候选交叉因子。/n

【技术特征摘要】
1.一种交叉因子生成方法，包括：
根据样本分布分析结果对样本数据进行行采样以获得至少一个子样本；
基于特征变量列表的含义对所述样本数据进行列采样以获得至少一个特征变量子集；
配对所述至少一个子样本和所述至少一个特征变量子集以获得至少一个配对样本集；
针对每一配对样本集生成两层决策树；以及
将每一决策树设置为候选交叉因子。

2.根据权利要求1所述的交叉因子生成方法，其中，根据样本分布分析结果对样本数据进行行采样以获得至少一个子样本包括以下的至少其中之一：
响应于所述样本数据的样本量小于第一数目阈值，采用放回方式对所述样本数据进行采样；
响应于质量低于预定质量标准的样本数目小于第二数目阈值，保留全部质量低于所述预定质量标准的样本，并对质量高于所述预定质量标准的样本采用不放回方式进行采样；以及
响应于质量低于预定质量标准的样本和质量高于所述预定质量标准的样本的数目都大于所述第二数目阈值，采用分层不放回方式进行采样。

3.根据权利要求1所述的交叉因子生成方法，其中，基于特征变量列表的含义对所述样本数据进行列采样以获得至少一个特征变量子集包括以下的至少其中之一：
响应于特征变量能够粗分大类，按照分层随机的方式进行采样；以及
响应于特征变量不能够粗分大类，按照简单随机的方式进行采样。

4.根据权利要求1所述的交叉因子生成方法，其中，针对每一配对样本集生成两层决策树包括：
针对每一配对样本集采用CHAID算法生成两层决策树，所述每一决策树对应于全样本的一个交叉因子。

5.根据权利要求4所述的交叉因子生成方法，其中，针对每一配对样本集采用CHAID算法生成两层决策树包括：
确定所述特征变量的第一分组的样本数是否小于第三数目阈值；以及
响应于所述第一分组的样本数小于第三数目阈值，将所述第一分组合并到逻辑相邻的最相似的分组；
其中，所述逻辑相邻的分组是对于次序型变量在次序上相邻的分组，和对于分类型变量的任意分组；
所述最相似的分组是两个分组的p值最大的分组。

6.根据权利要求1所述的交叉因子生成方法，其中，将每一决策树设置为候选交叉因子之后进一步包括：
在全样本上计算所述候选交叉因子的区分能力；
确定所述候选交叉因子的区分能力是否大于预定区分阈值；以及
响应于所述候选交叉因子的区分能力大于所述预定区分阈值，将所述候选交叉因子设置为初选交叉因子。

7.根据权利要求6所述的交叉因子生成方法，其中，将所述候选交叉因子设置为初选交叉因子进一步包括：
确定所述初选交叉因子是否与业务逻辑矛盾；以及
响应于所述初选交叉因子不与业务矛盾逻辑，将所述初选交叉因子设置为最终交叉因子。

8.一种交叉因子生成装置，包括：
行采样单元，用于根据样本分布分析结果对样本数据进行...

【专利技术属性】
技术研发人员：刘志玲，党亚瑞，李莉，
申请(专利权)人：中科聚信信息技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人