一种自动化特征工程信用风险评价系统及方法技术方案

技术编号:32333286 阅读:16 留言:0更新日期:2022-02-16 18:40
本发明专利技术提供了一种自动化特征工程信用风险评价系统及方法,属于计算机领域。本发明专利技术系统包括原始特征提取模块、新特征衍生模块、新特征检验模块、特征自动生成模块以及客户信用风险分类模型。本发明专利技术方法包括:采集客户数据提取原始特征,构造自定义转换函数衍生新特征,构造校验函数检验新特征,自动化生成特征,构造客户信用分类模型,按特征集生成样本训练分类模型,利用训练好的模型对客户数据进行分类。本发明专利技术所构建的信用评分卡模型,更具有可解释的具有因果关系的自动化特征,在建模时间上提升了百分之五十以上,并且模型分类效果更加显著。加显著。加显著。

【技术实现步骤摘要】
一种自动化特征工程信用风险评价系统及方法


[0001]本专利技术涉及计算机、大数据挖掘以及信用评分卡模型等技术,涉及自动化生成因果关系特征在信用评分卡模型的应用,具体涉及一种自动化特征工程信用风险评价系统及方法。

技术介绍

[0002]信用评分卡模型是近年来兴起的一种为了保障银行和其他金融部门的金融安全而设立的一种关于人身金融权限的划定模型,是进行风险管控的一种决策工具。该模型指根据客户的信用历史资料,对客户信用行为数据进行分析挖掘,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的信用分数,来决定客户所可以持有的金额权限,从而保证还款等业务的安全性。而随着在现代社会和公司中,贷款,信用卡的作用日渐突出,信用评分卡模型愈发重要,发展前景不可估量。
[0003]在传统金融背景中,建立一个标准信用评分卡模型有时会需要输入数百个特征变量;若利用专家人工构造特征的方法,针对另外一个应用场景则需要重新进行特征工程工作,其中有很大一部分可能是重复性工作,这导致了大量的人工成本和时间成本浪费,影响模型开发和运营效率;而且这种方法受限于人工经验,可能会遗漏部分有效特征。因此,如何有效利用和复用知识,减少人工和时间成本,自动生成高效用和全方面的特征,对于标准信用评分卡模型的开发来说意义重大。
[0004]近年来随着机器学习和深度学习兴起,很多金融机构开始尝试使用非线性模型或神经网络等黑盒模型进行预测,但是在传统金融场景下对模型的输出结果要求可解释、可回溯,大部分非线性模型没办法对输入特征与预测结果建立因果联系,自然也没办法对预测结果进行解释。其次,完成一个信用评分卡模型,一般要构建几百个模型特征,构建模型特征主要专家行业经验,而受限过去经验会难以发现一些非线性但有因果联系的指标,针对不同数据场景还需要重新进行特征工作,不仅费时费力还可能造成遗漏。综上,如何自动生成高效可解释的具有因果关联的特征,对构建可解释、可回溯的信用评分卡模型来说至关重要,是目前需要解决的问题。

技术实现思路

[0005]针对上述问题,本专利技术提供了一种自动化特征工程信用风险评价系统及方法,利用了Copula熵和传递熵加自定义转换函数的技术,对提取的基础特征可进行自动化衍生,构建出的信用评分卡模型更具有可解性与因果关系,并且大大缩短建模时间。
[0006]本专利技术的一种自动化特征工程信用风险评价方法,包括如下步骤:
[0007]步骤1,采集客户数据,提取原始特征加入特征集合;每个客户对应一个样本,设置样本生成方式;
[0008]步骤2,设计自定义转换函数,根据特征集合的特征衍生新的特征;
[0009]所述自定义转换函数根据工作域不同,分为三类:映射类转换函数,聚合类转换函
数,时间窗口类转换函数;其中,映射类转换函数将单个特征或多个特征输入自定义的映射函数生成新特征;所述的映射函数包括对数变换函数、差分运算函数、高斯Copula函数;聚合类转换函数将单个特征的多组数据进行聚合类计算,生成新特征;时间窗口类转换函数是利用滑动时间窗口的概念,对单个特征的数据在多个时间窗口进行操作;
[0010]步骤3,构造检验评价函数,对衍生的特征进行检验;
[0011]检验包括相关性检验和因果性检验;其中,采取Copula熵进行相关性检验,采取传递熵进行因果性检验;若新特征通过Copula熵和传递熵的检验,加入特征集合,否则,对新特征,结合特征集合中特征,重新利用步骤2的自定义转换函数,进行衍生;
[0012]步骤4,生成最终特征集合,对客户数据按照该特征集合提取特征数据,生成样本;
[0013]步骤5,选取逻辑回归模型作为客户信用风险分类模型,训练该模型;对客户信用风险评价时,按照最终特征集合提取客户数据,输入训练好的模型,获取客户信用风险分类结果。
[0014]相应地,本专利技术提供的一种自动化特征工程信用风险评价系统,包括如下模块:
[0015]原始特征提取模块,用于从采集的客户数据中提取数据库字段,获取原始特征并存入特征集合;
[0016]新特征衍生模块,用于对特征集合中的特征依据自定义转换函数衍生新特征;
[0017]新特征检验模块,对新特征进行相关性检验和因果性检验;其中,采取Copula熵进行相关性检验,采取传递熵进行因果性检验;
[0018]特征自动生成模块,用于调用新特征衍生模块和新特征检验模块,自动生成新特征,将通过相关性检验和因果性检验的新特征存入特征集合,对未通过检验的新特征,结合特征集合中特征,重新利用新特征衍生模型衍生新特征,再利用新特征检验模块检验;
[0019]客户信用风险分类模型,采用逻辑回归模型进行客户信用风险分类,模型的输入是依据特征集合获得的用户数据,输出为客户信用风险分类结果。
[0020]相对于现有技术,本专利技术的优点与积极效果在于:本专利技术方法和系统,所构建的信用评分卡模型更具有可解释的具有因果关系的自动化特征工程,并经过试验验证,在建模时间上提升了百分之五十以上,并且模型分类效果更加显著。
附图说明
[0021]图1是本专利技术的自动化特征工程信用风险评价方法的整体流程图;
[0022]图2是本专利技术使用映射转换函数衍生输入特征的示例图;
[0023]图3是本专利技术使用聚合转换函数衍生输入特征的示例图;
[0024]图4是本专利技术使用时间窗口方式函数衍生输入特征的示例图;
[0025]图5是本专利技术自动化特征生成的流程示意图;
[0026]图6是本专利技术方法与现有方法在同一数据集上获得的分类模型的ROC性能对比图;
[0027]图7是本专利技术方法与专家经验特征工程方法在特征生成时间上的对比图;
[0028]图8是本专利技术方法与专家经验特征工程方法在特征生成数量与特征覆盖率的示意图。
具体实施方式
[0029]下面将结合附图和实施例对本专利技术作进一步的详细说明。
[0030]如图1所示,本专利技术的自动化特征工程信用风险评价方法包括如下六个步骤。
[0031]步骤一,定义样本与构建原始特征。
[0032]首先了解客群特征,在保证通过率的同时,以降低信贷逾期率为目标导向。需要确定建模样本的观察期及表现期、好坏样本定义、及抽样方法等。同时对采集的客户数据,构建原始特征,并加入特征集合中。
[0033]在信贷业务场景下,样本分为好坏两种类别。好样本为无逾期客户,在能接受一定程度的逾期基础上,为了提高利润,可以适当把好客户标准放宽到逾期7天以内。坏样本通常为逾期大于30天的客户,根据能接受的坏账程度,也可以收紧到逾期15。一般情况下,需要客户一个完整的账期才能定义好坏,大多数信贷表现是以12个月为一个账期,所以表现期通常为12个月。根据表现期客户的信贷表现来判断客户是好样本还是坏样本。观察期视所构造的特征而有所变化,通常为了保证客户的行为的稳定性所构造的特征观察期不会小于3个月,同时为了保证特征的时效性,观察期不会大于21个月。获取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动化特征工程信用风险评价方法,其特征在于,包括如下步骤:步骤1,采集客户数据,提取原始特征加入特征集合;每个客户对应一个样本,设置样本生成方式;步骤2,构造自定义转换函数,根据特征集合的特征衍生新的特征;所述自定义转换函数根据工作域不同,分为三类:映射类转换函数,聚合类转换函数,时间窗口类转换函数;其中,映射类转换函数将单个特征或多个特征输入自定义的映射函数生成新特征;所述的映射函数包括对数变换函数、差分运算函数、高斯Copula函数;聚合类转换函数将单个特征的多组数据进行聚合类计算,生成新特征;时间窗口类转换函数是利用滑动时间窗口的概念,对单个特征的数据在多个时间窗口进行操作;步骤3,构造检验函数,对衍生的特征进行检验;检验包括相关性检验和因果性检验;其中,采取Copula熵进行相关性检验,采取传递熵进行因果性检验;若新特征通过Copula熵和传递熵的检验,加入特征集合,否则,对新特征,结合特征集合中特征,重新利用步骤2的自定义转换函数,进行衍生;步骤4,生成最终特征集合,对客户数据按照该特征集合提取特征数据,生成样本;步骤5,选取逻辑回归模型作为客户信用风险分类模型,训练该模型;对客户信用风险评价时,按照最终特征集合提取客户数据,输入训练好的模型,获取客户信用风险分类结果。2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,所采集的客户数据包括人行征信、银行流水、税务信息和开票信息,根据记载客户数据的数据库中的原始字段生成原始特征。3.根据权利要求1所述的方法,其特征在于,所述的步骤1中,样本生成方式包括:确定样本的观察期及表现期,设置好坏两种样本;好样本为无逾期客户,设置逾期7天内的客户也为好样本;坏样本为逾期客户,设置逾期大于15天的客户为坏养本;观察期设置为至少3个月,至多21个月;表现期设置为12个月;根据表现期客户的信贷表现来判断客户是好样本还是坏样本;对客户获取观察期内的客户数据。4.根据权利要求1所述的方法,其特征在于,所述的步骤3中,对未通过Copula熵和传递熵检验的特征,...

【专利技术属性】
技术研发人员:孔祥永王浩袁伟蔡明
申请(专利权)人:北京道口金科科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1