当前位置: 首页 > 专利查询>之江实验室专利>正文

基于自动特征挖掘的可解释信贷违约率预测方法、系统技术方案

技术编号:37190953 阅读:24 留言:0更新日期:2023-04-20 22:52
本发明专利技术公开了一种基于自动特征挖掘的可解释信贷违约率预测方法、系统,首先从客户信用资料库中提取每笔贷款的特征数据,并进行预处理;定义自动特征挖掘的操作算子集O和一种自动特征挖掘方法,并通过该操作算子集O得到自动特征集;构建违约率预测模型,并结合全局可解释方法和局部可解释方法,得到通过全局重要性特征排序、基于当前数据库搜索的反事实样本、基于特征扰动和生成模型的虚拟反事实样本,基于此给出可解释信贷违约率预测。本发明专利技术方法使得违约预测模型训练和更新无需专家经验干预,缓解专家经验差异大的问题,节省人力,能够满足审计需求,同时针对一线客户经理给出判断依据和相似判例参考。判断依据和相似判例参考。判断依据和相似判例参考。

【技术实现步骤摘要】
基于自动特征挖掘的可解释信贷违约率预测方法、系统


[0001]本专利技术涉及小样本信贷违约场景的机器学习预测领域,尤其涉及一种基于自动特征挖掘的可解释信贷违约率预测系统。

技术介绍

[0002]在金融风控领域及中小银行进行数字化转型的过程中,由于人力成本及信贷专家经验分布的不一致性,贷中违约预测逐渐从由客户经理人工判断逐渐走向基于大数据和机器学习方法的半自动化专家辅助系统。
[0003]相对CV、NLP等通用场景,信贷违约率预测通常面临着样本极度不平衡的问题,特别对于中小银行,更是面临着小样本和不平衡数据的双重考验。传统银行由于审计等要求,对技术的应用趋于保守,大量落地场景仍停留在基于boosting的集成树模型。同时由于信贷影响个人征信等原因,银行风控系统对于可解释性的要求更高,基于深度学习等的黑盒模型难以在银行场景应用落地,这很大程度上限制了模型的预测能力。因此,在信贷场景中,不仅要考虑模型本身的全局可解释性,也要提供样本级的局部可解释性,以同时满足审计需求和一线客户经理/申请人需求。
[0004]信贷违约预测有时候会面临严本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自动特征挖掘的可解释信贷违约率预测方法,其特征在于,所述方法具体包括以下步骤:(1)从客户信用资料库中提取每笔贷款的特征数据,并对每笔贷款逾期打标签,所述标签为正样本或负样本,并对特征数据进行包括缺失值处理、异常值处理、转换在内的数据清洗。(2)针对步骤(1)数据清洗后的特征数据定义自动特征挖掘的操作算子集O;(3)设定自动特征扩展的终止条件,根据步骤(1)数据清洗后的特征数据进行初始化得到原始特征集,根据预测粒度及步骤(2)定义的操作算子集对原始特征集中进行组合生成、过滤、聚合计算,得到的自动特征集F
final
;(4)构建违约率预测模型,并使用贝叶斯优化方法进行全自动超参优化,得到训练好的违约率预测模型Clf
auto
;(5)基于步骤(4)训练好的违约率预测模型Clf
auto
,使用代理模型的方法SHAP构建全局可解释代理模型,将步骤(3)得到的自动特征集F
final
作为训练样本,输入到全局可解释代理模型中,得到所有训练样本的所有特征的贡献度,并基于该贡献度进行加权平均,得到全局重要性特征排序;(6)将任一笔贷款扩充后的特征数据输入到步骤(4)训练好的违约率预测模型Clf
auto
中,得到该笔贷款预测的违约概率;基于步骤(4)训练好的违约率预测模型Clf
auto
,利用基于搜索的反事实生成方法,得到基于当前数据库搜索的反事实样本;利用生成模型,基于当前样本对可变特征进行扰动,得到基于特征扰动和生成模型的虚拟反事实样本;通过全局重要性特征排序、基于当前数据库搜索的反事实样本、基于特征扰动和生成模型的虚拟反事实样本给出当前样本的局部可解释信贷违约率预测。2.根据权利要求1所述的基于自动特征挖掘的可解释信贷违约率预测方法,其特征在于,所述步骤(2)具体为:步骤(1)数据清洗后得到的特征数据包括数值类、时间类、时序数据、已离散化并哈希编码后的数值类字段和类别类字段;操作算子集O包括针对数值类操作的一元算子、针对数值类操作的二元算子、针对时间类的时序算子、针对已离散化并哈希编码后的数值类字段和类别类字段的特征交叉算子和聚合算子。还根据违约率预测模型粒度,决定是否需要增加聚合算子,所述聚合算子包括差分、最大、最小、平均值等算子。3.根据权利要求1或2所述的基于自动特征挖掘的可解释信贷违约率预测方法,其特征在于,所述步骤(3)具体包括以下子步骤:(3.1)根据步骤(1)数据清洗后的特征数据初始化特征集F
i
={f1,f2,

f
n
},i=0为原始特征集;(3.2)初始化特征生成标记缓存C
f
(3.3)基于步骤(3.1)得到的特征集F
i
训练一个树模型T
i
;(3.4)基于步骤(3.3)构建的树模型T
i
过滤候选特征组合集,并生成新特征候选集在树模型T
i
中森林里的每一颗树的每一条路径上的分裂点特征集中,对所有有效特征组合应用步骤(2)定义的操作算子集O,生成新的候选新特征集每个新特征记录其父节点;如果新特征已经在特征生成标记缓存C
f
中,即新生成特征已经被生成
且评估过,则从候选新特征集中剔除;(3.4)使用步骤(3.3)中生成的新特征候选集和上一轮父特征集F
i
={f1,f2,

f
n
}训练一个简化的预测模型对违约率预测任务进行预测;所述简化的预测模型根据计算资源条件进行设置,包括逻辑回归模型或小型树模型。(3.5)对步骤(3.4)中训练的简化的预测模型,使用特征贡献度估计方法估算新特征候选集中新生成特征的重要性,更新特征集F
i+1
={f1,f2,

f
...

【专利技术属性】
技术研发人员:胡明睿梁变周婷婷胡汉一刘智
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1