一种应用迁移学习进行个人信用风险预测方法及系统技术方案

技术编号:32665876 阅读:17 留言:0更新日期:2022-03-17 11:18
本发明专利技术公开了一种应用迁移学习进行个人信用风险预测方法及系统,属于金融风险评估技术领域,解决现有的应用迁移学习技术的金融信用风险预测模型在训练元模型时使用了全体样本,当其中存在与目标领域样本分布不同的样本时,会出现负迁移与过拟合效应,导致在目标领域样本上微调优化的模型效果不佳的问题。本发明专利技术中对元模型的建模样本进行筛选,挑选出与目标领域同分布的样本建立元模型,再使用该模型在目标领域的小规模样本上进行微调优化,通过优化元模型训练样本与目标领域小规模样本的数据分布差异,避免异分布样本导致的负迁移和过拟合效应,降低元模型训练样本规模,并提高元模型训练与目标领域模型微调效率。元模型训练与目标领域模型微调效率。元模型训练与目标领域模型微调效率。

【技术实现步骤摘要】
一种应用迁移学习进行个人信用风险预测方法及系统


[0001]本专利技术属于金融风险评估
,具体涉及一种应用迁移学习进行个人信用风险预测方法及系统。

技术介绍

[0002]随着经济的发展,金融业越来越发达,其中,贷款作为金融业务的一项重要组成部分,贷款业务种类越来越繁荣,贷款渠道也越来越丰富。人们的生活、生产活动中,小到个人的日常消费,大到企业的生产经营,都离不开贷款业务。提供贷款服务的金融机构在发放贷款之前,一般都会对该项贷款业务进行信用风险评估,只有当风险符合要求时,才会批准贷款申请。现有的信用风险预测方法,大多是先要确认贷款人的身份,核实贷款人身份的真实性,然后获取贷款人的个人征信信息,再对贷款人的信用等级进行评估,最终决定是否批准贷款申请。现有技术中一般通过建立信用风险预测模型来预测贷款人的信用风险。
[0003]传统金融信用风险预测模型(统计与机器学习模型)实现时,一般使用同一客户群体的历史数据(包含已知的客户相关信息与客户的信用标签,且样本数量充足),进行数据处理,特征加工,建立统计与机器学习模型并优化,最终应用于相同业务场景的客户群体中进行个人信用风险预测,最大的特点是训练与预测所使用的客户群体是同分布的,因此可以取得较好的预测效果,但缺点是需要同分布的大量客户样本进行训练,难以应用于不同业务场景的客户群体(尤其是新业务启动阶段,新客户样本与标签均较少时),跨业务场景预测时泛化性能较差。
[0004]为了解决上述传统金融信用风险预测模型的缺点,迁移学习逐渐在金融信用风险预测领域得到重视与应用,诞生了应用迁移学习技术的金融信用风险预测模型,此类模型普遍使用不同领域的已有大量样本建立元模型,并在目标领域的小规模样本上微调/迭代优化,此方法的优点是目标领域样本需求量小,一般而言预测的泛化性能较好,缺点是在目标领域样本和已有不同领域大量样本分布差异较大时,直接使用基于所有样本训练的模型进行微调可能会出现负迁移与过拟合效应,导致在目标领域上的泛化性能下降。

技术实现思路

[0005]为了解决上述现有的应用迁移学习技术的金融信用风险预测模型在训练元模型时使用了全体样本,当其中存在与目标领域样本分布不同的样本时,会出现负迁移与过拟合效应,导致在目标领域样本上微调优化的模型效果不佳的问题。本专利技术对元模型的建模样本进行筛选,选择合适(同分布)的样本建立元模型,再使用该模型在目标领域的小规模样本上进行微调优化,解决了异分布样本导致的负迁移和过拟合效应,还能降低元模型训练样本规模,提高元模型训练与目标领域模型微调的效率。
[0006]本专利技术采用的技术方案如下:
[0007]一种应用迁移学习进行个人信用风险预测系统,其具体包括:
[0008]第一终端:作为元模型训练样本筛选终端,筛选接近目标领域分布的样本以训练
元模型,将筛选的数据输出到第二终端;
[0009]第二终端:作为元模型训练终端,接收第一终端的输出数据,训练可适用于目标领域微调建模的元模型,将训练后的元模型输出到第三终端;
[0010]第三终端:作为目标领域模型训练终端,接收第二终端输出的元模型,应用元模型输出预测概率结合目标领域的小规模样本训练最终的目标领域模型。
[0011]与现有技术中采用的全样本元模型训练方式不同,本方案对元模型的建模样本进行筛选,挑选出与目标领域同分布的样本建立元模型,再使用该模型在目标领域的小规模样本上进行微调优化,通过优化元模型训练样本与目标领域小规模样本的数据分布差异问题,还减少了元模型的训练时间,提高了迁移学习效率,同时解决了现有技术方案中因为异分布样本导致的负迁移和过拟合效应,还起到了降低元模型训练样本规模,提高元模型训练与目标领域模型微调效率的技术效果。
[0012]进一步的,所述元模型训练样本筛选终端包括:
[0013]数据清洗模块:用于对原始变量进行数据清洗,并进行必要的特征加工与衍生,生成结构化的训练数据结构,用于样本筛选模块的筛选模型建模以及后续的样本筛选工作;
[0014]样本筛选模块:用于对齐元模型训练样本和目标领域样本的解释变量,并将元模型训练样本和目标领域样本分别进行标记,应用决策树模型进行二分类模型的训练与参数优化,迭代至模型效果收敛,并保存为目标领域样本分布检测模型M1;应用目标领域样本分布检测模型至元模型训练样本,逐个预测样本属于目标领域分布的概率p1,初始化阈值,根据阈值筛选出元模型训练样本中与目标领域样本同分布的样本A。
[0015]上述元模型训练样本筛选终端可以从源样本中筛选出接近目标领域样本分布的样本,基于筛选后的样本可以训练出更贴近目标领域样本分布,预测准确率更高的元模型及目标领域模型。
[0016]进一步的,所述元模型训练终端包括:
[0017]数据清洗模块:对原始变量进行数据清洗,并进行必要的特征加工与衍生,生成结构化的训练数据结构,用于样本筛选模块的筛选模型建模以及后续的样本筛选工作;
[0018]元模型训练模块:根据第一终端输出的样本A,应用决策树模型进行二分类模型的训练与参数优化,迭代至模型效果收敛,并保存为元模型M2。
[0019]上述元模型训练终端可以基于筛选出的接近目标领域样本分布的样本进行训练,并基于目标领域样本输出该模型的信用风险预测概率参与目标领域样本上的模型训练,最终训练出优于目标领域样本直接训练的信用风险模型,且缓解了元模型训练样本与目标领域样本分布差异过大造成的负迁移效应。
[0020]进一步的,所述目标领域模型训练终端包括:
[0021]数据清洗模块:对原始变量进行数据清洗,并进行必要的特征加工与衍生,生成结构化的训练数据结构,用于元模型训练模块的模型训练与预测工作;
[0022]目标领域模型训练模块:使用第二终端训练得到的元模型M2对目标领域样本进行预测,得到信用风险预测概率p2,加入到目标领域样本的解释变量中,结合信用风险标签,应用决策树模型进行二分类模型的训练与参数优化,迭代至模型效果收敛,并保存为目标领域信用风险预测模型M3,应用M3对目标领域现有样本以及新加入的无标签样本进行预测得到个人信用风险预测概率p3。
[0023]上述目标领域模型训练终端结合了筛选后接近目标领域分布样本训练的元模型以及目标领域自身的小规模样本进行信用风险模型训练,解决了直接使用规模过小的目标领域样本训练造成的过拟合效应。
[0024]一种基于上述应用迁移学习进行个人信用风险预测系统的个人信用风险预测方法,其具体包括:
[0025]元模型训练样本数据清洗:系统对原始变量进行数据清洗,并进行必要的特征加工与衍生,生成结构化的训练数据结构;
[0026]元模型训练样本筛选:系统对齐元模型训练样本和目标领域样本的解释变量,并将元模型训练样本和目标领域样本分别进行标记,应用决策树模型进行二分类模型的训练与参数优化,通过计数器对训练过程进行迭代,直至模型效果收敛,并保存为目标领域样本分布检测模型M;应用目标领域样本分布检测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用迁移学习进行个人信用风险预测系统,其特征在于,具体包括:第一终端:作为元模型训练样本筛选终端,筛选接近目标领域分布的样本以训练元模型,将筛选的数据输出到第二终端;第二终端:作为元模型训练终端,接收第一终端的输出数据,训练可适用于目标领域微调建模的元模型,将训练后的元模型输出到第三终端;第三终端:作为目标领域模型训练终端,接收第二终端输出的元模型,应用元模型输出预测概率结合目标领域的小规模样本训练最终的目标领域模型。2.根据权利要求1所述的一种应用迁移学习进行个人信用风险预测系统,其特征在于,所述元模型训练样本筛选终端包括:数据清洗模块:用于对原始变量进行数据清洗,并进行必要的特征加工与衍生,生成结构化的训练数据结构,用于样本筛选模块的筛选模型建模以及后续的样本筛选工作;样本筛选模块:用于对齐元模型训练样本和目标领域样本的解释变量,并将元模型训练样本和目标领域样本分别进行标记,应用决策树模型进行二分类模型的训练与参数优化,迭代至模型效果收敛,并保存为目标领域样本分布检测模型M1;应用目标领域样本分布检测模型至元模型训练样本,逐一预测样本属于目标领域分布的概率p1,初始化阈值,根据阈值筛选出元模型训练样本中与目标领域样本同分布的样本A。3.根据权利要求1所述的一种应用迁移学习进行个人信用风险预测系统,其特征在于,所述元模型训练终端包括:数据清洗模块:对原始变量进行数据清洗,并进行必要的特征加工与衍生,生成结构化的训练数据结构,用于元模型训练模块的模型训练与预测工作;元模型训练模块:根据第一终端输出的样本A,应用决策树模型进行二分类模型的训练与参数优化,迭代至模型效果收敛,并保存为元模型M2。4.根据权利要求1所述的一种应用迁移学习进行个人信用风险预测系统,其特征在于,所述目标领域模型训练终端包括:数据清洗模块:对原始变量进行数据清洗,并进行必要的特征加工与衍生,生成结构化的训练数据结构,用于目标领域模型训练模块的模型训练与预测工作;...

【专利技术属性】
技术研发人员:毛正冉卫浩
申请(专利权)人:四川新网银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1