一种基于大数据的互联网金融贷违约预测方法技术

技术编号:38415769 阅读:14 留言:0更新日期:2023-08-07 11:19
本发明专利技术属于信贷违约预测技术领域,具体涉及一种基于大数据的互联网金融贷违约预测方法;该方法包括:获取用户信贷数据并根据用户信贷数据构建用户信贷图;对用户信贷图进行人工标注和非人工标注;将人工标注的用户信贷图输入到图神经网络模型中进行精调训练,得到第一金融贷违约预测模型;采用非人工标注的用户信贷图训练第一金融贷违约预测模型,得到第二金融贷违约预测模型;根据人工标注和非人工标注的用户信贷图对第二金融贷违约预测模型进行有监督和半监督结合的带噪学习,得到训练好的金融贷违约预测模型;本发明专利技术可以更好地学习到数据的真实分布,并对噪声和干扰具有更好的鲁棒性,可更准确地评估贷款申请人的风险。可更准确地评估贷款申请人的风险。可更准确地评估贷款申请人的风险。

【技术实现步骤摘要】
一种基于大数据的互联网金融贷违约预测方法


[0001]本专利技术属于信贷违约预测
,具体涉及一种基于大数据的互联网金融贷违约预测方法。

技术介绍

[0002]在金融领域中,贷款业务具有重要的地位。然而,贷款业务所承担的风险也同样高昂,其中之一就是贷款违约风险。贷款违约是指贷款人未能按照贷款合同规定的时间和金额偿还贷款,这对金融机构和贷款人都会造成财务上的损失。互联网金融贷款违约预测是一种基于大数据技术的方法,利用机器学习和数据挖掘等技术对贷款申请人的数据进行分析和建模,以预测其贷款违约的概率。该技术可为金融机构提供有价值的决策支持,帮助他们更准确地评估贷款申请人的风险,从而减少不良资产的风险。

技术实现思路

[0003]针对现有技术存在的不足,本专利技术提出了一种基于大数据的互联网金融贷违约预测方法,该方法包括:获取用户信贷数据并根据用户信贷数据构建用户信贷图;将用户信贷图输入到训练好的金融贷违约预测模型中,得到金融贷违约预测结果;
[0004]金融贷违约预测模型训练过程包括:
[0005]S1:获取用户信贷数据并根据用户信贷数据构建用户信贷图;对用户信贷图进行人工标注和非人工标注;
[0006]S2:将人工标注的用户信贷图输入到图神经网络模型中进行精调训练,得到第一金融贷违约预测模型;
[0007]S3:采用非人工标注的用户信贷图训练第一金融贷违约预测模型,计算对比学习损失并根据对比学习损失调整模型参数,得到第二金融贷违约预测模型;
[0008]S4:根据人工标注和非人工标注的用户信贷图对第二金融贷违约预测模型进行有监督和半监督结合的带噪学习,得到训练好的金融贷违约预测模型。
[0009]优选的,构建用户信贷图的过程包括:从用户信贷数据中提取用户信贷特征;若用户信贷特征间的关系为数值关系,计算用户信贷特征间的Pearson相关系数;若用户信贷特征间的关系为类别关系,计算用户信贷特征间的互信息;将用户信贷特征作为节点,用户信贷特征间的Pearson相关系数和互信息作为边权值构建用户信贷图。
[0010]进一步的,所述用户信贷特征包括:贷款数额,贷款期限,贷款利率,分期付款额,信用评分等级,借款人职业,借款人工作年限,借款人住房状况,借款人年收入,贷款目的,邮政编码,地区编码,债务收入比,借款人过去2年内逾期还款的次数,信用卡额度,信用卡未结额度,不良公共记录的数量,公开记录清除的数量,提前还款次数,提前还款累积金额,近3个月内提前还款金额。
[0011]优选的,计算对比学习损失的公式为:
[0012]L(x1,x2,y)=y*max(x1,x2)+(1

y)*max{margin

d(x1,x2),0}
[0013]其中,L(x1,x2,y)表示对比学习损失,x1和x2表示样本对,y表示样本对的标签,margin表示边际值,d(x1,x2)表示样本间的距离。
[0014]优选的,对第二金融贷违约预测模型进行有监督和半监督结合的带噪学习的过程包括:
[0015]采用人工标注的用户信贷图训练模型并计算交叉熵损失,采用非人工标注的用户信贷图训练模型并计算数据一致性损失;将交叉熵损失和数据一致性损失进行加权求和,得到有监督损失;
[0016]根据有监督损失计算对抗正则化损失;根据有监督损失和对抗正则化损失计算模型总损失;根据模型总损失进行反向传播,调整模型参数,得到训练好的金融贷违约预测模型。
[0017]进一步的,计算有监督损失的公式为:
[0018][0019]其中,J(θ)表示有监督损失,θ表示模型参数,表示扰动之后的输入,表示数据扰动转换,x表示输入,y表示标签,P表示人工标注数据,E()表示期望,p
θ
(y|x)表示初始未扰动的模型输出分布,λ表示第一超参数,I表示非人工标注数据,表示当前步未扰动的模型输出分布,表示当前参数θ的固定副本,表示扰动的模型输出分布。
[0020]进一步的,计算对抗正则化损失的公式为:
[0021][0022]其中,表示对抗正则化损失,E()表示期望,表示所有数据,J()表示有监督损失函数,θ表示模型参数,δ表示扰动,∈表示扰动范围,f
θ
(x+δ)表示经过扰动后的模型输出,x表示输入样本,y表示样本的标签,表示输入的梯度,表示输入的二阶梯度。
[0023]进一步的,计算模型总损失的公式为:
[0024][0025]其中,E()表示期望,J()表示有监督损失函数,表示所有数据,x表示输入,y表示标签,θ表示模型参数,K表示扰动次数,δ表示扰动,λ
s
表示第二超参数,表示对抗正则损失,∈表示扰动范围。
[0026]本专利技术的有益效果为:
[0027]本专利技术结合有监督和半监督的带噪学习通过使用目标领域中的无标签数据,充分利用数据资源,解决标签不足的问题,可有效降低数据收集和标注的成本,此外通过引入对抗正则损失以使模型对于输入数据的微小扰动具有更强的鲁棒性,通过学习更健壮的特征表示,降低了对扰动的敏感性,提高了模型的泛化能力并增强了模型在真实世界中的应用能力;本专利技术可以更好地学习到数据的真实分布,并对噪声和干扰具有更好的鲁棒性,可更准确地评估贷款申请人的风险。
附图说明
[0028]图1为本专利技术中金融贷违约预测模型训练流程图;
[0029]图2为本专利技术中有监督和半监督结合的带噪学习示意图。
具体实施方式
[0030]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0031]本专利技术提出了一种基于大数据的互联网金融贷违约预测方法,如图1所示,所述方法包括以下内容:获取用户信贷数据并根据用户数据构建用户信贷图;将用户信贷图输入到训练好的金融贷违约预测模型中,得到金融贷违约预测结果。
[0032]金融贷违约预测模型训练过程包括:
[0033]S1:获取用户信贷数据并根据用户数据构建用户信贷图;对用户信贷图进行人工标注和非人工标注。
[0034]从互联网大数据中获取用户信贷数据,将用户信贷数据转化为图结构即用户信贷图G,依次捕捉数据之间的复杂依赖关系;构建用户信贷图G的过程包括:从用户信贷数据中提取用户信贷特征;将不同特征之间的关系分为两种类型即数值关系和类别关系,数值关系指一组数值之间的相对大小或数量上的差异,例如贷款利率和贷款数额;类别关系指一组数据被归类到不同的类别或组中,例如借款人住房状况和借款人职业;若用户信贷特征间的关系为数值关系,计算用户信贷特征间的Pearson相关系数,计算公式为:
[0035]Pearson(x,y)=cov(x,y)/(std(x)*st本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的互联网金融贷违约预测方法,其特征在于,包括:获取用户信贷数据并根据用户信贷数据构建用户信贷图;将用户信贷图输入到训练好的金融贷违约预测模型中,得到金融贷违约预测结果;金融贷违约预测模型训练过程包括:S1:获取用户信贷数据并根据用户信贷数据构建用户信贷图;对用户信贷图进行人工标注和非人工标注;S2:将人工标注的用户信贷图输入到图神经网络模型中进行精调训练,得到第一金融贷违约预测模型;S3:采用非人工标注的用户信贷图训练第一金融贷违约预测模型,计算对比学习损失并根据对比学习损失调整模型参数,得到第二金融贷违约预测模型;S4:根据人工标注和非人工标注的用户信贷图对第二金融贷违约预测模型进行有监督和半监督结合的带噪学习,得到训练好的金融贷违约预测模型。2.根据权利要求1所述的一种基于大数据的互联网金融贷违约预测方法,其特征在于,构建用户信贷图的过程包括:从用户信贷数据中提取用户信贷特征;若用户信贷特征间的关系为数值关系,计算用户信贷特征间的Pearson相关系数;若用户信贷特征间的关系为类别关系,计算用户信贷特征间的互信息;将用户信贷特征作为节点,用户信贷特征间的Pearson相关系数和互信息作为边权值构建用户信贷图。3.根据权利要求2所述的一种基于大数据的互联网金融贷违约预测方法,其特征在于,所述用户信贷特征包括:贷款数额,贷款期限,贷款利率,分期付款额,信用评分等级,借款人职业,借款人工作年限,借款人住房状况,借款人年收入,贷款目的,邮政编码,地区编码,债务收入比,借款人过去2年内逾期还款的次数,信用卡额度,信用卡未结额度,不良公共记录的数量,公开记录清除的数量,提前还款次数,提前还款累积金额,近3个月内提前还款金额。4.根据权利要求1所述的一种基于大数据的互联网金融贷违约预测方法,其特征在于,计算对比学习损失的公式为:L(x1,x2,y)=y*max(x1,x2)+(1

y)*max{margin

d(x1,x2),0}其中,L(x1,x...

【专利技术属性】
技术研发人员:王进靳从建杨添善
申请(专利权)人:权利要求书二页说明书五页附图一页
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1