一种银行贷款审批预测模型的训练方法及预测模型技术

技术编号:35577817 阅读:15 留言:0更新日期:2022-11-12 16:03
本发明专利技术公开了一种银行贷款审批预测模型的训练方法及预测模型,其中训练方法包括:建立并训练预测模型,初始化模型参数;从全部贷款申请集合J中加载训练数据,结合插补模型和倾向分数模型并通过梯度下降方法更新预测模型中的模型参数,模型参数按照梯度下降方法最小化插补误差的偏差且添加了正则化项,避免模型过拟合,实现了预测模型的参数训练更新,得到更新的模型参数从而实现了预测模型的训练。本发明专利技术的优点在于:通过结合插补模型和和倾向分数模型,实现对银行审批模型的无偏估计,可以有效减少预测模型的输出误差,是的预测模型可以准确的预测出银行审批结果,实现了自动化准确的实现汽车金融公司对于交给银行审批贷款的过滤筛查工作。审批贷款的过滤筛查工作。

【技术实现步骤摘要】
一种银行贷款审批预测模型的训练方法及预测模型


[0001]本专利技术涉及自动化金融审批领域,特别涉及一种银行贷款审批预测模型的训练方法及预测模型。

技术介绍

[0002]目前市场上主要的贷款购车方式有两种:银行贷款和汽车金融公司贷款。汽车金融公司的贷款门槛低、申请流程简单,所以很多人会选择汽车金融公司贷款。为了缓解资金压力,汽车金融公司通常会和银行合作,推出联合贷,将部分贷款申请交给银行审批,若该申请达到银行贷款标准,银行则与汽车金融公司共同出资发放贷款,否则,汽车金融公司必须独自出资发放贷款。
[0003]由于银行业务繁多并且通常都是人工审批,汽车金融公司不能把每一份贷款申请都交由银行进行审批,所以汽车金融公司需要自己先挑选出很可能被银行通过的贷款申请。同时为了降低人力成本,汽车金融公司可以训练一个二分类预测模型,针对每一份贷款申请,预测它是否能达到银行贷款标准。汽车金融公司希望这个模型的预测结果和银行给出的结果一致。
[0004]如果采用传统的算法,那么汽车金融公司训练用的每一对数据都是它交给银行的贷款申请以及银行给这份申请的答复(通过或者不通过)。然而这些数据都是非随机缺失的,因为交给银行的贷款申请不是随机抽样得到的,而是已经被汽车金融公司挑选的部分,或者说,这部分数据带有被汽车金融公司挑选的偏见。传统算法训练得到的预测模型会有偏差,不能和银行给出的结果一致。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供一种银行贷款审批预测模型的训练方法及预测模型,通过利用有偏的数据来学习训练形成一个无偏的预测模型。
[0006]为了实现上述目的,本专利技术采用的技术方案为:一种银行贷款审批预测模型的训练方法,包括:
[0007]建立并训练预测模型:预测模型为φ为模型参数;
[0008]训练预测模型包括:初始化模型参数,从全部贷款申请集合中加载训练数据,并通过梯度下降方法更新预测模型中的模型参数,模型参数更新按照如下公式更新:
[0009][0010]其中,e
i
=(g
φ
(x
i
)

r
i
)2,

表示不计算这部分的梯度,也就是但在数值上

(g
φ
(x
i
))=g
φ
(x
i
);超参数η3是学习
率,范围一般是[0.001,0.01],超参数λ3是正则化系数;对每一份申请i,汽车金融公司审批并给出评价o
i
∈{0,1};银行对贷款申请i的评价r
i

[0011]为建立并训练的倾向分数模型f是逻辑回归模型,θ是模型参数,每个贷款申请i的特征向量x
i

[0012]为建立并训练的插补模型ψ为模型参数。
[0013]训练倾向分数模型时,采用的训练数据是中的全部贷款申请和汽车金融公司对它的评价{x
i
,o
i
};损失函数采用二分类交叉熵损失函数。
[0014]采用逻辑回归模型建模倾向分数为:
[0015][0016]其中,k是x
i
的维度;;θ
T
x
i
是向量的内积,θ
k
是θ的第k个元素,x
ik
是x
i
的第k个元素。
[0017]初始化模型参数θ然后利用训练数据估计参数θ,采用二分类交叉熵损失函数:
[0018][0019]其中,N是训练一次的样本大小;采用梯度下降法最小化上述损失函数,即通过对函数上当前点对应梯度的反方向的规定步长距离点进行迭代搜索,以找到一个函数的极小值,θ按下式更新:
[0020][0021]其中,超参数η1是学习率,范围一般是[0.001,0.01],超参数λ1是正则化系数。
[0022]在对预测模型进行训练前按照如下方法获取训练所需数据:
[0023](1)获取数据包括:全部贷款申请集合对每一份申请i,汽车金融公司审批并给出评价o
i
∈{0,1},0表示不通过,1表示通过;汽车金融公司交给银行审批的贷款申请集合为银行对贷款申请i的评价r
i
∈{0,1};
[0024](2)基于汽车金融公司交给银行审批的贷款申请集合为生成一个采样器和一个数据加载器DataLoader1,采样器根据的大小生成一个可迭代的序号列表,它决定了读取数据的前后顺序;根据超参数batch_size将采样器提供的序列划分成多个batch大小的可迭代序列组;数据加载器则负责将整个数据集装载成这个可迭代序列组对应的一个个batch,以供后续加载;
[0025](3)将训练用的将划分成训练集和验证集,为的训练集和验证集分别生成一个数据加载器DataLoader2和DataLoader3。
[0026]预测模型的训练包括:
[0027]1)从的数据加载器DataLoader1中加载一个batch的贷款申请,通过梯度下降方法最小化插补误差的偏差来更新插补模型的参数;
[0028]2)重复步骤1),直到数据加载器DataLoader1在这一轮迭代中已经输出了全部batch;
[0029]3)从数据加载器DataLoader2中加载一个batch的贷款申请,通过梯度下降方法最小化预测偏差;预测模型的参数φ按下式更新:
[0030][0031]4)重复步骤3)直至数据加载器DataLoader2在这一轮迭代中已经输出了全部batch。
[0032]5)判断是否达到停止条件,若达到停止条件,则训练完成按照此时的参数φ形成训练后的预测模型若未达到停止条件则返回步骤1)循环。
[0033]步骤1)中,ψ按下式更新:
[0034][0035]其中,e
i
=r
i

g
φ
(x
i
),超参数η2是学习率,范围一般是[0.001,0.01],超参数λ2是正则化系数。
[0036]停止条件包括循环次数达到预先设置的次数阈值或触发了早停机制。
[0037]早停机制按DataLoader3加载验证集数据,验证预测模型的性能,当验证预测模型的性能达到设定要求后停止迭代循环。
[0038]插补模型采用MF模型、FM模型或者NFM模型。
[0039]采用逻辑回归模型作为预测模型
[0040]一种预测模型,用于预测贷款申请是否能够被银行审批通过,所述预测模型采用所述的银行贷款审批预测模型的训练方法进行训练。
[0041]本专利技术的优点在于:通过结合插补模型和和倾向分数模型,实现对银行审批模型的无偏估计,可以有效减少预测模型的输出误差,是的预测模型可以准确的预测出银行审批结果,实现了自动化准确的实现汽车金融公司对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种银行贷款审批预测模型的训练方法,其特征在于:包括:建立并训练预测模型:预测模型为φ为模型参数;训练预测模型包括:初始化模型参数,从全部贷款申请集合中加载训练数据,并通过梯度下降方法更新预测模型中的模型参数,模型参数更新按照如下公式更新:其中,e
i
=(g
φ
(x
i
)

r
i
)2,

表示不计算这部分的梯度,也就是但在数值上

(g
φ
(x
i
))=g
φ
(x
i
);超参数η3是学习率,范围一般是[0.001,0.01],超参数λ3是正则化系数;对每一份申请i,汽车金融公司审批并给出评价o
i
∈[0,1};银行对贷款申请i的评价r
i
;为建立并训练的倾向分数模型f是逻辑回归模型,θ是模型参数,每个贷款申请i的特征向量x
i
;为建立并训练的插补模型ψ为模型参数。2.如权利要求1所述的一种银行贷款审批预测模型的训练方法,其特征在于:训练倾向分数模型时,采用的训练数据是中的全部贷款申请和汽车金融公司对它的评价{x
i
,o
i
};损失函数采用二分类交叉熵损失函数。3.如权利要求2所述的一种银行贷款审批预测模型的训练方法,其特征在于:采用逻辑回归模型建模倾向分数为:其中,k是x
i
的维度;;θ
T
x
i
是向量的内积,θ
k
是θ的第k个元素,x
ik
是x
i
的第k个元素。初始化模型参数θ然后利用训练数据估计参数θ,采用二分类交叉熵损失函数:其中,N是训练一次的样本大小;采用梯度下降法最小化上述损失函数,即通过对函数上当前点对应梯度的反方向的规定步长距离点进行迭代搜索,以找到一个函数的极小值,θ按下式更新:其中,超参数η1是学习率,范围一般是[0.001,0.01],超参数λ1是正则化系数。4.如权利要求1所述的一种银行贷款审批预测模型的训练方法,其特征在于:在对预测模型进行训练前按照如下方法获取训练所需数据:(1)获取数据包括:全部贷款申请集合对每一份申请i,汽车金融公司审批并给出评价o
i
∈{0,1},0表示不通过,1表示通过;汽...

【专利技术属性】
技术研发人员:王延松张磊宗文广王蒙
申请(专利权)人:奇瑞徽银汽车金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1