企业授信额度自动评定方法、系统及可读存储介质技术方案

技术编号:27308054 阅读:16 留言:0更新日期:2021-02-10 09:25
本发明专利技术提供了企业授信额度自动评定方法、系统及可读存储介质,从贷前、贷中、贷后三个时间维度实现了授信额度的审批和评定。在贷前阶段,对提交申请的客户进行客户准入和信用评分,满足条件的客户会进入授信额度评定环节。授信额度自动评定先采用差异性大的Random Forest Regressor算法、Catboost算法以及DNN模型作为基学习器并行学习,每个模型的学习都进行5折交叉验证,输出的预测结果作为第二层输入数据,进入LightGBM模型进行训练,最终得到综合授信额度。同时通过关键指标跟踪预测客户还款能力和还款意愿,必要时可降低授信额度或停止继续发放贷款,为贷后管理提供了解决方案。案。案。

【技术实现步骤摘要】
企业授信额度自动评定方法、系统及可读存储介质


[0001]本专利技术涉及信息评估
,尤其涉及一种企业授信额度自动评定方法、系统及可读存储介质。

技术介绍

[0002]近年来,我国中小企业发展迅猛,其总量已占全国企业总数的90%以上,在国民经济和国际贸易中占有重要地位。国际贸易业务的快速发展推动着金融平台需要建立完善的配套服务机制,为客户提供便捷的贷款申请通道,构建精准的授信额度计算与评价体系显得尤为重要。授信是指商业银行向非金融机构客户直接提供的资金或者对客户在有关经济活动中可能产生的赔偿、支付责任做出的保证,包括贷款、贸易融资、票据融资、融资租赁、借款担保等业务;授信额度是指商业银行为客户核定的短期授信业务的存量管理指标,使企业可以循环使用银行的短期授信资金,从而满足客户对金融服务快捷性和便利性的要求。
[0003]随着我国商业银行体制改革和监管制度的不断完善深入,商业银行提供授信的风险管理水平正在迅速提高,授信额度的计算方法逐渐合理。在金融平台申请授信的企业来自各行各业,基于多种来源的数据积累和多维数据进行客户画像,并结合现有政策制度、历史授信额度构建企业的授信额度计算方法更加全面合理。
[0004]因此,有必要研究企业授信额度自动评定方法、系统及可读存储介质来应对现有技术的不足,以解决或减轻上述一个或多个问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种企业授信额度自动评定方法、系统及可读存储介质,本专利技术从贷前、贷中、贷后三个时间维度实现了授信额度的审批和评定。在贷前审批阶段,对提交申请的客户进行客户准入和信用评分,满足条件的客户会流转进入授信额度评定环节。授信额度评定基于多层次集成学习的思想,先采用差异性大的Random ForestRegressor算法、Catboost算法以及DNN模型作为基学习器并行学习,每个模型的学习都进行5折交叉验证,输出的预测结果作为第二层输入数据,进入LightGBM模型进行训练,最终得到综合授信额度。同时,为了保证客户及时还款,通过关键指标跟踪预测客户还款能力和还款意愿,必要时可降低授信额度或停止继续发放贷款,为贷后管理提供了解决方案。
[0006]一方面,本专利技术提供企业授信额度自动评定方法,所述评定方法具体包括以下步骤:
[0007]S1:对企业用户画像数据进行提取与预处理;
[0008]S2:将预处理后的变量数据分为连续型变量和分类变量,分别进行特征选择,根据特征变量与目标变量的相关性强弱选择相关性强的特征纳入模型的构建与评估;
[0009]S4:将满足准入条件企业以平均滚动率为依据评定信用等级,通过企业的历史还款行为特征区分企业特性,并预测未来属性;
[0010]S5:对满足准入条件和符合信用等级的企业进入贷中审查和放款;
[0011]S6:放款后对企业进行贷后跟踪和管理。
[0012]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S1具体包括:
[0013]S11:数据提取,从数据库中提取历史授信的客户信息,包括企业基本信息、授信额度、授信审批时间、分期和还款状态;
[0014]S12:整理外部数据,包括财报、工商信息和进出口贸易往来,以企业名称为主键与历史授信的客户信息进行拼接,构建进出口企业完整的数据集;
[0015]S13:数据预处理,对数据集中存在不同程度的缺失和异常的字段进行预处理,异常值统一处理为指定字符串,缺失值采用插补法进行填充;
[0016]S14:统一不同国别的币制,降低模型的复杂度;
[0017]S15:构造衍生特征,包括衍生资产负债率、平均进口额、平均出口额、和平均缴税金额特征,同时以进出口日期做时间切片构建时间相关的衍生特征。
[0018]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S2具体包括以下步骤:
[0019]S21:对分类型变量进行WOE编码,然后通过信息值IV衡量自变量对被解释变量的影响程度,IV≤0.03,相关性较弱;0.03<IV≤0.1,相关性较强;IV>0.1,相关性强,具体公式如下:
[0020][0021]IV=(P
yi-P
ni
)*WOE
i
[0022]其中,y
i
为第i组样本中的坏样本数,y
s
为全部坏样本数,n
i
为第i 组样本中的好样本数,n
s
为全部好样本数。P
yi
为第i组样本中的坏样本占全部坏样本比例,P
ni
为第i组样本中的好样本占全部好样本比例。
[0023]S22:对连续型变量采用GBDT提升树进行特征选择,以迭代多棵回归树来共同决策,在每次迭代开始之前,计算损失函数在每个训练样本点的一阶导数g
i
和二阶导数h
i
;通过贪心策略生成新的决策树,计算每个叶节点对应的预测值;把新生成的决策树f
t
(x)添加到模型中,回归树分支时穷举每个特征的每一个阈值寻找最好的分割点,用最小化平方误差来衡量分割的效果;对样本i的前t-1棵树的损失函数求一阶偏导记为G
j
,对样本 i的前t-1棵树的损失函数求二阶偏导记为H
j
,具体计算公式为:
[0024][0025][0026][0027]其中,∈表示步长或者学习率;λ为预设参数,用于控制决策树的复杂度;为叶子节点j最优分割点的值。
[0028]S23:利用方差膨胀因子VIF分析特征之间的多重共线性:若VIF>5,则说明变量间存在较严重的多重共线性,需进行剔除,以保证模型的可解释性,VIF定义为:
[0029][0030]其中,R
i
为自变量对其余自变量作回归分析的负相关系数,方差膨胀系数VIF越大,说明自变量之间存在共线性的可能性越大;
[0031]S24:确定准入负面清单。
[0032]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式, S3具体包括以下步骤:
[0033]S31:采用Logistic回归交叉验证训练模型,每次随机抽样75%为训练集,25%为测试集,通过ROC和KS来评估模型的稳定性和对企业进行区分,逻辑回归计算比率:
[0034]log(odds)=β0+β1x1+β2x2+


n
x
n
[0035]其中,x
i
为变量i的值,β0为常数系数,β
i
为变量x
i
的系数。
[0036]S32:根据企业违约概率建立信用风险评分卡,给比率p0的预期分值为 S0,比率翻倍的分值POD为r0,评分卡的分值表示为:
[0037]Score=A-Blog(odds)
[0038]其中,A为补偿,B为刻度,变本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业授信额度自动评定方法,其特征在于,所述评定方法具体包括以下步骤:S1:对企业用户画像数据进行提取与预处理;S2:将预处理后的变量数据分为连续型变量和分类变量,分别进行特征选择,根据特征变量与目标变量的相关性强弱,选择相关性强的特征纳入模型的构建与评估;S4:将满足准入条件企业以平均滚动率为依据评定信用等级,通过企业的历史还款行为特征区分企业特性,并预测未来属性;S5:对满足准入条件和符合信用等级的企业进入贷中自动审查和自动放款;S6:完成放款后自动对企业进行贷后跟踪和管理。2.根据权利要求1所述的企业授信额度自动评定方法,其特征在于,所述S1具体包括:S11:数据提取,从数据库中提取历史授信的客户信息,包括企业基本信息、授信额度、授信审批时间、分期和还款状态;S12:整理外部数据,包括财报、工商信息和进出口贸易往来,以企业名称为主键与历史授信的客户信息进行拼接,构建进出口企业完整的数据集;S13:数据预处理,对数据集中存在不同程度的缺失和异常的字段进行预处理,异常值统一处理为指定字符串,缺失值采用插补法进行填充;S14:统一不同国别的币制,降低模型的复杂度;S15:构造衍生特征,包括衍生资产负债率、平均进口额、平均出口额、和平均缴税金额特征,同时以进出口日期做时间切片构建时间相关的衍生特征。3.根据权利要求2所述的企业授信额度自动评定方法,其特征在于,所述S2具体包括以下步骤:S21:对分类型变量进行WOE编码,然后通过信息值IV衡量自变量对被解释变量的影响程度,IV≤0.03,相关性较弱;0.03<IV≤0.1,相关性较强;IV>0.1,相关性强,具体公式如下:IV=(P
yi-P
ni
)*WOE
i
其中,y
i
为第i组样本中的坏样本数,y
s
为全部坏样本数,n
i
为第i组样本中的好样本数,n
s
为全部好样本数;P
yi
为第i组样本中的坏样本占全部坏样本比例,P
ni
为第i组样本中的好样本占全部好样本比例;S22:对连续型变量采用GBDT提升树进行特征选择,以迭代多棵回归树来共同决策,在每次迭代开始之前,计算损失函数在每个训练样本点的一阶导数g
i
和二阶导数h
i
;通过贪心策略生成新的决策树,计算每个叶节点对应的预测值;把新生成的决策树f
t
(x)添加到模型中,回归树分支时穷举每个特征的每一个阈值寻找最好的分割点,用最小化平方误差来衡量分割的效果;对样本i的前t-1棵树的损失函数求一阶偏导记为G
j
,对样本i的前t-1棵树的损失函数求二阶偏导记为H
j
,具体计算公式为:
其中,∈表示步长或者学习率;λ为预设参数,用于控制决策树的复杂度;为叶子节点j最优分割点的值;S23:利用方差膨胀因子VIF分析特征之间的多重共线性:若VIF>5,则说明变量间存在较严重的多重共线性,需进行剔除,以保证模型的可解释性,VIF定义为:其中,R
i
为自变量对其余自变量作回归分析的负相关系数,方差膨胀系数VIF越大,说明自变量之间存在共线性的可能性越大;S24:确定准入负面清单。4.根据权利要求3所述的企业授信额度自动评定方法,其特征在于,所述S3具体包括以下步骤:S31:采用Logistic回归交叉验证训练模型,每次随机抽样75%为训练集,25%为测试集,通过ROC和KS来评估模型的稳定性和对企业进行区分,逻辑回归计算比率:log(odds)=β0+β1x1+β2x2+


n
x
n

【专利技术属性】
技术研发人员:李振张刚刘昊霖李千惠张晨星周光传
申请(专利权)人:民生科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1