一种基于xgboost的企业违约风险模型的建立方法技术

技术编号:20655542 阅读:19 留言:0更新日期:2019-03-23 07:07
本发明专利技术公开了一种基于xgboost的企业违约风险模型的建立方法。该方法为:首先对源数据进行整理,按照月进行拼接,形成企业的宽表L1,任意一条数据为该企业按照自然月递增的顺序的集合,且每个月的数据包含相同的特征;然后利用自定义的滑动窗口函数进行宽表L1的切割,形成企业滑动窗口数据L2;最后利用xgboost算法,使用滑动窗口数据L2进行建模,并对模型进行优化。本发明专利技术方法能够提高企业违约风险模型的预测准确率,并建立效果良好的风控模型。

A Method of Establishing Enterprise Default Risk Model Based on xgboost

The invention discloses a method for establishing enterprise default risk model based on xgboost. The method is as follows: firstly, the source data is sorted out and spliced monthly to form the wide table L1 of the enterprise, and any data is the collection of the enterprise in the order of natural monthly increment, and the data of each month contains the same characteristics; secondly, the wide table L1 is cut by the self-defined sliding window function to form the sliding window data L2 of the enterprise; lastly, the xgboost algorithm is used to make the data L2 of the enterprise sliding window. The sliding window data L2 is used to model and optimize the model. The method of the invention can improve the prediction accuracy of enterprise default risk model and establish a wind control model with good effect.

【技术实现步骤摘要】
一种基于xgboost的企业违约风险模型的建立方法
本专利技术涉及企业风险控制
,特别是一种基于xgboost的企业违约风险模型的建立方法。
技术介绍
随着机器学习的广泛应用,数据挖掘技术正在改变违约风险的预测模式,不同于传统方法所使用的涉及统计学特征、财务指标等“硬信息”,基于数据挖掘技术的风险模型可以由计算机自己识别重要的特征,将各种软信息加入到模型中,帮助计算机更好进行企业违约风险的预测。数据挖掘技术的应用势必会对传统的风险信用评估体系带来巨大冲击。相较于传统的信用风险评估模型,数据挖掘模型主要有三点优势。第一,传统的信用风险评估模型大多使用参数模型或者回归分析,有较严格的前提假设,比如OLS回归要求样本服从正态分布、无噪声且序列不相关,Logistic模型要求解释变量之间相关性较小,而数据挖掘模型的样本则基本没有相关限制。第二,数据挖掘模型可以利用更多的信息,包括“软信息”和“硬信息”,只要计算机的性能允许,可以不考虑特征选择的问题。第三,不同的数据挖掘模型分别针对的问题有所差异,所以可以选择在不同情况下表现最优的数据挖掘模型进行预测,相应的准确率更高。boosting集成学习,由多个相关联的决策树联合决策,xgboost是在GBDT基础上发展而来。传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到一阶和二阶导数。且xgboost工具支持自定义代价函数,只要函数可一阶和二阶求导。Xgboost对缺失值不敏感,对数据容忍度高,预测结果准确,同时速度快,可以媲美大型模型的架构,在预测违约信息当中可以发挥重大作用。综上,现有的信用风险评估模型仍然大多建立在人工打分卡的基础之上,工作人员依据经验建立模型,这样的模型可移植性差、业务适用局限。尚未有成熟的数据挖掘模型报道,因此无法解决面向业务流程复杂的问题,也难以避免人为经验所造成的误差。
技术实现思路
本专利技术的目的在于提供一种可以提高预测企业违约风险准确率的基于xgboost的企业违约风险模型的建立方法。实现本专利技术目的的技术解决方案为:一种基于xgboost的企业违约风险模型的建立方法,包括以下步骤:步骤1,对源数据进行整理,按照月进行拼接,形成企业的宽表L1;步骤2,利用自定义的滑动窗口函数进行宽表L1的切割,形成企业滑动窗口数据L2;步骤3,利用xgboost算法,使用滑动窗口数据L2进行建模,并对模型进行优化得到企业违约风险模型,进行企业违约风险的预测。进一步地,步骤1所述的对源数据进行整理,按照月进行拼接,形成企业的宽表L1,具体为:对源数据进行整理,按照月进行拼接,依次读取企业的数据,获得该企业按照月横向的宽表数据L1,任意一条数据为该企业按照自然月递增的顺序的集合,且每个月的数据包含相同的特征,即每一条数据σ={t1,t2,t3,…,tr},其中t1……tr为不同的月的数据,t中的特征数目和特征字段相同。进一步地,步骤2所述的利用自定义的滑动窗口函数进行宽表L1的切割,形成企业滑动窗口数据L2,具体为:步骤2-1,对宽表L1进行分析,根据窗口月的数量,以及每个月的特征数目,定义滑动窗口;步骤2-2,利用定义好的滑动窗口,对L1进行滑动,形成企业滑动窗口数据L2,即对于任意一条数据σ={t1,t2,t3,…,tr},若滑动窗口定义为n个月,则任意一条数据变为:σ1={t1,t2,t3,…,tn},σ2={t2,t3,t4,…,tn+1}…σr-n={tr-n,tr-n+1,tr-n+2,…,tr}。进一步地,步骤3所述的利用xgboost算法,使用滑动窗口数据L2进行建模,并对模型进行优化得到企业违约风险模型,进行企业违约风险的预测,具体为:步骤3-1,根据历史违约信息,使用业务逻辑确定违约作用于哪个月,在滑动窗口处下个月生成标签;步骤3-2,将数据样本划分为测试集和训练集;步骤3-3,利用xgboost算法进行训练,得到初步模型;步骤3-4,建立好xgboost树模型后,利用f1Score来进行模型的评价:其中precision,recall分别对应模型测试后的正确率与召回率。进一步地,步骤3-3所述利用xgboost算法进行训练,得到初步模型,具体如下:步骤3-3-1、将目标函数obj(θ)定义为:obj(θ)=L(θ)+Ω(θ)其中L(θ)为损失函数,Ω(θ)为正则化惩罚项,且回归树中的预测结果为:其中K为回归树的数量,fk(xi)为每一棵的得分值,xi为样本,i为样本编号,θ为使目标函数最小时所需要求出的参数;步骤3-3-2、整理后的目标函数为:其中i表示第i个样本,表示第i个样本的预测误差,Ω(fk)为第k棵树的复杂度;步骤3-3-3、对于目标函数中的模型复杂度Ω(fk),有:ft(x)=wq(x),w∈RT对于每一棵回归树,w为叶子节点的得分值,q(x)为样本x对应的叶子节点,T为该树的叶子节点个数;将树f拆分成结构q和叶子权重部分w,将q的输入映射到叶子的索引上;步骤3-3-4、将目标函数转换成:其中gi为t-1的损失函数对t-1棵树的预测值的偏导,hi为t-1的损失函数对t-1棵树的预测值的2阶偏导,T为第t棵树中总叶子节点的个数,Ij表示在第j个叶子节点上的样本,wj表示第j个叶子节点的得分值,γ为正则惩罚项中的参数;步骤3-3-5、目标函数中包含了T个独立的单变量二次函数,该目标函数对wj求导并且导数为0,求得:其中Gj=Σi∈Igi,Hj=Σi∈Ihi,Obj为目标函数,λ为惩罚项中的参数。本专利技术与现有技术相比,其显著优点在于:能够准确地计算企业违约的信息,建立效果良好的风控模型。附图说明图1为本专利技术基于xgboost的企业违约风险模型的建立方法的流程示意图。图2为本专利技术中数据未切割组织形式示意图。图3为本专利技术中利用滑动窗口进行数据切割的示意图。图4为本专利技术中的xgboost原理图。具体实施方式下面结合说明书附图对本专利技术的内容做进一步的说明。本专利技术基于xgboost的企业违约风险模型的建立方法,包括以下步骤:步骤1,对源数据进行整理,按照月进行拼接,形成企业的宽表L1;步骤2,利用自定义的滑动窗口函数进行宽表L1的切割,形成企业滑动窗口数据L2;步骤3,利用xgboost算法,使用滑动窗口数据L2进行建模,并对模型进行优化得到企业违约风险模型,进行企业违约风险的预测。作为一种具体示例,步骤1所述的对源数据进行整理,按照月进行拼接,形成企业的宽表L1,具体为:对源数据进行整理,按照月进行拼接,依次读取企业的数据,获得该企业按照月横向的宽表数据L1,任意一条数据为该企业按照自然月递增的顺序的集合,且每个月的数据包含相同的特征,即每一条数据σ={t1,t2,t3,…,tr},其中t1……tr为不同的月的数据,t中的特征数目和特征字段相同。作为一种具体示例,步骤2所述的利用自定义的滑动窗口函数进行宽表L1的切割,形成企业滑动窗口数据L2,具体为:步骤2-1,对宽表L1进行分析,根据窗口月的数量,以及每个月的特征数目,定义滑动窗口;步骤2-2,利用定义好的滑动窗口,对L1进行滑动,形成企业滑动窗口数据L2,即对于任意一条数据σ={t1,t2,t3,…,tr},若滑动窗口定义为本文档来自技高网
...

【技术保护点】
1.一种基于xgboost的企业违约风险模型的建立方法,其特征在于,包括以下步骤:步骤1,对源数据进行整理,按照月进行拼接,形成企业的宽表L1;步骤2,利用自定义的滑动窗口函数进行宽表L1的切割,形成企业滑动窗口数据L2;步骤3,利用xgboost算法,使用滑动窗口数据L2进行建模,并对模型进行优化得到企业违约风险模型,进行企业违约风险的预测。

【技术特征摘要】
1.一种基于xgboost的企业违约风险模型的建立方法,其特征在于,包括以下步骤:步骤1,对源数据进行整理,按照月进行拼接,形成企业的宽表L1;步骤2,利用自定义的滑动窗口函数进行宽表L1的切割,形成企业滑动窗口数据L2;步骤3,利用xgboost算法,使用滑动窗口数据L2进行建模,并对模型进行优化得到企业违约风险模型,进行企业违约风险的预测。2.根据权利要求1所述的基于xgboost的企业违约风险模型的建立方法,其特征在于,步骤1所述的对源数据进行整理,按照月进行拼接,形成企业的宽表L1,具体为:对源数据进行整理,按照月进行拼接,依次读取企业的数据,获得该企业按照月横向的宽表数据L1,任意一条数据为该企业按照自然月递增的顺序的集合,且每个月的数据包含相同的特征,即每一条数据σ={t1,t2,t3,…,tr},其中t1……tr为不同的月的数据,t中的特征数目和特征字段相同。3.根据权利要求1所述的基于xgboost的企业违约风险模型的建立方法,其特征在于,步骤2所述的利用自定义的滑动窗口函数进行宽表L1的切割,形成企业滑动窗口数据L2,具体为:步骤2-1,对宽表L1进行分析,根据窗口月的数量,以及每个月的特征数目,定义滑动窗口;步骤2-2,利用定义好的滑动窗口,对L1进行滑动,形成企业滑动窗口数据L2,即对于任意一条数据σ={t1,t2,t3,…,tr},若滑动窗口定义为n个月,则任意一条数据变为:σ1={t1,t2,t3,…,tn},σ2={t2,t3,t4,…,tn+1}…σr-n={tr-n,tr-n+1,tr-n+2,…,tr}。4.根据权利要求1所述的基于xgboost的企业违约风险模型的建立方法,其特征在于,步骤3所述的利用xgboost算法,使用滑动窗口数据L2进行建模,并对模型进行优化得到企业违约风险模型,进行企业违约风险的预测,具体...

【专利技术属性】
技术研发人员:董潇李千目刘奕婧
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1