The invention discloses a method for establishing enterprise default risk model based on xgboost. The method is as follows: firstly, the source data is sorted out and spliced monthly to form the wide table L1 of the enterprise, and any data is the collection of the enterprise in the order of natural monthly increment, and the data of each month contains the same characteristics; secondly, the wide table L1 is cut by the self-defined sliding window function to form the sliding window data L2 of the enterprise; lastly, the xgboost algorithm is used to make the data L2 of the enterprise sliding window. The sliding window data L2 is used to model and optimize the model. The method of the invention can improve the prediction accuracy of enterprise default risk model and establish a wind control model with good effect.
【技术实现步骤摘要】
一种基于xgboost的企业违约风险模型的建立方法
本专利技术涉及企业风险控制
,特别是一种基于xgboost的企业违约风险模型的建立方法。
技术介绍
随着机器学习的广泛应用,数据挖掘技术正在改变违约风险的预测模式,不同于传统方法所使用的涉及统计学特征、财务指标等“硬信息”,基于数据挖掘技术的风险模型可以由计算机自己识别重要的特征,将各种软信息加入到模型中,帮助计算机更好进行企业违约风险的预测。数据挖掘技术的应用势必会对传统的风险信用评估体系带来巨大冲击。相较于传统的信用风险评估模型,数据挖掘模型主要有三点优势。第一,传统的信用风险评估模型大多使用参数模型或者回归分析,有较严格的前提假设,比如OLS回归要求样本服从正态分布、无噪声且序列不相关,Logistic模型要求解释变量之间相关性较小,而数据挖掘模型的样本则基本没有相关限制。第二,数据挖掘模型可以利用更多的信息,包括“软信息”和“硬信息”,只要计算机的性能允许,可以不考虑特征选择的问题。第三,不同的数据挖掘模型分别针对的问题有所差异,所以可以选择在不同情况下表现最优的数据挖掘模型进行预测,相应的准确率更高。boosting集成学习,由多个相关联的决策树联合决策,xgboost是在GBDT基础上发展而来。传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到一阶和二阶导数。且xgboost工具支持自定义代价函数,只要函数可一阶和二阶求导。Xgboost对缺失值不敏感,对数据容忍度高,预测结果准确,同时速度快,可以媲美大型模型的架构,在预测违约信息当中可以发挥 ...
【技术保护点】
1.一种基于xgboost的企业违约风险模型的建立方法,其特征在于,包括以下步骤:步骤1,对源数据进行整理,按照月进行拼接,形成企业的宽表L1;步骤2,利用自定义的滑动窗口函数进行宽表L1的切割,形成企业滑动窗口数据L2;步骤3,利用xgboost算法,使用滑动窗口数据L2进行建模,并对模型进行优化得到企业违约风险模型,进行企业违约风险的预测。
【技术特征摘要】
1.一种基于xgboost的企业违约风险模型的建立方法,其特征在于,包括以下步骤:步骤1,对源数据进行整理,按照月进行拼接,形成企业的宽表L1;步骤2,利用自定义的滑动窗口函数进行宽表L1的切割,形成企业滑动窗口数据L2;步骤3,利用xgboost算法,使用滑动窗口数据L2进行建模,并对模型进行优化得到企业违约风险模型,进行企业违约风险的预测。2.根据权利要求1所述的基于xgboost的企业违约风险模型的建立方法,其特征在于,步骤1所述的对源数据进行整理,按照月进行拼接,形成企业的宽表L1,具体为:对源数据进行整理,按照月进行拼接,依次读取企业的数据,获得该企业按照月横向的宽表数据L1,任意一条数据为该企业按照自然月递增的顺序的集合,且每个月的数据包含相同的特征,即每一条数据σ={t1,t2,t3,…,tr},其中t1……tr为不同的月的数据,t中的特征数目和特征字段相同。3.根据权利要求1所述的基于xgboost的企业违约风险模型的建立方法,其特征在于,步骤2所述的利用自定义的滑动窗口函数进行宽表L1的切割,形成企业滑动窗口数据L2,具体为:步骤2-1,对宽表L1进行分析,根据窗口月的数量,以及每个月的特征数目,定义滑动窗口;步骤2-2,利用定义好的滑动窗口,对L1进行滑动,形成企业滑动窗口数据L2,即对于任意一条数据σ={t1,t2,t3,…,tr},若滑动窗口定义为n个月,则任意一条数据变为:σ1={t1,t2,t3,…,tn},σ2={t2,t3,t4,…,tn+1}…σr-n={tr-n,tr-n+1,tr-n+2,…,tr}。4.根据权利要求1所述的基于xgboost的企业违约风险模型的建立方法,其特征在于,步骤3所述的利用xgboost算法,使用滑动窗口数据L2进行建模,并对模型进行优化得到企业违约风险模型,进行企业违约风险的预测,具体...
【专利技术属性】
技术研发人员:董潇,李千目,刘奕婧,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。