一种融合机器学习的信贷预测逾期方法及系统技术方案

技术编号:23086067 阅读:16 留言:0更新日期:2020-01-11 01:30
本发明专利技术提供融合机器学习的信贷逾期预测方法及系统,收集若干信贷因素数据并进行预处理,对预处理结果中信贷因素数据的重要度进行计算排序并删除冗余,得到选择后信贷因素数据。基于信贷因素数据构建训练样本,基于训练样本利用LSTM建立并训练信贷逾期预测模型,确定最优参数,得到最佳模型后进行信贷逾期预测。本发明专利技术广泛收集信贷因素数据提升信贷逾期预测的全面性;对训练数据的缺失采用分类处理提升数据质量;针对用户的类不平衡情况用过采样方法进行处理,平衡数据分布;对影响信贷逾期的全部因素进行排序并剔除冗余,提高因素选择的合理性;基于双向LSTM结合时序因素综合建立信贷逾期预测模型,通过S折交叉确定最优模型参数,提高最佳模型质量。

A credit forecasting overdue method and system based on machine learning

【技术实现步骤摘要】
一种融合机器学习的信贷预测逾期方法及系统
本专利技术涉及一种融合机器学习的信贷逾期预测方法及系统。
技术介绍
近年来随着信贷申请的便捷快速、用户消费习惯的日渐改变,信贷量不断增长,信贷的业务风险也在不断增加。截至2018年一季度末,信用卡授信总额为13.14万亿元,保持着快速增长的态势;信用卡逾期半年未偿信贷总额占期末应偿信贷总额的1.21%,坏账率相对较高。信贷是商业银行利润的重要组成部分,但目前面临较高风险,因此商业银行需在风险防控领域重视此问题。当用户提出信贷申请时,对用户进行信贷逾期预测可有效降低借贷后发生逾期甚至形成坏账的风险。但是信贷业务涉及申贷人、放贷机构、特约商户甚至政府宏观金融政策,任何主体变动皆会对信贷风险产生影响,其跨行业、跨市场的特点使预测的复杂性大大增加。用户信贷逾期预测具有复杂的时空变异性,受多尺度、随机性等因素影响。传统上,相关机构根据以往用户信用状况统计分析用户信用评估准则,基于评估准则进行信贷逾期风险预测如5C分析法,从品格、资本、偿付能力、抵押品和经济周期五个因素对借款人进行判断和权衡。此方法不仅对分析者要求和依赖性高,还需要培训后备专家,成本较高,而且此多依赖于申贷人的历史表现和专家主观判断,缺乏客观评价分析,准确性较差。近期研究者将机器学习应用于信贷逾期预测领域,基于历史消费数据、人口统计数据、消费数据,采用逻辑回归方法(LR)预测申贷人信用状况;在信用评分问题中,对传统的统计和现代数据挖掘、机器学习工具进行评估,结果表明现代机器学习方法优势明显;有研究者提出了一个总体框架,通过使用机器学习方法评估个人消费信贷风险,其证明回归优化射频性能在短期分期付款的测试数据上优于逻辑回归模型、近邻算法;但上述方法获得的数据存在局限性,忽略了用户财务信息、其他金融机构信用记录等数据。另一方面,原始数据一般存在较严重缺失、重复、不规范状况,直接建模会对预测精度产生较大影响,已有研究没进行充分的数据清洗与特征选择。此外,不同因素对信贷逾期影响差异较大,当因素较多时,仅依靠经验、已有研究对因素进行选择,不但效率低而且合理性差。综上所述,如何能够提供一种能够综合考虑影响信贷逾期的各种因素,并有效的进行数据预处理及因素选择,从而提供信贷逾期预测准确率成为亟待解决的问题。
技术实现思路
本专利技术提供一种融合机器学习的信贷逾期预测方法及系统,用以解决现有技术中由于原始数据缺失、数据分布不均衡、多依赖人工经验等,导致信贷逾期预测效率低而且预测结果不准确的问题。为了实现上述目的,本专利技术技术方案提供了一种融合机器学习的信贷逾期预测方法,所述方法包括:判断信贷因素数据的数据状态并进行数据处理,得到预处理结果。采用梯度提升树方法计算所述预处理结果中的各信贷因素数据的重要度并排序,基于排序结果删除冗余因素,得到选择后信贷因素数据。基于时间序列构建训练样本后,利用LSTM建立并训练信贷逾期预测模型,并通过S折交叉验证确定所述信贷逾期预测模型的最优参数,得到最佳模型。通过所述最佳模型对申贷用户进行信贷逾期预测。作为上述技术方案的优选,较佳的,收集若干用户的若干所述信贷因素数据包括,申请信息数据、信用记录数据、贷款状态数据、申请记录数据、信用卡数据。计算收集样本中逾期用户和未逾期用户之比,若计算结果为逾期用户远少于未逾期用户的类不平衡情况,则对所述逾期用户过采样,使得所述逾期用户和所述未逾期用户之比满足预设比例阈值。其中,所述信贷因素数据不少于150维。作为上述技术方案的优选,较佳的,判断信贷因素数据的数据状态并进行数据处理,得到预处理结果,包括:判断所述信贷因素数据中的数据缺失状态,若大于缺失阈值则采用随机森林算法填补缺失数据;若小于缺失阈值则采用均值法对缺失数据进行填补。作为上述技术方案的优选,较佳的,采用随机森林算法填补缺失数据,包括:统计所述信贷因素数据中的每个因素数据缺失情况,得到每个因素的完整数据集和缺失数据集。以完整数据集作为训练样本构建随机森林模型,将缺失数据集输入所述随机森林模型,得到预测结果来填补因素的缺失数据,具体的,训练样本为(xi1,xi2,xi3...xij-1,xij+1...xin,xij),其中xij为预测目标;xi1,xi2,xi3...xin为特征向量,建立随机森林模型获取预测目标即缺失数据。其中,采用one-hot编码对离散非数值型因素进行处理。作为上述技术方案的优选,较佳的,采用均值法对缺失数据进行填补,包括:统计信贷因素数据中的每个因素数据缺失情况,将缺失因素分为数值属性和非数值属性,若缺失因素为数值型则计算所有对象的平均值进行填充,若缺失因素为离散非数值型则利用所有对象取值次数最多的值进行填充。其中,采用one-hot编码对离散非数值型因素进行处理。作为上述技术方案的优选,较佳的,采用梯度提升树方法计算所述预处理结果中各因素的重要度通过排序删除冗余因素,得到选择后信贷因素数据,包括:计算用于判别用户信贷逾期的信贷因素数据在单棵决策树中重要度。根据单棵决策树中重要度计算结果,计算每个所述信贷因素数据在全部梯度提升树的全局重要度。依据每个信贷因素数据的全局重要度计算结果,对全部所述信贷因素数据依据全局重要度进行排序,将部分冗余信贷因素数据进行删除,得到所述选择后信贷因素数据。作为上述技术方案的优选,较佳的,基于时间序列对所述信贷因素数据构建训练样本后,基于训练样本利用LSTM建立并训练信贷逾期预测模型,包括:将用户在周期内各时刻的信贷因素数据和此用户信贷逾期与否状态作为所述训练样本。对所选信贷因素数据进行归一化处理后输入1-D全卷积层并获取卷积层输出结果。将全卷积层输出结果输入双向LSTM模型,从而构建所述信贷逾期预测模型。作为上述技术方案的优选,较佳的,并通过S折交叉验证确定所述信贷逾期预测模型的最优参数,得到最佳模型,包括:将若干用户的若干信贷因素数据划分为k份,验证集1份,训练样本k-1份。根据所述训练样本训练所述信贷逾期预测模型。将所述验证集输入信贷逾期预测模型通过ROC对所述信贷逾期预测模型的预测性能进行评估。根据ROC对所述信贷逾期预测模型的预测性能进行评估,具体的,在k次信贷逾期模型训练及预测中,ROCavg的曲线面积最靠近1时,信贷逾期预测模型为最佳模型;其中,ROCi为每个测试集的结果。为了实现上述目的,本专利技术技术方案还提供了一种融合机器学习的信贷逾期预测系统能够实上述方法,包括:数据收集模块:用于收集若干用户的若干所述信贷因素数据,包括,申请信息数据、信用记录数据、贷款状态数据、申请记录数据、信用卡数据;其中,所述信贷因素数据不少于150维。数据预处理模块:用于判断信贷因素数据的数据状态并进行数据处理,得到预处理结果,包括,判断所述信贷因素数据中的数据缺失状态,若大于缺失阈值则采用随机森林算法填补缺失数据;若小于缺失阈值则采用均值法对缺失数据进行填补,对离散非数值型属性进行one-hot编码,得到预处理结果。信贷因素数据选择模块:采用梯度提升树方法计算所述预处理结果中的各信贷因素数据的本文档来自技高网
...

【技术保护点】
1.一种融合机器学习的信贷逾期预测方法,其特征在于,所述方法包括:/n判断信贷因素数据的数据状态并进行数据处理,得到预处理结果;/n采用梯度提升树方法对所述预处理结果中的各信贷因素数据的重要度进行计算排序后删除冗余因素,得到选择后信贷因素数据;/n基于时间序列对所述信贷因素数据构建训练样本后,基于训练样本利用LSTM建立并训练信贷逾期预测模型,通过S折交叉验证确定所述信贷逾期预测模型的最优参数,得到最佳模型;/n通过所述最佳模型进行信贷逾期预测。/n

【技术特征摘要】
1.一种融合机器学习的信贷逾期预测方法,其特征在于,所述方法包括:
判断信贷因素数据的数据状态并进行数据处理,得到预处理结果;
采用梯度提升树方法对所述预处理结果中的各信贷因素数据的重要度进行计算排序后删除冗余因素,得到选择后信贷因素数据;
基于时间序列对所述信贷因素数据构建训练样本后,基于训练样本利用LSTM建立并训练信贷逾期预测模型,通过S折交叉验证确定所述信贷逾期预测模型的最优参数,得到最佳模型;
通过所述最佳模型进行信贷逾期预测。


2.根据权利要求1所述的融合机器学习的信贷逾期预测方法,其特征在于,还包括:收集若干用户的若干所述信贷因素数据包括,申请信息数据、信用记录数据、贷款状态数据、申请记录数据、信用卡数据作为收集样本;
根据所述信贷因素数据计算所述收集样本中逾期用户和未逾期用户之比,若计算结果为逾期用户少于未逾期用户的类不平衡情况,则对所述逾期用户过采样,使得所述逾期用户和所述未逾期用户之比满足预设比例阈值;
其中,所述信贷因素数据不少于150维。


3.根据权利要求2所述的融合机器学习的信贷逾期预测方法,其特征在于,所述判断信贷因素数据的数据状态并进行数据处理,得到预处理结果,包括:
判断所述信贷因素数据中的数据缺失状态,若大于缺失阈值则采用随机森林算法填补缺失数据;若小于缺失阈值则采用均值法对缺失数据进行填补。


4.根据权利要求3所述的融合机器学习的信贷逾期预测方法,其特征在于,所述采用随机森林算法填补缺失数据,包括:
统计所述信贷因素数据中的每个因素数据缺失情况,得到此因素的完整数据集和因素缺失数据集;
以完整数据集作为训练样本构建随机森林模型,将缺失数据集输入所述随机森林模型用于填补该因素的缺失数据,具体的,
训练样本为(xi1,xi2,xi3...xij-1,xij+1...xin,xij),其中xij为预测目标;xi1,xi2,xi3...xin为特征向量,建立随机森林模型,通过所述随机森林模型预测缺失数据;
其中,采用one-hot编码对离散非数值型因素进行处理。


5.根据权利要求3所述的融合机器学习的信贷逾期预测方法,其特征在于,采用均值法对缺失数据进行填补,包括:
统计所述信贷因素数据中的每个因素数据缺失情况,将缺失因素分为数值属性和非数值属性,若所述缺失因素为数值型则计算所有对象的平均值进行填充,若所述缺失因素为离散非数值型则利用所有对象取值次数最多的值进行填充;
其中,采用one-hot编码对离散非数值型因素进行处理。


6.根据权利要求2所述的融合机器学习的信贷逾期预测方法,其特征在于,采用梯度提升树方法对所述预处理结果中的各因素的重要度进行计算排序后删除冗余因素,得到选择后信贷因素数据,包括:
计算用于判别用户信贷逾期的信贷因素数据在单棵决策树中重要度;
根据单棵决策树中重要度计算结果,计算每个所述信贷因素数据在全部梯度提升树的全局重要度;
依据每个所述信贷因素数据的全局重要度计算结果,对全部所述信贷因素数据依据全局...

【专利技术属性】
技术研发人员:邱晓慧杨波于鸽董晶王海涛
申请(专利权)人:北京银联金卡科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1