一种融合机器学习的信贷预测逾期方法及系统技术方案

技术编号：23086067 阅读：16 留言：0更新日期：2020-01-11 01:30

本发明专利技术提供融合机器学习的信贷逾期预测方法及系统，收集若干信贷因素数据并进行预处理，对预处理结果中信贷因素数据的重要度进行计算排序并删除冗余，得到选择后信贷因素数据。基于信贷因素数据构建训练样本，基于训练样本利用LSTM建立并训练信贷逾期预测模型，确定最优参数，得到最佳模型后进行信贷逾期预测。本发明专利技术广泛收集信贷因素数据提升信贷逾期预测的全面性；对训练数据的缺失采用分类处理提升数据质量；针对用户的类不平衡情况用过采样方法进行处理，平衡数据分布；对影响信贷逾期的全部因素进行排序并剔除冗余，提高因素选择的合理性；基于双向LSTM结合时序因素综合建立信贷逾期预测模型，通过S折交叉确定最优模型参数，提高最佳模型质量。

A credit forecasting overdue method and system based on machine learning

全部详细技术资料下载

【技术实现步骤摘要】
一种融合机器学习的信贷预测逾期方法及系统
本专利技术涉及一种融合机器学习的信贷逾期预测方法及系统。
技术介绍
近年来随着信贷申请的便捷快速、用户消费习惯的日渐改变，信贷量不断增长，信贷的业务风险也在不断增加。截至2018年一季度末，信用卡授信总额为13.14万亿元，保持着快速增长的态势；信用卡逾期半年未偿信贷总额占期末应偿信贷总额的1.21％，坏账率相对较高。信贷是商业银行利润的重要组成部分，但目前面临较高风险，因此商业银行需在风险防控领域重视此问题。当用户提出信贷申请时，对用户进行信贷逾期预测可有效降低借贷后发生逾期甚至形成坏账的风险。但是信贷业务涉及申贷人、放贷机构、特约商户甚至政府宏观金融政策，任何主体变动皆会对信贷风险产生影响，其跨行业、跨市场的特点使预测的复杂性大大增加。用户信贷逾期预测具有复杂的时空变异性，受多尺度、随机性等因素影响。传统上，相关机构根据以往用户信用状况统计分析用户信用评估准则，基于评估准则进行信贷逾期风险预测如5C分析法，从品格、资本、偿付能力、抵押品和经济周期五个因素对借款人进行判断和权衡。此方法不仅对分析者要求和依赖性高，还需要培训后备专家，成本较高，而且此多依赖于申贷人的历史表现和专家主观判断，缺乏客观评价分析，准确性较差。近期研究者将机器学习应用于信贷逾期预测领域，基于历史消费数据、人口统计数据、消费数据，采用逻辑回归方法(LR)预测申贷人信用状况；在信用评分问题中，对传统的统计和现代数据挖掘、机器学习工具进行评估，结果表明现代机器学习方法优势明显；有研究者提出了...

【技术保护点】
1.一种融合机器学习的信贷逾期预测方法，其特征在于，所述方法包括：/n判断信贷因素数据的数据状态并进行数据处理，得到预处理结果；/n采用梯度提升树方法对所述预处理结果中的各信贷因素数据的重要度进行计算排序后删除冗余因素，得到选择后信贷因素数据；/n基于时间序列对所述信贷因素数据构建训练样本后，基于训练样本利用LSTM建立并训练信贷逾期预测模型，通过S折交叉验证确定所述信贷逾期预测模型的最优参数，得到最佳模型；/n通过所述最佳模型进行信贷逾期预测。/n

【技术特征摘要】
1.一种融合机器学习的信贷逾期预测方法，其特征在于，所述方法包括：
判断信贷因素数据的数据状态并进行数据处理，得到预处理结果；
采用梯度提升树方法对所述预处理结果中的各信贷因素数据的重要度进行计算排序后删除冗余因素，得到选择后信贷因素数据；
基于时间序列对所述信贷因素数据构建训练样本后，基于训练样本利用LSTM建立并训练信贷逾期预测模型，通过S折交叉验证确定所述信贷逾期预测模型的最优参数，得到最佳模型；
通过所述最佳模型进行信贷逾期预测。

2.根据权利要求1所述的融合机器学习的信贷逾期预测方法，其特征在于，还包括：收集若干用户的若干所述信贷因素数据包括，申请信息数据、信用记录数据、贷款状态数据、申请记录数据、信用卡数据作为收集样本；
根据所述信贷因素数据计算所述收集样本中逾期用户和未逾期用户之比，若计算结果为逾期用户少于未逾期用户的类不平衡情况，则对所述逾期用户过采样，使得所述逾期用户和所述未逾期用户之比满足预设比例阈值；
其中，所述信贷因素数据不少于150维。

3.根据权利要求2所述的融合机器学习的信贷逾期预测方法，其特征在于，所述判断信贷因素数据的数据状态并进行数据处理，得到预处理结果，包括：
判断所述信贷因素数据中的数据缺失状态，若大于缺失阈值则采用随机森林算法填补缺失数据；若小于缺失阈值则采用均值法对缺失数据进行填补。

4.根据权利要求3所述的融合机器学习的信贷逾期预测方法，其特征在于，所述采用随机森林算法填补缺失数据，包括：
统计所述信贷因素数据中的每个因素数据缺失情况，得到此因素的完整数据集和因素缺失数据集；
以完整数据集作为训练样本构建随机森林模型，将缺失数据集输入所述随机森林模型用于填补该因素的缺失数据，具体的，
训练样本为(xi1,xi2,xi3...xij-1,xij+1...xin,xij)，其中xij为预测目标；xi1,xi2,xi3...xin为特征向量，建立随机森林模型，通过所述随机森林模型预测缺失数据；
其中，采用one-hot编码对离散非数值型因素进行处理。

5.根据权利要求3所述的融合机器学习的信贷逾期预测方法，其特征在于，采用均值法对缺失数据进行填补，包括：
统计所述信贷因素数据中的每个因素数据缺失情况，将缺失因素分为数值属性和非数值属性，若所述缺失因素为数值型则计算所有对象的平均值进行填充，若所述缺失因素为离散非数值型则利用所有对象取值次数最多的值进行填充；
其中，采用one-hot编码对离散非数值型因素进行处理。

6.根据权利要求2所述的融合机器学习的信贷逾期预测方法，其特征在于，采用梯度提升树方法对所述预处理结果中的各因素的重要度进行计算排序后删除冗余因素，得到选择后信贷因素数据，包括：
计算用于判别用户信贷逾期的信贷因素数据在单棵决策树中重要度；
根据单棵决策树中重要度计算结果，计算每个所述信贷因素数据在全部梯度提升树的全局重要度；
依据每个所述信贷因素数据的全局重要度计算结果，对全部所述信贷因素数据依据全局...

【专利技术属性】
技术研发人员：邱晓慧，杨波，于鸽，董晶，王海涛，
申请(专利权)人：北京银联金卡科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人