一种基于深度学习的非结构化数据的违约概率预测方法技术

技术编号:21146722 阅读:121 留言:0更新日期:2019-05-22 02:37
本发明专利技术涉及到一种基于深度学习的非结构化数据的违约概率预测方法,该方法包括有:集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据;将非结构化数据变换为深度学习模型可识别的数据格式;基于深度学习模型框架,提取数据特征作为样本数据;针对提取出来的样本数据,利用复杂机器学习分类算法‑集成树模型构建信用风险模型,输出违约概率预测。本发明专利技术的方法通过挖掘文本和时序等非结构化数据,基于深度学习和大数据技术捕捉信贷主体人潜在的风险行为模式,在此之上进行高维数据信用风险建模,实现了对信贷主体人自动、全面、流程化的定量信用风险分析以提升金融风控能力和降低信贷风险。

A Prediction Method of Default Probability Based on Deep Learning for Unstructured Data

The present invention relates to a method for predicting default probability of unstructured data based on in-depth learning, which includes: integrating and cleaning unstructured data of credit subjects, including text data and time series data; transforming unstructured data into data formats recognizable by in-depth learning model; and extracting data features as samples based on in-depth learning model framework. According to the extracted sample data, the credit risk model is constructed by using the complex machine learning classification algorithm ensemble tree model, and the default probability prediction is output. By mining unstructured data such as text and time series, capturing potential risk behavior patterns of credit subject based on deep learning and big data technology, the method of the present invention carries out high-dimensional data credit risk modeling, realizes automatic, comprehensive and procedural quantitative credit risk analysis of credit subject to enhance financial wind control ability and reduce credit risk.

【技术实现步骤摘要】
一种基于深度学习的非结构化数据的违约概率预测方法
本专利技术涉及金融风控领域,具体涉及一种基于深度学习的非结构化数据的违约概率预测方法。
技术介绍
在移动互联网快速普及的当下,用户的金融行为习惯正发生巨大的变化,大部分人在生活中正愈发习惯于通过互联网来安排一天的吃穿住行。受此影响,用户的电商数据、行为数据、社交数据等非结构化数据在数据体量和丰富性上较过去几年都有了一个飞跃提升。这些数据一方面具有被动数据的特点,更加真实难伪造,能够客观描述一个人长期的金融行为习惯;另一方面,也具有触手可及,获取成本较低的优点。因此,整个金融体系都在全力挖掘非结构化数据,在广告营销、用户运营等领域也都得到了率先应用。对于信贷风控场景而言,目前对此类非结构化数据的理解和使用依然存在较高的门槛,具体难点分解如下:1.数据清洗繁重:由于非结构化数据诸如文本、时序数据天然具有体量大、难加工的特性,简单的处理方法不仅消耗计算资源多,且远远难以达到可供加工的程度。2.数据变换复杂:为了能够利用深度学习模型提取全量数据的价值,需要将非结构化数据变换为张量形式,传统的变换方式存在矩阵稀疏,损失信息过多等缺点。3.特征提取困难:传统针对向量化后的数据,往往会通过人工提取特征,或者直接在原始数据上硬编码正则表达式等方式提取特征,然而此类方法存在较大局限,不仅提取价值有限,而且难以适应线上风险环境的快速演变。4.风险建模困难:由于非结构化数据所能提取的特征经常是上千甚至上万维度,远远超出传统评分卡模型所能处理的范围,金融机构需要更前沿的机器学习算法来完成建模以及一系列评估和自动输出违约概率预测的方法。因此,整个金融风控领域都急需一套更加合理的基于深度学习的非结构化数据的违约概率预测方法,来实现从数据的接入、清洗、变换、到特征加工、风险建模与迭代的闭环解决方案。
技术实现思路
本专利技术的目的在于克服上述现有技术中存在的不足,设计一种基于深度学习的非结构化数据的违约概率预测方法。本专利技术专利的方法通过对信贷主体人进行定量信用风险分析,利用非结构化数据进行判断以提升金融风控能力和降低信贷风险为了达到上述专利技术目的,本专利技术专利提供的技术方案如下:一种基于深度学习的非结构化数据的违约概率预测方法,其特征在于,具体包括以下步骤:步骤1:集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据,;步骤2:非结构化数据变换,将非结构化数据变换为深度学习模型可识别的数据格式,针对文本型数据,基于词在文档、语料库中出现的次数以及词与词在特定长度窗口中共现的次数,将文本输入无监督算法转换为向量表达式;针对时序型数据,基于不同时序维度将原始的时间序列数据聚合计算为不同的时序向量表达式;步骤3:基于深度学习模型框架提取数据特征作为样本数据供上层分类判别模型使用,提取数据特征具体包括定义神经网络结构,将上述向量表达式和用户违约标签作为样本进行神经网络模型训练,抽取隐层特征作为样本数据;步骤4:利用复杂机器学习分类算法-集成树模型进行信用风险建模,通过构建的信用风险模型输出作为违约概率预测的数据。在本专利技术基于深度学习的非结构化数据的违约概率预测方法中,所述步骤1中集成和清洗信贷主体人的非结构化数据具体包括有:首先,从主流数据平台获取同一信贷主体人的各类身份原始数据;其次,集成包括文本数据和时序数据在内的非结构化数据;然后,针对不同的类型的数据进行相应清洗:针对文本型数据,清洗步骤包括文本拼接、去除非中文字符、去除非大小写英文字符、去除非数字字符以及去除针对金融风控场景的停词和低频词;针对时序型数据,基于不同时序维度进行重采样加工,不同时序维度包括周、日和小时。在本专利技术基于深度学习的非结构化数据的违约概率预测方法中,所述步骤2中将非结构化数据变换为深度学习模型可识别的数据格式的具体步骤为:判断非结构化数据的数据类型,所述数据类型包括文本型数据和时序型数据;当数据为文本型数据时,基于无监督算法,具体的可选择算法包括有CountVectorizer、TfidfVectorizer、Word2vec和Glove算法,算法的基本思想是基于文本中某个特定词在语料库中出现的次数,某个特定词在文档中出现的次数,以及某个特定词与其它词在上下文特定长度窗口中共现的次数,将文本输入上述任一算法变换为向量表达式,并且通过最大化词与词共现的概率为目标以优化向量表达式,形成深度学习可识别的文本数据格式;当所述数据为时序型数据时,基于不同时序维度,具体包括小时、日、周,将时间序列数据聚合计算为不同的向量表达式,所述聚合计算的可选择算法包括有Max、Min、Mean、Median和Quantile。在本专利技术基于深度学习的非结构化数据的违约概率预测方法中,出于修改或扩充原始数据的目的,还采用了两种加工向量表达式的方法,具体包括Rescale和RandomCrop两种算法:Rescale算法是根据定义的向量大小,将向量缩放至同一维度;RandomCrop算法是随机抛弃有限个数的向量行或向量列,形成同一维度大小的向量在本专利技术基于深度学习的非结构化数据的违约概率预测方法中,所述步骤3中基于深度学习模型框架提取数据特征作为样本数据,其具体步骤为:首先,定义循环神经网络结构、卷积神经网络结构作为深度学习模型框架;其次,将变换后的向量表达式和用户是否违约的好坏标签作为样本直接进行深度学习模型的端到端训练;然后,提取神经网络隐层特征,即抽取神经网络倒数第二层的数值作为数据特征,最终形成可供上层分类判别模型使用的样本数据。在本专利技术基于深度学习的非结构化数据的违约概率预测方法中,更进一步地,所述深度学习模型的训练过程有三种参数优化算法可供择一使用,具体包括:(1)GradientDescentwithMomentum算法:基于指数加权平滑模型,对传统模型训练所用的梯度下降算法进行了优化,可有效减少训练过程中的震荡问题,大大加速了损失函数的收敛速度;(2)RMSprop算法:基于指数加权平滑模型,通过考虑参数在不同方向上的收敛速度,可以使得训练过程在效果不变的情况下变得更加激进,加速训练速度;(3)Adam算法:兼顾了上述GradientDescentwithMomentum和RMSprop的优点,使得超参数设置可以变得更加激进,训练速度提升的同时,效果上也得到了进一步的提高。在本专利技术基于深度学习的非结构化数据的违约概率预测方法中,所述步骤4中利用复杂机器学习分类算法-集成树模型构建信用风险模型输出违约概率的具体步骤为:首先,将上述样本数据进行训练集、测试集划分;其次,基于数据量和特征分布情况,预设模型超参数空间;然后,采用最佳超参数搜索算法根据机器学习分类算法-集成树模型的标准性能指标(AUC)进行模型超参数选择;最后,拟合模型并输出可预测违约概率的数据。上述所用的机器学习分类算法-集成树模型具体是指LightGBM集成树模型,由于该模型超参数较多且相互依赖,为了降低建模人员对算法原理的理解要求,在该模型之上的最佳模型超参数搜索算法具体采用了Hyperopt/skopt搜索算法。基于上述技术方案,本专利技术专利用于金融风控的基于深度学习的违约概率预测方法取得了如下技术效果:1.本专利技术的基于深度学习的违约概率预测方法,通过挖本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的非结构化数据的违约概率预测方法,其特征在于,具体包括以下步骤:步骤1:集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据,首先,从主流数据平台获取同一信贷主体人的各类身份原始数据;其次,集成包括文本数据和时序数据在内的非结构化数据;然后,针对不同的类型的数据进行相应清洗:针对文本型数据,清洗步骤包括文本拼接、去除非中文字符、去除非大小写英文字符、去除非数字字符以及去除针对金融风控场景的停词和低频词;针对时序型数据,基于不同时序维度进行重采样加工,不同时序维度包括周、日和小时;步骤2:非结构化数据变换,将非结构化数据变换为深度学习模型可识别的数据格式,针对文本型数据,基于词在文档、语料库中出现的次数以及词与词在特定长度窗口中共现的次数,将文本输入无监督算法转换为向量表达式;针对时序型数据,基于不同时序维度将原始的时间序列数据聚合计算为不同的时序向量表达式;步骤3:基于深度学习模型框架提取数据特征作为样本数据供上层分类判别模型使用,提取数据特征具体包括定义神经网络结构,将上述向量表达式和用户违约标签作为样本进行神经网络模型训练,抽取隐层特征作为样本数据;基于深度学习模型框架提取数据特征作为样本数据的具体步骤为:首先,定义循环神经网络结构、卷积神经网络结构作为深度学习模型框架;其次,将变换后的向量表达式和用户是否违约的好坏标签作为样本直接进行深度学习模型的端到端训练;然后,提取神经网络隐层特征,即抽取神经网络倒数第二层的数值作为数据特征,最终形成可供上层分类判别模型使用的样本数据;步骤4:利用复杂机器学习分类算法‑集成树模型进行信用风险建模,通过构建的信用风险模型输出作为违约概率预测的数据,具体步骤为:首先,将上述样本数据进行训练集、测试集划分;其次,基于数据量和特征分布情况,预设模型超参数空间;然后,采用最佳超参数搜索算法根据机器学习分类算法‑集成树模型的标准性能指标进行模型超参数选择;最后,拟合模型并输出可预测违约概率的数据。...

【技术特征摘要】
1.一种基于深度学习的非结构化数据的违约概率预测方法,其特征在于,具体包括以下步骤:步骤1:集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据,首先,从主流数据平台获取同一信贷主体人的各类身份原始数据;其次,集成包括文本数据和时序数据在内的非结构化数据;然后,针对不同的类型的数据进行相应清洗:针对文本型数据,清洗步骤包括文本拼接、去除非中文字符、去除非大小写英文字符、去除非数字字符以及去除针对金融风控场景的停词和低频词;针对时序型数据,基于不同时序维度进行重采样加工,不同时序维度包括周、日和小时;步骤2:非结构化数据变换,将非结构化数据变换为深度学习模型可识别的数据格式,针对文本型数据,基于词在文档、语料库中出现的次数以及词与词在特定长度窗口中共现的次数,将文本输入无监督算法转换为向量表达式;针对时序型数据,基于不同时序维度将原始的时间序列数据聚合计算为不同的时序向量表达式;步骤3:基于深度学习模型框架提取数据特征作为样本数据供上层分类判别模型使用,提取数据特征具体包括定义神经网络结构,将上述向量表达式和用户违约标签作为样本进行神经网络模型训练,抽取隐层特征作为样本数据;基于深度学习模型框架提取数据特征作为样本数据的具体步骤为:首先,定义循环神经网络结构、卷积神经网络结构作为深度学习模型框架;其次,将变换后的向量表达式和用户是否违约的好坏标签作为样本直接进行深度学习模型的端到端训练;然后,提取神经网络隐层特征,即抽取神经网络倒数第二层的数值作为数据特征,最终形成可供上层分类判别模型使用的样本数据;步骤4:利用复杂机器学习分类算法-集成树模型进行信用风险建模,通过构建的信用风险模型输出作为违约概率预测的数据,具体步骤为:首先,将上述样本数据进行训练集、测试集划分;其次,基于数据量和特征分布情况,预设模型超参数空间;然后,采用最佳超参数搜索算法根据机器学习分类算法-集成树模型的标准性能指标进行模型超参数选择;最后,拟合模型并输出可预测违约概率的数据。2.根据权利要求1所述的一种基于深度学习的非结构化数据的违约概率预测方法,其特征在于,所述步骤2中将非结构化数据变换为深度学习模型可识别的数据格式的具体步骤为:判断非结构化数据的数据类型,所述数据类型包括文本型数据和时序型数据;当数据为文本型数据时,基于无监督算法,具体的可选择...

【专利技术属性】
技术研发人员:唐正阳周春英朱明杰朱敏魏岩
申请(专利权)人:上海氪信信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1