The present invention relates to a method for predicting default probability of unstructured data based on in-depth learning, which includes: integrating and cleaning unstructured data of credit subjects, including text data and time series data; transforming unstructured data into data formats recognizable by in-depth learning model; and extracting data features as samples based on in-depth learning model framework. According to the extracted sample data, the credit risk model is constructed by using the complex machine learning classification algorithm ensemble tree model, and the default probability prediction is output. By mining unstructured data such as text and time series, capturing potential risk behavior patterns of credit subject based on deep learning and big data technology, the method of the present invention carries out high-dimensional data credit risk modeling, realizes automatic, comprehensive and procedural quantitative credit risk analysis of credit subject to enhance financial wind control ability and reduce credit risk.
【技术实现步骤摘要】
一种基于深度学习的非结构化数据的违约概率预测方法
本专利技术涉及金融风控领域,具体涉及一种基于深度学习的非结构化数据的违约概率预测方法。
技术介绍
在移动互联网快速普及的当下,用户的金融行为习惯正发生巨大的变化,大部分人在生活中正愈发习惯于通过互联网来安排一天的吃穿住行。受此影响,用户的电商数据、行为数据、社交数据等非结构化数据在数据体量和丰富性上较过去几年都有了一个飞跃提升。这些数据一方面具有被动数据的特点,更加真实难伪造,能够客观描述一个人长期的金融行为习惯;另一方面,也具有触手可及,获取成本较低的优点。因此,整个金融体系都在全力挖掘非结构化数据,在广告营销、用户运营等领域也都得到了率先应用。对于信贷风控场景而言,目前对此类非结构化数据的理解和使用依然存在较高的门槛,具体难点分解如下:1.数据清洗繁重:由于非结构化数据诸如文本、时序数据天然具有体量大、难加工的特性,简单的处理方法不仅消耗计算资源多,且远远难以达到可供加工的程度。2.数据变换复杂:为了能够利用深度学习模型提取全量数据的价值,需要将非结构化数据变换为张量形式,传统的变换方式存在矩阵稀疏,损失信息过多等缺点。3.特征提取困难:传统针对向量化后的数据,往往会通过人工提取特征,或者直接在原始数据上硬编码正则表达式等方式提取特征,然而此类方法存在较大局限,不仅提取价值有限,而且难以适应线上风险环境的快速演变。4.风险建模困难:由于非结构化数据所能提取的特征经常是上千甚至上万维度,远远超出传统评分卡模型所能处理的范围,金融机构需要更前沿的机器学习算法来完成建模以及一系列评估和自动输出违约概率预测的方 ...
【技术保护点】
1.一种基于深度学习的非结构化数据的违约概率预测方法,其特征在于,具体包括以下步骤:步骤1:集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据,首先,从主流数据平台获取同一信贷主体人的各类身份原始数据;其次,集成包括文本数据和时序数据在内的非结构化数据;然后,针对不同的类型的数据进行相应清洗:针对文本型数据,清洗步骤包括文本拼接、去除非中文字符、去除非大小写英文字符、去除非数字字符以及去除针对金融风控场景的停词和低频词;针对时序型数据,基于不同时序维度进行重采样加工,不同时序维度包括周、日和小时;步骤2:非结构化数据变换,将非结构化数据变换为深度学习模型可识别的数据格式,针对文本型数据,基于词在文档、语料库中出现的次数以及词与词在特定长度窗口中共现的次数,将文本输入无监督算法转换为向量表达式;针对时序型数据,基于不同时序维度将原始的时间序列数据聚合计算为不同的时序向量表达式;步骤3:基于深度学习模型框架提取数据特征作为样本数据供上层分类判别模型使用,提取数据特征具体包括定义神经网络结构,将上述向量表达式和用户违约标签作为样本进行神经网络模型训练,抽取隐层特征作为样本数据;基于 ...
【技术特征摘要】
1.一种基于深度学习的非结构化数据的违约概率预测方法,其特征在于,具体包括以下步骤:步骤1:集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据,首先,从主流数据平台获取同一信贷主体人的各类身份原始数据;其次,集成包括文本数据和时序数据在内的非结构化数据;然后,针对不同的类型的数据进行相应清洗:针对文本型数据,清洗步骤包括文本拼接、去除非中文字符、去除非大小写英文字符、去除非数字字符以及去除针对金融风控场景的停词和低频词;针对时序型数据,基于不同时序维度进行重采样加工,不同时序维度包括周、日和小时;步骤2:非结构化数据变换,将非结构化数据变换为深度学习模型可识别的数据格式,针对文本型数据,基于词在文档、语料库中出现的次数以及词与词在特定长度窗口中共现的次数,将文本输入无监督算法转换为向量表达式;针对时序型数据,基于不同时序维度将原始的时间序列数据聚合计算为不同的时序向量表达式;步骤3:基于深度学习模型框架提取数据特征作为样本数据供上层分类判别模型使用,提取数据特征具体包括定义神经网络结构,将上述向量表达式和用户违约标签作为样本进行神经网络模型训练,抽取隐层特征作为样本数据;基于深度学习模型框架提取数据特征作为样本数据的具体步骤为:首先,定义循环神经网络结构、卷积神经网络结构作为深度学习模型框架;其次,将变换后的向量表达式和用户是否违约的好坏标签作为样本直接进行深度学习模型的端到端训练;然后,提取神经网络隐层特征,即抽取神经网络倒数第二层的数值作为数据特征,最终形成可供上层分类判别模型使用的样本数据;步骤4:利用复杂机器学习分类算法-集成树模型进行信用风险建模,通过构建的信用风险模型输出作为违约概率预测的数据,具体步骤为:首先,将上述样本数据进行训练集、测试集划分;其次,基于数据量和特征分布情况,预设模型超参数空间;然后,采用最佳超参数搜索算法根据机器学习分类算法-集成树模型的标准性能指标进行模型超参数选择;最后,拟合模型并输出可预测违约概率的数据。2.根据权利要求1所述的一种基于深度学习的非结构化数据的违约概率预测方法,其特征在于,所述步骤2中将非结构化数据变换为深度学习模型可识别的数据格式的具体步骤为:判断非结构化数据的数据类型,所述数据类型包括文本型数据和时序型数据;当数据为文本型数据时,基于无监督算法,具体的可选择...
【专利技术属性】
技术研发人员:唐正阳,周春英,朱明杰,朱敏,魏岩,
申请(专利权)人:上海氪信信息技术有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。