一种基于深度学习的风控建模方法技术

技术编号:22218682 阅读:69 留言:0更新日期:2019-09-30 01:09
本发明专利技术提出了一种基于深度学习的风控建模方法,包括如下步骤:S1,通过云端数据库获取用户数据,将用户数据区分为结构化数据和非结构化数据,并将用户数据进行初步筛选;S2,将初步筛选后的用户数据提取特征与分词,并将用户数据中的结构化数据使用随机森林算法中的重要性进行降序排序,然后筛选结构化数据变量,对非结构化数据洗净性分词操作;S3,建立深度学习网络风控模型,然后训练深度学习网络风控模型;S4,计算出风控分数,该分数被部署服务接口,供客户调用使用。

A Method of Wind Control Modeling Based on Deep Learning

【技术实现步骤摘要】
一种基于深度学习的风控建模方法
本专利技术涉及风控计算领域,尤其涉及一种基于深度学习的风控建模方法。
技术介绍
在互联网金融快速发展的今天,用户的数据更加复杂,既包含高维的结构化数据也会包含文本、图像等非结构化数据,所以在这样的情况下,更加凸显了对互联网海量数据进行风控建模的重要性。目前在互联网金融行业,逻辑回归算法是主流的风控建模技术,该技术简单易用,具有较好的可解释性且效果不错。张保强(张保强.互联网小贷违约风险评估与风控模型改进策略研究[D].浙江大学,2018.)使用逻辑回归方法进行风控建模来对现金贷数据进行风险评估。刘哲(刘哲.逻辑回归模型在小额信贷企业中风控环节的应用研究[D].首都经济贸易大学,2018.)也是运用逻辑回归模型测度小额信贷中的信用风险。喻光丽(喻光丽.基于Logistic回归模型的P2P网络借贷平台借款人信用风险评估研究[D].兰州大学,2017.)分析了P2P网络借贷平台借款人信用风险的成因,然后选择逻辑模型进行P2P网络借贷平台借款人信用风险评估。刘冰清等人(刘冰清,卢子芳,朱卫未,尹相菊.基于Logistic-DEA的互联网金融贷款产品有效客户识别[J].管理现代化,2018,38(04):1-4.)提出一种改进的逻辑回归方法,并使用该方法来识别互联网贷款产品的潜在客户,使得客户的短信回应率得到了显著的提高。熊正德等人(熊正德,刘臻煊,熊一鹏.基于有序logistic模型的互联网金融客户违约风险研究[J].系统工程,2017,35(08):29-38.)将客户由"违约"与"不违约"两类细分为"提前结清"、"当前正常"、"可疑"、"损失"四类,然后利用有序多分类逻辑模型进行客户违约风险研究,得出了更好的效果。以目前市场上存在的产品FICO评分为例,该评分是FairIsaac公司开发的信用评分系统,也是目前美国应用得最广泛的一种(https://www.cnblogs.com/nxld/p/6364341.html)。该评分通过分析客户的人口统计学信息、历史贷款还款信息、历史金融交易信息和银行征信信息,最终使用逻辑回归模型构建最终的分数。除了逻辑回归算法,基于机器学习的风控建模方法的研究应用也越来越多。赵静娴(赵静娴.基于决策树的信用风险评估方法研究[D].天津大学,2009.)分析了不同信用风险评估方法的特点,提出了基于决策树的信用风险评估方法。李进(李进.基于随机森林算法的绿色信贷信用风险评估研究[J].金融理论与实践,2015(11):14-18.)认为传统评估方法很难适用绿色信贷信用风险评估中所面临的复杂性、非线性及不确定性等问题,所以提出了基于随机森林算法的信用风险评估,发现基于随机森林算法的评估,速度更快,效果更好。王梦雪(王梦雪.基于机器学习技术的P2P风控模型研究[D].哈尔滨工业大学,2017.)讨论了在P2P场景下使用机器学习技术(随机森林、GBDT等算法)进行风控建模的研究,并得到了不错的效果。目前支付宝上的芝麻信用分就是通过比较复杂的机器学习技术来构建的(http://www.chinacpda.org/anlifenxi/5443.html)。目前比较前沿的一些算法,如决策树、随机森林、支持向量机、神经网络等,芝麻信用都在研究尝试。在本研究场景中,要对大量结构化数据(例如:年龄、性别等)和非结构化数据(文本)进行统一的风险建模,不论是逻辑回归还是基于机器学习的风控技术都难以提供一个统一的框架来进行建模,所以本专利技术提出了一种基于深度学习的风控建模方法来解决该场景下建模。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于深度学习的风控建模方法。为了实现本专利技术的上述目的,本专利技术提供了一种基于深度学习的风控建模方法,包括如下步骤:S1,通过云端数据库获取用户数据,将用户数据区分为结构化数据和非结构化数据,并将用户数据进行初步筛选;S2,将初步筛选后的用户数据提取特征与分词,并将用户数据中的结构化数据使用随机森林算法中的重要性进行降序排序,然后筛选结构化数据变量,对非结构化数据洗净性分词操作;S3,建立深度学习网络风控模型,然后训练深度学习网络风控模型;S4,使用训练后的深度学习网络风控模型,计算出风控分数,该分数被部署服务接口,供客户调用使用。优选的,所述S1包括:S1-1,风控数据包括结构化数据和非结构化数据,对结构化数据的清洗,包括变量过滤、记录过滤、缺失值填充、字符型变量映射和数据归一化;变量过滤是指对缺失值超过一定阈值的变量进行删除,也就是数据的列删除,记录过滤与变量过滤类似,缺失值填充分两种:连续型变量缺失值填充和离散型变量缺失值填充;连续型变量的填充我们使用该变量的均值来填充,离散型变量的填充我们使用该变量的中位数来填充;进行字符型变量映射,通过模型训练的数据必须得是数值型,所以对于字符型变量进行变换,通过上面的步骤把所有的数据都处理成了数值型,然后进行用户数据归一化;S1-2,对文本数据进行清洗,文本数据的时间戳是到秒的,对记录id分组,然后对时间戳进行升序排序,然后对每个id下的文本拼接起来,这样就生成了与时间有关的文本序列;然后基于文本序列的长度对记录进行过滤。优选的,所述S2包括:S2-1,将用户数据初步筛选之后,进行特征提取与分词的操作;S2-2,特征提取是针对结构化数据操作的,特征提取为变量选择,结构化数据中变量个数在3000-4000,特征提取的目的是筛选出有用的变量,过滤掉无用或者作用非常小的变量;使用随机森林算法进行特征选择,该指标对所有变量进行降序排列,然后根据阈值选择变量,S2-3,分词是针对文本数据来操作,使用pkuseg分词库,分词结束后,建立词表索引,然后对分词结果建立one-hot编码,这样就把文本分词向量转化为了数值向量,为建立深度学习网络模型作好准备。优选的,所述S3包括:S3-1,建立深度学习网络模型由两部分组成,一个是wide部分,由结构化输入所对应的左边部分,另一个是deep部分,由文本输入所对应的右边部分;wide部分就是由步骤(2)中进行特征提取得到的变量,通过deep部分包含了嵌入层、lstm层和cnn卷积层;S3-2,首先是生成词向量的嵌入层,词嵌入其实是一个从高维到低维的映射过程,通过该操作可以极大降低计算量;从S2中得到了文本数据的one-hot编码,称为输入矩阵Hnm,输出矩阵称为Enl,其中n是样本数量,m是输入矩阵的维数,l是输出矩阵的维数,则输入矩阵与输出矩阵二者之间的关系如公式1所示:HnmWml=Enl(1)S3-3,其次是lstm层;Lstm算法是由RNN算法改进而来,主要的改进就是在每个细胞中引入了三个门操作:遗忘门、输入门和输出门;S3-4,通过遗忘门删掉了一些旧信息,然后通过输入门来保留一些当前时刻的新信息,这里输入门的定义与遗忘门的定义类似,S3-5,当前细胞状态下的输出结果ht由下面的公式8给出:ht=ot*tanhCt(8)然后是cnn卷积层;卷积层的核心是对序列做卷积运算,在本专利技术中将卷积操作放到lstm层的后面是为了通过卷积操作继续提炼局部特征,事实证明这种结构可以达到更好的效果;在本专利技术中卷积操作来源于离散卷积操作,其本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的风控建模方法,其特征在于,包括如下步骤:S1,通过云端数据库获取用户数据,将用户数据区分为结构化数据和非结构化数据,并将用户数据进行初步筛选;S2,将初步筛选后的用户数据提取特征与分词,并将用户数据中的结构化数据使用随机森林算法中的重要性进行降序排序,然后筛选结构化数据变量,对非结构化数据洗净性分词操作;S3,建立深度学习网络风控模型,然后训练深度学习网络风控模型;S4,使用训练后的深度学习网络风控模型,计算出风控分数,该分数被部署服务接口,供客户调用使用。

【技术特征摘要】
1.一种基于深度学习的风控建模方法,其特征在于,包括如下步骤:S1,通过云端数据库获取用户数据,将用户数据区分为结构化数据和非结构化数据,并将用户数据进行初步筛选;S2,将初步筛选后的用户数据提取特征与分词,并将用户数据中的结构化数据使用随机森林算法中的重要性进行降序排序,然后筛选结构化数据变量,对非结构化数据洗净性分词操作;S3,建立深度学习网络风控模型,然后训练深度学习网络风控模型;S4,使用训练后的深度学习网络风控模型,计算出风控分数,该分数被部署服务接口,供客户调用使用。2.根据权利要求1所述的基于深度学习的风控建模方法,其特征在于,所述S1包括:S1-1,风控数据包括结构化数据和非结构化数据,对结构化数据的清洗,包括变量过滤、记录过滤、缺失值填充、字符型变量映射和数据归一化;变量过滤是指对缺失值超过一定阈值的变量进行删除,也就是数据的列删除,记录过滤与变量过滤类似,缺失值填充分两种:连续型变量缺失值填充和离散型变量缺失值填充;连续型变量的填充我们使用该变量的均值来填充,离散型变量的填充我们使用该变量的中位数来填充;进行字符型变量映射,通过模型训练的数据必须得是数值型,所以对于字符型变量进行变换,通过上面的步骤把所有的数据都处理成了数值型,然后进行用户数据归一化;S1-2,对文本数据进行清洗,文本数据的时间戳是到秒的,对记录id分组,然后对时间戳进行升序排序,然后对每个id下的文本拼接起来,这样就生成了与时间有关的文本序列;然后基于文本序列的长度对记录进行过滤。3.根据权利要求1所述的基于深度学习的风控建模方法,其特征在于,所述S2包括:S2-1,将用户数据初步筛选之后,进行特征提取与分词的操作;S2-2,特征提取是针对结构化数据操作的,特征提取为变量选择,结构化数据中变量个数在3000-4000,特征提取的目的是筛选出有用的变量,过滤掉无用或者作用非常小的变量;使用随机森林算法进行特征选择,该指标对所有变量进行降序排列,然后根据阈值选择变量,S2-3,分词是针对文本数据来操作,使用pkuseg分词库,分词结束后,建立词表索引,然后对分词结果建立one-hot编码,这样就把文本分词向量转化为了数值向量,为建立深度学习网络模型作好准备。4.根据权利要求1所述的基于深度学习的风控建模方法,其特征在于,所述S3包括:S3-1,建立深度学习网络模型由两部分组成,一个是wide部分,由结构化输入所对应的左边部分,另一个是deep部分,由文本输入所对应的右边部分;wide部分就是由步骤(2)中进行特征提取得到的变量,通过deep部分包含了嵌入层、lstm层和cnn卷积层;S3-2,首先是生成词向量的嵌入层,词嵌入其实是一个从高维到低维的映射过程,通过该操作可以极大降低计算量;从S2中得到了文本数据的one-hot编码,称为输入矩阵Hnm,输出矩阵称为Enl,其中n是样本数量,m是输入矩阵的维数,l是输出矩阵的维数,则输入矩阵与输出矩阵二者之间的关系如公式1所示:HnmWml=Enl(1)S3-3,其次是lstm层;Lstm算法是由RNN算法改进而来,主要的改进就是在每个细胞中引入了三个门操作:遗忘门、输入门和输出门;S3-4,通过遗忘门删掉了一些旧信息,然后通过输入门来保留一些当前时刻的新信息,这里输入门的定义与遗忘门的定义类似,S3-5,当前细胞状态下的输出结果ht由下面的公式8给出:ht=ot*tanhCt(8)然后是cnn卷积层;卷积层的核心是对序列做卷积运算,在本发明中将卷积操作放到lstm层的后面是为了通过卷积操作继续提炼局部特征,事实证明这种结构可以达到更好的效果;在本发明中卷积操作来源于离散卷积操作,其公式如下:其中g(n)是经过卷积运算得到的新序列,f(i)是...

【专利技术属性】
技术研发人员:叶鹏罗皓
申请(专利权)人:上海诚数信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1