基于机器学习的评分卡模型建立方法及装置制造方法及图纸

技术编号:18713658 阅读:193 留言:0更新日期:2018-08-21 23:06
本发明专利技术公开了基于机器学习的评分卡模型建立方法及装置,该方法包括衍生步骤、转换步骤、新增步骤,利用机器学习算法产生含有多维信息的衍生变量,把衍生变量做WOE转换后,当作新的衍生变量放入传统的评分卡模型的变量选择库中,这样,既保持了模型的稳定性和可解释性,又利用了机器学习的技术,获取了传统评分卡模型获得不到的高维度信息。本发明专利技术可以自动产生多维度的高能变量,自动嵌入传统评分卡模型的建立当中,从而提高传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。

Establishment method and device of score card model based on machine learning

The invention discloses a scorecard model building method and device based on machine learning, which includes derivative step, conversion step and new step. The method generates derivative variable containing multi-dimensional information by machine learning algorithm, and puts the derivative variable into the traditional scorecard model as a new derivative variable after WOE conversion. In this way, both the stability and EXPLANABILITY of the model are maintained, and the high-dimensional information which can not be obtained by traditional scorecard model is obtained by using machine learning technology. The invention can automatically generate multi-dimensional high-energy variables and automatically embed them into the traditional scorecard model, thereby improving the quality of the traditional credit model, improving the accuracy of examination and approval, and rejecting more fraudulent overdue applications.

【技术实现步骤摘要】
基于机器学习的评分卡模型建立方法及装置
本专利技术涉及金融信贷行业的评分卡模型,尤其涉及基于机器学习的评分卡模型建立方法及装置。
技术介绍
目前,传统的金融信贷行业建立审核模型的方法是传统的评分卡模型,利用逻辑回归的统计方法。在新兴发展起来的的互联网科技和互联网金融公司,大数据机器学习和深度数据挖掘技术已经逐渐成为建模的主要工具,机器学习算法包括决策树(decisiontree),随机森林(randomforest),梯度推进机(GradientBoostingMachine,GBM),支持向量机器(SupportVectorMachine,SVM)和神经网络(neuralnetwork)等。无论是传统的利用逻辑回归的评分卡模型,还是新兴的机器学习模型,都有他们明显的优点和缺点。传统的评分卡模型属于线性模型,特点在于因变量和自变量属于线性关系,简单好解释,模型表现稳定,过拟合程度低,但是由于只能解释变量间的线性关系,所以随之带来的预测能力也相对比较低,换言之,模型只能发现和解释自变量对于因变量的线性关系。机器学习模型可以解释复杂的多维关系,预测能力强,模型在训练数据上可以达到很好的预测表现结果。但是缺点也是很明显的,首先,模型内部的逻辑关系像黑盒子一样复杂无法解释,容易出现过拟合现象,这意味着模型在预测数据上或者在实践中的预测能力会下降很快,需要不断的重新更新,稳定性不够。总结来说,传统的评分卡模型和机器学习模型在模型复杂度、预测性、稳定性上是两个极端。由于行业的重要性和特殊性的原因,在信贷金融行业中,对模型的表现稳定性要求要比互联网行业高,所以信贷金融行业仍然使用传统的评分卡模型做为信贷建模的方法。
技术实现思路
为了克服现有技术的不足,本专利技术的目的在于提供基于机器学习的评分卡模型建立方法及装置,旨在解决现有技术的传统评分卡模型预测能力较低,而机器学习模型稳定性不够的问题。本专利技术的目的采用以下技术方案实现:一种基于机器学习的评分卡模型建立方法,包括:衍生步骤,利用机器学习算法产生含有多维信息的衍生变量;转换步骤,对衍生变量做WOE转换;新增步骤,将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中,利用新的衍生变量建立评分卡模型。在上述实施例的基础上,优选的,所述机器学习算法为决策树;所述方法具体为:数据获取步骤,获取建模数据;建模数据包括原始的一维变量;决策树生成步骤,对于建模数据中原始的一维变量,两两配对做决策树;转换步骤,对于每个决策树的叶节点,做WOE转换;二维变量建立步骤,对于每个决策树建立一个新的变量,称为二维变量;模型建立步骤,利用新产生的二维变量和原始的一维变量,建立二维评分卡模型。在上述实施例的基础上,优选的,二维变量的取值等于决策树的叶节点的WOE值。或者,优选的,所述模型建立步骤中,利用逻辑回归方法建立评分卡模型。或者,优选的,该方法实现在R上,或者,该方法实现在Python上。一种基于机器学习的评分卡模型建立装置,包括:衍生模块,用于利用机器学习算法产生含有多维信息的衍生变量;转换模块,用于对衍生变量做WOE转换;新增模块,用于将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中,利用新的衍生变量建立评分卡模型。在上述实施例的基础上,优选的,所述机器学习算法为决策树;所述装置包括:数据获取模块,用于获取建模数据;建模数据包括原始的一维变量;决策树生成模块,用于对于建模数据中原始的一维变量,两两配对做决策树;转换模块,用于对于每个决策树的叶节点,做WOE转换;二维变量建立模块,用于对于每个决策树建立一个新的变量,称为二维变量;模型建立模块,用于利用新产生的二维变量和原始的一维变量,建立二维评分卡模型。在上述实施例的基础上,优选的,二维变量的取值等于决策树的叶节点的WOE值。或者,优选的,所述模型建立模块利用逻辑回归方法建立评分卡模型。或者,优选的,该装置应用在R上,或者,该装置应用在Python上。相比现有技术,本专利技术的有益效果在于:本专利技术公开了基于机器学习的评分卡模型建立方法及装置,利用机器学习算法(例如决策树,随机森林,梯度推进等)产生含有多维信息的衍生变量,把衍生变量做WOE(weightofevidence,证据权重)转换后,当作新的衍生变量放入传统的评分卡模型的变量选择库中,这样,既保持了模型的稳定性和可解释性,又利用了机器学习的技术,获取了传统评分卡模型获得不到的高维度信息。本专利技术可以自动产生多维度的高能变量,自动嵌入传统评分卡模型的建立当中,从而提高传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。本专利技术将复杂的理论化的机器学习算法应用到实际金融领域的传统模型中,融合了传统算法和先进算法,将传统评分卡模型和新的机器学习模型的特点融合在一起,产生的新的评分卡模型兼具两种模型的优点,又弥补了单独模型的缺点。本算法创造于互联网金融风控行业实践和理论研究结合的过程中,并且在互联网金融行业的企业中得以应用,在不影响模型稳定性的前提下,使得模型的预测效果提高10%-20%,极大的增强了信贷行业的审核准确性。附图说明下面结合附图和实施例对本专利技术进一步说明。图1示出了本专利技术实施例提供的一种基于决策树的评分卡模型建立方法的流程示意图;图2示出了本专利技术实施例生成的决策树结构示意图;图3示出了本专利技术实施例提供的一种基于决策树的评分卡模型建立装置的结构示意图。具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。具体实施例一本专利技术实施例对机器学习算法不做限定,其可以为决策树,随机森林,梯度推进等。如图1所示,本专利技术实施例提供了一种基于机器学习的评分卡模型建立方法,以评分卡模型和决策树为例,具体算法实施流程如下:数据获取步骤S101,获取建模数据;建模数据包括原始的一维变量;决策树生成步骤S102,对建模数据中的原始一维变量,两两配对做决策树,生成例如图2中的决策树结构;转换步骤S103,对每个决策树中的叶节点,做WOE转换;WOE是weightofevidence的缩写,意为证据权重;二维变量建立步骤S104,对于每棵树建立一个新的变量,叫做二维变量,变量的取值逻辑遵循决策树的衍生逻辑,取值等于决策树的叶节点的WOE值;模型建立步骤S105,使用新产生的二维变量和原始的一维变量,利用传统的逻辑回归方法,建立二维评分卡模型;新的评分卡模型中的变量包含一维变量和二维变量。这样,既达到了提高模型的预测性的效果,又实现了稳定性和可解释性。本方法的整个流程可以实现在R上和Python上,能够自动化运行,建立并筛选符合条件的决策树,自动产生新的二维变量,并且放置于逻辑回归模型中。本专利技术实施例利用机器学习算法(例如决策树,随机森林,梯度推进等)产生含有多维信息的衍生变量,把衍生变量做WOE转换后,当作新的衍生变量放入传统的评分卡模型的变量选择库中,这样,既保持了模型的稳定性和可解释性,又利用了机器学习的技术,获取了传统评分卡模型获得不到的高维度信息。本专利技术实施例可以自动产生多维度的高能变量,自动嵌入传统评分卡模型的建立当中,从而提高传统的信贷模型质量,提高审批的本文档来自技高网
...

【技术保护点】
1.一种基于机器学习的评分卡模型建立方法,其特征在于,包括:衍生步骤,利用机器学习算法产生含有多维信息的衍生变量;转换步骤,对衍生变量做WOE转换;新增步骤,将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中,利用新的衍生变量建立评分卡模型。

【技术特征摘要】
1.一种基于机器学习的评分卡模型建立方法,其特征在于,包括:衍生步骤,利用机器学习算法产生含有多维信息的衍生变量;转换步骤,对衍生变量做WOE转换;新增步骤,将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中,利用新的衍生变量建立评分卡模型。2.根据权利要求1所述的基于机器学习的评分卡模型建立方法,其特征在于,所述机器学习算法为决策树;所述方法具体为:数据获取步骤,获取建模数据;建模数据包括原始的一维变量;决策树生成步骤,对于建模数据中原始的一维变量,两两配对做决策树;转换步骤,对于每个决策树的叶节点,做WOE转换;二维变量建立步骤,对于每个决策树建立一个新的变量,称为二维变量;模型建立步骤,利用新产生的二维变量和原始的一维变量,建立二维评分卡模型。3.根据权利要求2所述的基于机器学习的评分卡模型建立方法,其特征在于,二维变量的取值等于决策树的叶节点的WOE值。4.根据权利要求2所述的基于机器学习的评分卡模型建立方法,其特征在于,所述模型建立步骤中,利用逻辑回归方法建立评分卡模型。5.根据权利要求2所述的基于机器学习的评分卡模型建立方法,其特征在于,该方法实现在R上,或者,该方法实现在Python上。6.一种基于机...

【专利技术属性】
技术研发人员:段兆阳夏真卜象平陈薇
申请(专利权)人:杭州排列科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1