The invention discloses a scorecard model building method and device based on machine learning, which includes derivative step, conversion step and new step. The method generates derivative variable containing multi-dimensional information by machine learning algorithm, and puts the derivative variable into the traditional scorecard model as a new derivative variable after WOE conversion. In this way, both the stability and EXPLANABILITY of the model are maintained, and the high-dimensional information which can not be obtained by traditional scorecard model is obtained by using machine learning technology. The invention can automatically generate multi-dimensional high-energy variables and automatically embed them into the traditional scorecard model, thereby improving the quality of the traditional credit model, improving the accuracy of examination and approval, and rejecting more fraudulent overdue applications.
【技术实现步骤摘要】
基于机器学习的评分卡模型建立方法及装置
本专利技术涉及金融信贷行业的评分卡模型,尤其涉及基于机器学习的评分卡模型建立方法及装置。
技术介绍
目前,传统的金融信贷行业建立审核模型的方法是传统的评分卡模型,利用逻辑回归的统计方法。在新兴发展起来的的互联网科技和互联网金融公司,大数据机器学习和深度数据挖掘技术已经逐渐成为建模的主要工具,机器学习算法包括决策树(decisiontree),随机森林(randomforest),梯度推进机(GradientBoostingMachine,GBM),支持向量机器(SupportVectorMachine,SVM)和神经网络(neuralnetwork)等。无论是传统的利用逻辑回归的评分卡模型,还是新兴的机器学习模型,都有他们明显的优点和缺点。传统的评分卡模型属于线性模型,特点在于因变量和自变量属于线性关系,简单好解释,模型表现稳定,过拟合程度低,但是由于只能解释变量间的线性关系,所以随之带来的预测能力也相对比较低,换言之,模型只能发现和解释自变量对于因变量的线性关系。机器学习模型可以解释复杂的多维关系,预测能力强,模型在训练数据上可以达到很好的预测表现结果。但是缺点也是很明显的,首先,模型内部的逻辑关系像黑盒子一样复杂无法解释,容易出现过拟合现象,这意味着模型在预测数据上或者在实践中的预测能力会下降很快,需要不断的重新更新,稳定性不够。总结来说,传统的评分卡模型和机器学习模型在模型复杂度、预测性、稳定性上是两个极端。由于行业的重要性和特殊性的原因,在信贷金融行业中,对模型的表现稳定性要求要比互联网行业高,所以信贷金融行 ...
【技术保护点】
1.一种基于机器学习的评分卡模型建立方法,其特征在于,包括:衍生步骤,利用机器学习算法产生含有多维信息的衍生变量;转换步骤,对衍生变量做WOE转换;新增步骤,将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中,利用新的衍生变量建立评分卡模型。
【技术特征摘要】
1.一种基于机器学习的评分卡模型建立方法,其特征在于,包括:衍生步骤,利用机器学习算法产生含有多维信息的衍生变量;转换步骤,对衍生变量做WOE转换;新增步骤,将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中,利用新的衍生变量建立评分卡模型。2.根据权利要求1所述的基于机器学习的评分卡模型建立方法,其特征在于,所述机器学习算法为决策树;所述方法具体为:数据获取步骤,获取建模数据;建模数据包括原始的一维变量;决策树生成步骤,对于建模数据中原始的一维变量,两两配对做决策树;转换步骤,对于每个决策树的叶节点,做WOE转换;二维变量建立步骤,对于每个决策树建立一个新的变量,称为二维变量;模型建立步骤,利用新产生的二维变量和原始的一维变量,建立二维评分卡模型。3.根据权利要求2所述的基于机器学习的评分卡模型建立方法,其特征在于,二维变量的取值等于决策树的叶节点的WOE值。4.根据权利要求2所述的基于机器学习的评分卡模型建立方法,其特征在于,所述模型建立步骤中,利用逻辑回归方法建立评分卡模型。5.根据权利要求2所述的基于机器学习的评分卡模型建立方法,其特征在于,该方法实现在R上,或者,该方法实现在Python上。6.一种基于机...
【专利技术属性】
技术研发人员:段兆阳,夏真,卜象平,陈薇,
申请(专利权)人:杭州排列科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。