一种基于融合模型的信用评估方法、电子设备和存储介质技术

技术编号:17406990 阅读:30 留言:0更新日期:2018-03-07 04:50
本发明专利技术公开了一种基于融合模型的信用评估方法,采集不同个人征信数据作为样本,并同时标注其信用等级;通过随机抽样对征信数据分为若干个元素数量相等的训练集,把训练集放入不同的单分类器内,每个单分类器执行一种分类算法;对每个单分类器生成的结果利用融合算法进行融合,提取最佳的分类方案,并把该方案通过数学模型记录下来,产生初步模型。最后,重新输入数据至初步模型,对其进行验证。本发明专利技术还公开了一种应用该方法的电子设备和计算机可读存储介质。本发明专利技术以集成学习的方法把多个单分类器融合起来选出最合适的分类方案,克服它们各自的弱势,从而发挥出最大的效果,以提高该融合模型对信用等级评估的准确率。

A credit evaluation method, electronic equipment and storage medium based on the fusion model

【技术实现步骤摘要】
一种基于融合模型的信用评估方法、电子设备和存储介质
本专利技术涉及信用评估领域,尤其涉及一种基于融合模型的信用评估方法、电子设备和存储介质。
技术介绍
随着信用服务的逐渐发展,信用评估技术的重要性与日俱增。信用评估问题本质上是一个分类问题,通过标记好的训练数据训练分类器,得到评估模型。k-NN算法、SVM算法和GBDT算法是一种用于分类数据的算法,常被用于涉及信用评估的领域内。1.k-NN算法的基本思想k-NN算法,又称k近邻法,k-NN方法的基本思想是:假定有c个类别为w1,w2,w3,…,wc的样本集合,每类有标明类别的样本Ni个,i=1,2,…,c。设样本的指标有z个,则样本点的指标将可以构成一个z维特征空间,所有的样本点在这个z维特征空间里都有唯一的点与它对应。则对任何一个待识别的样本x,把它也放到这个z维特征空间里,通过构造一个距离公式(一般采用欧氏空间距离公式),可以找到样本x的k个近邻。又设这N个样本中,来自w1类的样本有N1个,来自w2类的样本有N2个,…,来自wc类的样本有Nc个。若k1,k2,k3,…,kc分别是k个近邻中属于w1,w2,w3,…,wc类的样本数,则我们可定义判别函数为:gj(x)=ki,i=1,2,…,c分类规则是,若gj(x)=maxki则分类x属于wj。这一方法的直观解释相当简单,对未知样本x,我们只要比较x和N个已知类别样本之间的距离,并判定x和离它最近的样本同类。2.SVM算法的基本思想SVM,中文名称是支持向量机,SVM是从线性可分情况下的最优分类面发展而来的。过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分类间隔,所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大。分类线方程为x·w+b=0,可以对它进行归一化,使得对线性可分的样本集(xi,yi)(i=1,2,…,n),xi∈Rd,yi∈{+1.-1},满足yi[(w·xi)+b]-1≥0(i=1,2,…,n)(1)此时分类间隔等于2/||w||,使间隔最大等价于使||w||2最小。满足条件式(1)且使||w||2最小的分类面叫做最优分类面。对于非线性问题,可以通过非线性变换转化为某个高维空间的线性问题,在变换空间求最优分类面。在最优分类面中采用适当的内积函数K(xi,xj)就可以实现某一非线性变换后的线性分类,而计算复杂度却没有增加。这就是支持向量机。概括地说,SVM分类函数形式上类似于一个神经网络,输出是s个支持向量的中间节点的线性组合,每个中间节点对应一个支持向量。3.GBDT算法的基本思想GBDT是梯度下降决策树的缩写。它是一种基于决策树的方法。GBDT包含了多棵简单决策树,而最终分类结果由这些简单决策树共同决定。GBDT采用梯度下降的方法来训练每一棵决策树,并将它们整合在一起。在大数据征信场景中,需要处理的数据是高维且稀疏的。原因是从各个不同数据源可以得到关于用户的许多特征维度,这些维度组合起来的总维度将特别高。并且,同一个人不一定能够在所有数据源都获取得到数据,因此由于数据缺失会导致最终得到稀疏的特征维度。利用传统的SVM与K-NN的算法作为单分类器有其各自的优势,然而不足也很明显。比如,传统的SVM算法分类器可以处理高维数据,然而在稀疏数据中效果不佳。相反的,K-NN算法分类器可以处理稀疏数据,然而对于高维数据其效果不佳。GBDT算法分类器能够处理稀疏并且高维数据,然而它又比较容易过拟合。因此,传统的SVM,KNN以及GBDT算法分类器难以很好地处理这种大数据信用分类任务。因此,如果只采用传统的单分类器对数据进行处理,效果往往是不佳的。
技术实现思路
为解决上述的问题,本专利技术的目的之一在于提供了一种基于融合模型的信用评估方法,其能解决传统的信用评估方法不够精准的问题。本专利技术目的之二提供了一种电子设备,其能解决传统的信用评估方法不够精准的问题。本专利技术的目的之三在于提供一种计算机可读存储介质,其能解决传统的信用评估方法不够精准的问题。本专利技术的目的之一采用如下技术方案实现:一种基于融合模型的信用评估方法,包括以下步骤:数据采集及标注步骤:采集属于不同个人的征信数据作为样本,并对所述样本内每一个元素标注其对应的信用等级;单分类器分类步骤:对所述样本进行随机抽样并分成若干组元素数量均等的子训练集;把每组所述子训练集放入分类器内执行分类算法,对所述子训练集的信用等级进行分类;集成学习步骤:把分类后的所述子训练集通过融合算法进行融合,对各个分类方案进行整合,最终得到初步模型;验证模型步骤:输入新的样本到所述初步模型,所述初步模型自动产生一个对样本信用的评估结果。进一步地,所述数据采集及步骤包括以下子步骤:数据采集步骤:采集属于不同个人的征信数据作为样本;数据校验步骤:校验所述征信数据的合法性和唯一性,并确认所述征信数据是否存在有缺陷的数据,如果存在,则执行数据清洗步骤,如果不存在则执行数据降维步骤;数据清洗步骤:对缺失属性的数据进行人工清洗,与要求属性不符的数据利用数值变换和类型变换使其结构化;数据降维步骤:通过主成分分析法对清洗后的数据进行降维,降维后生成利于计算机识别的样本数据;信用等级标注步骤:将降维后的数据标注其对应的信用等级时,有五个信用评级,分别是1,2,3,4,5;其中,1是最低的评级,表示该用户有违约风险;5是最高的评级,表示该个人信用状况优秀;在所述数据分类步骤中,标注所述信用等级的所述子训练集结构为:(x1,x2,x3,…,xn,y),y∈(1,2,3,4,5)。进一步地,所述单分类器分类步骤中,包括以下子步骤:k-NN算法分类步骤:抽取一组所述子训练集放入k-NN单分类器内,对所述子训练集执行k-NN算法,对所述子训练集的信用等级进行分类;SVM算法分类步骤:抽取另一组所述子训练集放入SVM单分类器内,对所述子训练集执行SVM算法,对所述子训练集的信用等级进行分类;GDBT算法分类步骤:抽取余下的所述子训练集放入GDBT单分类器内,对所述子训练集执行GDBT算法,对所述子训练集的信用等级进行分类。进一步地,所述集成学习步骤中,包括以下子步骤:Bagging算法融合步骤:对所述k-NN单分类器、所述SVM单分类器和所述GDBT单分类器执行Bagging算法,从三个单分类器的信用等级分类结果中选取一个最佳的分类方案;Stacking算法融合步骤:对所述k-NN单分类器、所述SVM单分类器和所述GDBT单分类器执行Stacking算法,从三个单分类器的信用等级分类结果中选取一个最佳的分类方案;Boosting算法融合步骤:对所述Bagging算法融合步骤的结果和所述Stacking算法融合步骤的结果同时执行Boosting算法,从中选取一个最佳的分类方案;模型生成步骤:对所有已标注的数据执行上述步骤,获得每个数据的最佳分类方案,并且将所有分类方案通过数学模型的方式记录下来,最终得到初步模型。进一步地,所述验证模型步骤包括以下子步骤:验证数据输入步骤:重新采集的样本输入到所述初步模型;信用评估步骤:所述初步模型对该样本进行信用评估,并产生评估结果;结果反馈步骤:所述评估结果重新反馈至所述初步模型,进行增类学习。本专利技术的目的之二本文档来自技高网
...
一种基于融合模型的信用评估方法、电子设备和存储介质

【技术保护点】
一种基于融合模型的信用评估方法,其特征在于,包括以下步骤:数据采集及标注步骤:采集属于不同个人的征信数据作为样本,并对所述样本内每一个元素标注其对应的信用等级;单分类器分类步骤:对所述样本进行随机抽样并分成若干组元素数量均等的子训练集;把每组所述子训练集放入分类器内执行分类算法,对所述子训练集的信用等级进行分类;集成学习步骤:把分类后的所述子训练集通过融合算法进行融合,对各个分类方案进行整合,最终得到初步模型;验证模型步骤:输入新的样本到所述初步模型,所述初步模型自动产生一个对样本信用的评估结果。

【技术特征摘要】
1.一种基于融合模型的信用评估方法,其特征在于,包括以下步骤:数据采集及标注步骤:采集属于不同个人的征信数据作为样本,并对所述样本内每一个元素标注其对应的信用等级;单分类器分类步骤:对所述样本进行随机抽样并分成若干组元素数量均等的子训练集;把每组所述子训练集放入分类器内执行分类算法,对所述子训练集的信用等级进行分类;集成学习步骤:把分类后的所述子训练集通过融合算法进行融合,对各个分类方案进行整合,最终得到初步模型;验证模型步骤:输入新的样本到所述初步模型,所述初步模型自动产生一个对样本信用的评估结果。2.如权利要求1所述的基于融合模型的信用评估方法,其特征在于,所述数据采集及步骤包括以下子步骤:数据采集步骤:采集属于不同个人的征信数据作为样本;数据校验步骤:校验所述征信数据的合法性和唯一性,并确认所述征信数据是否存在有缺陷的数据,如果存在,则执行数据清洗步骤,如果不存在则执行数据降维步骤;数据清洗步骤:对缺失属性的数据进行人工清洗,与要求属性不符的数据利用数值变换和类型变换使其结构化;数据降维步骤:通过主成分分析法对清洗后的数据进行降维,降维后生成利于计算机识别的样本数据;信用等级标注步骤:将降维后的数据标注其对应的信用等级时,有五个信用评级,分别是1,2,3,4,5;其中,1是最低的评级,表示该用户有违约风险;5是最高的评级,表示该个人信用状况优秀;在所述数据分类步骤中,标注所述信用等级的所述子训练集结构为:(x1,x2,x3,…,xn,y),y∈(1,2,3,4,5)。3.如权利要求1所述的基于融合模型的信用评估方法,其特征在于:所述单分类器分类步骤中,包括以下子步骤:k-NN算法分类步骤:抽取一组所述子训练集放入k-NN单分类器内,对所述子训练集执行k-NN算法,对所述子训练集的信用等级进行分类;SVM算法分类步骤:抽取另一组所述子训练集放入SVM单分类器内,对所述子训练集执行SVM算法,对所述子训练集的信用等级进行分类;GDBT算法分类步骤:抽取余下的所述子训练集放入GDBT单分类器内,对所述子训练集执行GDBT算法,对所述子训练集的信用等级进行分类。4.如权利要求3所述的基于融合模型的信用评估方法,其特征在于:所述集成学习步骤中,包括以下子步骤:Bagging算法融合步骤:对所述k-NN单分类器、所述SVM单分类器和所述GDBT单分类器执行Bagging算法,从三个单分类器的信用等级分类结果中选取一个最佳的分类方案;Stacking算法融合步骤:对所述k-NN单分类器、所述SVM单分类器和所述GDBT单分类器执行Stacking算法,从三个单分类器的信用等级分类结果中选取一个最佳的分类方案;Boosting算法融合步骤:对所述Bagging算法融合步骤的结果和所述Stacking算法融合步骤的结果同时执行Boosting算法,从中选取一个最佳的分类方案;模型生成步骤:对所有已标注的数据执行上述步骤,获得每个数据的最佳分类方案,并且将所有分类方案通...

【专利技术属性】
技术研发人员:蔡毅
申请(专利权)人:广州汪汪信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1