一种基于融合模型的信用评估方法、电子设备和存储介质技术

技术编号：17406990 阅读：30 留言：0更新日期：2018-03-07 04:50

本发明专利技术公开了一种基于融合模型的信用评估方法，采集不同个人征信数据作为样本，并同时标注其信用等级；通过随机抽样对征信数据分为若干个元素数量相等的训练集，把训练集放入不同的单分类器内，每个单分类器执行一种分类算法；对每个单分类器生成的结果利用融合算法进行融合，提取最佳的分类方案，并把该方案通过数学模型记录下来，产生初步模型。最后，重新输入数据至初步模型，对其进行验证。本发明专利技术还公开了一种应用该方法的电子设备和计算机可读存储介质。本发明专利技术以集成学习的方法把多个单分类器融合起来选出最合适的分类方案，克服它们各自的弱势，从而发挥出最大的效果，以提高该融合模型对信用等级评估的准确率。

A credit evaluation method, electronic equipment and storage medium based on the fusion model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于融合模型的信用评估方法、电子设备和存储介质
本专利技术涉及信用评估领域，尤其涉及一种基于融合模型的信用评估方法、电子设备和存储介质。
技术介绍
随着信用服务的逐渐发展，信用评估技术的重要性与日俱增。信用评估问题本质上是一个分类问题，通过标记好的训练数据训练分类器，得到评估模型。k-NN算法、SVM算法和GBDT算法是一种用于分类数据的算法，常被用于涉及信用评估的领域内。1.k-NN算法的基本思想k-NN算法，又称k近邻法，k-NN方法的基本思想是:假定有c个类别为w1,w2,w3,…,wc的样本集合，每类有标明类别的样本Ni个，i＝1,2,…,c。设样本的指标有z个，则样本点的指标将可以构成一个z维特征空间，所有的样本点在这个z维特征空间里都有唯一的点与它对应。则对任何一个待识别的样本x，把它也放到这个z维特征空间里，通过构造一个距离公式(一般采用欧氏空间距离公式)，可以找到样本x的k个近邻。又设这N个样本中，来自w1类的样本有N1个，来自w2类的样本有N2个，…，来自wc类的样本有Nc个。若k1，k2，k3，…，kc分别是k个近邻中属于w1，w2，w3，…，wc类的样本数，则我们可定义判别函数为：gj(x)＝ki,i＝1,2,…,c分类规则是，若gj(x)＝maxki则分类x属于wj。这一方法的直观解释相当简单，对未知样本x，我们只要比较x和N个已知类别样本之间的距离，并判定x和离它最近的样本同类。2.SVM算法的基本思想SVM，中文名称是支持向量机，SVM是从线性可分情况下的最优分类面发展而来的。过各类中离分类线最近的样本且平行于分类线的直线，...
一种基于融合模型的信用评估方法、电子设备和存储介质

【技术保护点】
一种基于融合模型的信用评估方法，其特征在于，包括以下步骤：数据采集及标注步骤：采集属于不同个人的征信数据作为样本，并对所述样本内每一个元素标注其对应的信用等级；单分类器分类步骤：对所述样本进行随机抽样并分成若干组元素数量均等的子训练集；把每组所述子训练集放入分类器内执行分类算法，对所述子训练集的信用等级进行分类；集成学习步骤：把分类后的所述子训练集通过融合算法进行融合，对各个分类方案进行整合，最终得到初步模型；验证模型步骤：输入新的样本到所述初步模型，所述初步模型自动产生一个对样本信用的评估结果。

【技术特征摘要】
1.一种基于融合模型的信用评估方法，其特征在于，包括以下步骤：数据采集及标注步骤：采集属于不同个人的征信数据作为样本，并对所述样本内每一个元素标注其对应的信用等级；单分类器分类步骤：对所述样本进行随机抽样并分成若干组元素数量均等的子训练集；把每组所述子训练集放入分类器内执行分类算法，对所述子训练集的信用等级进行分类；集成学习步骤：把分类后的所述子训练集通过融合算法进行融合，对各个分类方案进行整合，最终得到初步模型；验证模型步骤：输入新的样本到所述初步模型，所述初步模型自动产生一个对样本信用的评估结果。2.如权利要求1所述的基于融合模型的信用评估方法，其特征在于，所述数据采集及步骤包括以下子步骤：数据采集步骤：采集属于不同个人的征信数据作为样本；数据校验步骤：校验所述征信数据的合法性和唯一性，并确认所述征信数据是否存在有缺陷的数据，如果存在，则执行数据清洗步骤，如果不存在则执行数据降维步骤；数据清洗步骤：对缺失属性的数据进行人工清洗，与要求属性不符的数据利用数值变换和类型变换使其结构化；数据降维步骤：通过主成分分析法对清洗后的数据进行降维，降维后生成利于计算机识别的样本数据；信用等级标注步骤：将降维后的数据标注其对应的信用等级时，有五个信用评级，分别是1，2，3，4，5；其中，1是最低的评级，表示该用户有违约风险；5是最高的评级，表示该个人信用状况优秀；在所述数据分类步骤中，标注所述信用等级的所述子训练集结构为：(x1,x2,x3,…,xn,y),y∈(1,2,3,4,5)。3.如权利要求1所述的基于融合模型的信用评估方法，其特征在于：所述单分类器分类步骤中，包括以下子步骤：k-NN算法分类步骤：抽取一组所述子训练集放入k-NN单分类器内，对所述子训练集执行k-NN算法，对所述子训练集的信用等级进行分类；SVM算法分类步骤：抽取另一组所述子训练集放入SVM单分类器内，对所述子训练集执行SVM算法，对所述子训练集的信用等级进行分类；GDBT算法分类步骤：抽取余下的所述子训练集放入GDBT单分类器内，对所述子训练集执行GDBT算法，对所述子训练集的信用等级进行分类。4.如权利要求3所述的基于融合模型的信用评估方法，其特征在于：所述集成学习步骤中，包括以下子步骤：Bagging算法融合步骤：对所述k-NN单分类器、所述SVM单分类器和所述GDBT单分类器执行Bagging算法，从三个单分类器的信用等级分类结果中选取一个最佳的分类方案；Stacking算法融合步骤：对所述k-NN单分类器、所述SVM单分类器和所述GDBT单分类器执行Stacking算法，从三个单分类器的信用等级分类结果中选取一个最佳的分类方案；Boosting算法融合步骤：对所述Bagging算法融合步骤的结果和所述Stacking算法融合步骤的结果同时执行Boosting算法，从中选取一个最佳的分类方案；模型生成步骤：对所有已标注的数据执行上述步骤，获得每个数据的最佳分类方案，并且将所有分类方案通...

【专利技术属性】
技术研发人员：蔡毅，
申请(专利权)人：广州汪汪信息技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人