当前位置: 首页 > 专利查询>云南大学专利>正文

基于生成式对抗网络和半监督学习的个人信用确定方法技术

技术编号:21061346 阅读:20 留言:0更新日期:2019-05-08 07:37
本发明专利技术公开了一种基于生成式对抗网络和半监督学习的个人信用确定方法,将个人信用数据分为有标签个人信用数据和无标签个人信用数据;对有标签个人信用数据依次进行数值化、归一化和平衡化;通过重采样方法获得不同的样本子集并对其进行扩充获得训练样本;初始化子学习器,将训练样本分配给子学习器,优化子学习器;利用优化的子学习器对无标签个人信用数据进行标记,并将标记的个人信用数据置于有标签个人信用数据中对有标签个人信用数据进行一次扩充;对有标签个人信用数据进行二次扩充;循环迭代步骤S2~S8,直到无标签个人信用数据集中的数据不再减少;对最终优化的子学习器进行集成学习,并利用集成的学习器确定个人信用度,准确度高。

Personal Credit Determination Method Based on Generative Countermeasure Network and Semi-supervised Learning

【技术实现步骤摘要】
基于生成式对抗网络和半监督学习的个人信用确定方法
本专利技术属于计算机
,特别是涉及一种基于生成式对抗网络和半监督学习的个人信用确定方法。
技术介绍
银行信贷业务是银行的一项重要业务,该业务会因客户的信用度及违约状况而存在一定的风险。如果我们能够预测客户的违约风险就可以最大程度的降低银行信贷业务的风险。数据挖掘技术可以很好的解决这一问题。将机器学习技术运用到银行客户信用评估,在庞大的数据中将看似无关联的数据进行筛选和净化,提取出有价值的信息,对客户贷款申请做出恰当的回应。数据挖掘是信息技术发展的必然结果,它是指通过挖掘算法从大量数据中抽取挖掘出隐含在其中的有价值的模式或规律等信息的复杂过程。随着信用行业的发展以及贷款组合种类的不断增加,人们利用大量信用数据积极探索开发更加准确的信用评估方法,但目前信用数据的价值量极高,获取信用数据的手段单一,使得获取信用数据十分耗时耗力,并且进行信用评估时需要手工标注大量的信用数据,非常耗时和昂贵。半监督学习(Semi-SupervisedLearning)是近年来机器学习领域的研究热点,它的基本原则就是通过大量无标签数据辅助少量已标记数据进行学习,从而提高学习效果。半监督学习方法的提出一方面是因为理论上无标签数据确实有可能提高学习效果;另一方面则是因为有的监督学习方法只能利用已有标签数据进行训练,且为了保证学习的泛化性,监督学习方法还通常需要假设已经具有足够的已标记样本。然而,实际应用中已标记数据的获取一般都比较困难,耗时、耗力且通常都需要丰富的专家经验。受博弈论中二元零和博弈的启发,生成式对抗网络(GAN)的框架中包含一对相互对抗的模型:判别器和生成器。判别器的目的是正确区分真实数据和生成数据,从而最大化判别准确率;生成器则是尽可能逼近真实数据的潜在分布。为了在博弈中胜出,二者需不断提高各自的判别能力和生成能力,优化的目标就是寻找二者间的纳什均衡。GAN框架如图1所示,生成器(点划线框内的多层感知机)的输入是一个来自常见概率分布的随机噪声矢量z,输出是计算机生成的伪数据;判别器(虚线框内的多层感知机)的输入是图片x(x可能采样于真实数据,也可能采样于生成数据),输出是一个标量,用来代表x是真实图片的概率,即当判别器认为x是真实图片时输出1,反之输出0。判别器和生成器不断优化,当判别器无法正确区分数据来源时,可以认为生成器捕捉到真实数据样本的分布。图1中,生成模型的初始输入为随机噪声z,生成模型为一个神经网络,随机噪声经过生成模型的加工,产生初始的伪造数据,该过程由于没有任何判别器的参与,因而产生的数据与真实数据相似程度较低。此时固定生成器,对判别器进行训练。判别器的输入为混合的真实数据x与生成模型的输出数据G(z),判别器对输入数据进行二分类,即判别数据的真伪,若认为输入数据来源于真实样本,则标记为1,否则标记为0。训练完成时,得到判别器的判别损失,并将该损失分别返回给生成器及判别器。此时固定判别器,训练生成器。如此进行反复迭代。最终生成器的判别能力达到一定水平,且生成器生成的数据在判别器上的表现与真实样本一致时,即判别器无法判断该样本来源,训练结束。此时我们认为生成模型生成的数据接近于真实数据分布。基于机器学习的信用评估方法层出不穷,其目的在于采用机器学习技术来辅助银行评估个人信用,规避和降低带给商业银行的信用风险。由于信用评估中已标记信用数据的获取通常都耗时耗力,因此对于大量未标记信用数据而言,已标记的信用数据有限,尤其是我国的消费信贷发展历史还比较短,这方面的信用数据更是稀少。此外,信用评估中的数据普遍存在正负样本数据不一致导致的数据不对称问题,这主要是因为按时还贷和不能按时还贷的人数通常相差很大造成的。信用数据不平衡导致学习器在对信用数据进行评估时,对比例大的样本造成过拟合,也就是说预测偏向样本数较多的类别。这样就会大大降低模型的范化能力。如果在个人信用评估中仅使用相对较少的已标记信用数据,那么利用他们所训练出的信用评估系统往往很难具有强泛化能力;另一方面,仅使用少量昂贵的已标记信用数据却不利用大量相对廉价的未标记信用数据,也是对数据资源的极大浪费。
技术实现思路
本专利技术的目的在于提供一种基于生成式对抗网络和半监督学习的个人信用确定方法,以解决目前已标记信用数据少、信用数据不平衡造成得到的个人信用评估系统泛化能力差的问题和手工标注大量的信用数据耗时耗力的问题。本专利技术所采用的技术方案是,基于生成式对抗网络和半监督学习的个人信用确定方法,其特征在于,具体步骤如下:步骤S1、将个人信用数据分为有标签个人信用数据和无标签个人信用数据;步骤S2、对有标签个人信用数据的类标依次进行数值化和归一化;步骤S3、对有标签个人信用数据进行数据平衡化;步骤S4、通过重采样方法在有标签个人信用数据中获得不同的样本子集;步骤S5、对采样得到的多个样本子集的数据进行扩充,获得多个训练样本;步骤S6、初始化多个子学习器,并将训练样本分配给子学习器,对子学习器进行优化;步骤S7、利用优化后的子学习器对无标签个人信用数据进行标记;并将标记的个人信用数据置于有标签个人信用数据中对有标签个人信用数据进行一次扩充;步骤S8、对有标签个人信用数据进行二次扩充;步骤S9、对步骤S2~S8进行循环迭代,直到无标签个人信用数据集中的数据不再减少,迭代结束;步骤S10、采用boosting方法对最终优化的子学习器进行集成学习,并将集成得到的学习器用于测试集,确定个人信用度。进一步的,所述步骤S2中对个人信用数据进行数值化采用Onehot编码方法。进一步的,所述步骤S2中对个人信用数据进行归一化采用如下公式:其中,xij表示数据归一化处理前第i个有标签个人信用数据的第j个指标值;xij*表示数据归一化处理后第i个有标签个人信用数据的第j个指标值;Mj表示第i个信用数据的第j个指标值的最大值,mj表示第i个信用数据的第j个指标值的最小值,进一步的,所述步骤S3对有标签个人信用数据进行数据平衡化、所述步骤S5对采样得到的多个样本子集的数据进行扩充、所述步骤S8对有标签个人信用数据进行二次扩充均采用生成式对抗网络、SMOTE方法或集成学习方法。进一步的,所述步骤S7中对无标签个人信用数据进行标记,是依据各子学习器给出的同一无标签个人信用数据的类标确定。进一步的,所述采用生成式对抗网络对有标签个人信用数据进行数据平衡化是采用生成式对抗网络对有标签个人信用数据中数据量少的类别数据进行扩充,使该类别的数据量与其他类别的数据量相同。进一步的,所述依据各子学习器给出同一无标签个人信用数据的类标标记无标签个人信用数据的实现过程是:子学习器总数T≤3时,当各子学习器给出当前输入的无标签个人信用数据的类标均相同,则该数据为高置信度的个人信用数据,将各子学习器给出的类标分配给该个人信用数据;子学习器总数T>3时,设置阈值进行确定,当给出的当前输入的无标签个人信用数据的类标相同的子学习器数量占学习器总数的比例高于该阈值时,则该个人信用数据为高置信度的个人信用数据,将学习器给出的类标分配给该个人信用数据。进一步的,所述采生成式对抗网络对采样得到的多个样本子集的数据进行扩充具体是:将由生成式对抗网络的生成器生成且判别器判别为本文档来自技高网
...

【技术保护点】
1.基于生成式对抗网络和半监督学习的个人信用确定方法,其特征在于,具体步骤如下:步骤S1、将个人信用数据分为有标签个人信用数据和无标签个人信用数据;步骤S2、对有标签个人信用数据的类标依次进行数值化和归一化;步骤S3、对有标签个人信用数据进行数据平衡化;步骤S4、通过重采样方法在有标签个人信用数据中获得不同的样本子集;步骤S5、对采样得到的多个样本子集的数据进行扩充,获得多个训练样本;步骤S6、初始化多个子学习器,并将训练样本分配给子学习器,对子学习器进行优化;步骤S7、利用优化后的子学习器对无标签个人信用数据进行标记;并将标记的个人信用数据置于有标签个人信用数据中对有标签个人信用数据进行一次扩充;步骤S8、对有标签个人信用数据进行二次扩充;步骤S9、对步骤S2~S8进行循环迭代,直到无标签个人信用数据集中的数据不再减少,迭代结束;步骤S10、采用boosting方法对最终优化的子学习器进行集成学习,并将集成的学习器用于测试集,确定个人信用度。

【技术特征摘要】
1.基于生成式对抗网络和半监督学习的个人信用确定方法,其特征在于,具体步骤如下:步骤S1、将个人信用数据分为有标签个人信用数据和无标签个人信用数据;步骤S2、对有标签个人信用数据的类标依次进行数值化和归一化;步骤S3、对有标签个人信用数据进行数据平衡化;步骤S4、通过重采样方法在有标签个人信用数据中获得不同的样本子集;步骤S5、对采样得到的多个样本子集的数据进行扩充,获得多个训练样本;步骤S6、初始化多个子学习器,并将训练样本分配给子学习器,对子学习器进行优化;步骤S7、利用优化后的子学习器对无标签个人信用数据进行标记;并将标记的个人信用数据置于有标签个人信用数据中对有标签个人信用数据进行一次扩充;步骤S8、对有标签个人信用数据进行二次扩充;步骤S9、对步骤S2~S8进行循环迭代,直到无标签个人信用数据集中的数据不再减少,迭代结束;步骤S10、采用boosting方法对最终优化的子学习器进行集成学习,并将集成的学习器用于测试集,确定个人信用度。2.根据权利要求1所述的基于生成式对抗网络和半监督学习的个人信用确定方法,其特征在于,所述步骤S2中对个人信用数据进行数值化采用Onehot编码方法。3.根据权利要求1所述的基于生成式对抗网络和半监督学习的个人信用确定方法,其特征在于,所述步骤S2中对个人信用数据进行归一化采用如下公式:其中,xij表示数据归一化处理前第i个有标签个人信用数据的第j个指标值;xij*表示数据归一化处理后第i个有标签个人信用数据的第j个指标值;Mj表示第i个信用数据的第j个指标值的最大值,mj表示第i个信用数据的第j个指标值的最小值,4.根据权利要求1所述的基于生成式对抗网络和半监督学习的个人信用确定方法,其特征在于,所述步骤S3对有标签个人信用数据进行数据平衡化、所述步骤S5对采样得到的多个样本子集的数据进行扩充、所述步骤S8对有标签个人信用数据进行二次扩充均采用生成式对抗网络、SMOTE方法或集成学习方法。5.根据权利要求1所述的基于生成式对抗网络...

【专利技术属性】
技术研发人员:杨云南峰涛
申请(专利权)人:云南大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1