一种基于拒绝推断的金融违约风险评估方法及系统技术方案

技术编号:27658241 阅读:22 留言:0更新日期:2021-03-12 14:23
本发明专利技术提供了一种基于拒绝推断的金融违约风险评估方法及系统,获取接受申请用户和拒绝申请用户的数据形成接受样本和拒绝样本,统计两者的共有特征维度;将信用还款记录作为标签,将接受样本分为违约正样本和非违约负样本,构建具有标签的接受样本,并形成训练数据集;利用学习后的特征表示模型生成具有标签的接受样本和拒绝样本的特征表示结果;利用训练后的拒绝推断模型,根据S1中得到的训练数据集中的数据推断拒绝样本的标签,构建具有标签的拒绝样本,并加入到S1中得到的训练数据集中,利用训练完成的风险评估模型,对新申请者的违约概率进行计算,进而得到风险评估结果。本发明专利技术降低样本偏差对模型的影响,能更好地评估金融违约风险。

【技术实现步骤摘要】
一种基于拒绝推断的金融违约风险评估方法及系统
本专利技术涉及金融违约风险评估
,具体地,涉及一种基于拒绝推断的金融违约风险评估方法及系统。
技术介绍
金融违约风险评估是通过构建模型对贷款申请者的违约风险进行预测,并给出申请者违约概率的技术,在此基础上金融借贷机构可以根据相关政策并利用违约概率判断申请者的好坏并做出接受或拒绝贷款申请的决策。金融违约风险评估技术常常利用专家系统、统计模型、机器学习模型,机器学习在实际应用中已取得了较好的成果,其中利用较多的技术是逻辑回归、支持向量机、XGBoost、神经网络等模型,为了提高预测模型的准确度,越来越复杂的模型开始采用,其中最多的是集成模型XGBoost、随机森林和神经网络等,但是模型的复杂度提高后,相对于传统的单模型逻辑回归等,模型缺乏了可解释性,在实际应用中较难满足业务要求,而逻辑回归由于简单稳定并具有强逻辑解释性,在实际业务中是应用很广的技术。另一方面在构建模型数据集上存在一定问题,不能完全利用所有数据的信息,在构建机器学习信用评分模型时需要足够的有标签数据,数据越能体现所有样本的信息模型的准确度越高,而金融机构获得的数据往往是非随机缺失的非完备数据,即金融借贷机构拥有的是所有申请者的相关特征属性信息,以及通过申请用户的贷款记录和还款记录信息,但是拒绝贷款申请用户的信用还款记录是缺失,这部分还款记录是用来构建模型的最佳标签,这会导致实际建模时,由于缺乏拒绝申请者的标签而仅用接受申请者的样本进行模型构建,这种接受样本是经过一次筛选的会出现样本非随机偏差,在建模时导致参数估计的有偏,无法做出准确的判断,易造成金融借贷机构的经济损失。综上所述,现有的金融违约风险评估技术存在样本偏差,进而影响评估的准确度,无法真正满足金融违约风险评估的要求,目前没有发现同本专利技术类似技术的说明或报道,也尚未收集到国内外类似的资料。
技术实现思路
本专利技术针对现有技术中存在的上述不足,提供了一种基于拒绝推断的金融违约风险评估方法及系统。本专利技术是通过以下技术方案实现的。根据本专利技术的一个方面,提供了一种基于拒绝推断的金融违约风险评估方法,包括:S1,获取接受申请用户和拒绝申请用户的数据,对数据进行预处理,分别形成接受样本和拒绝样本,统计接受样本和拒绝样本的共有特征维度;将信用还款记录作为标签,将接受样本分为违约正样本和非违约负样本,构建具有标签的接受样本,并形成训练数据集;S2,利用S1中得到的训练数据集中的数据学习特征表示模型,利用学习后的特征表示模型生成具有标签的接受样本和拒绝样本的特征表示结果;S3,利用S2中得到的特征表示结果训练拒绝推断模型,利用训练后的拒绝推断模型,根据S1中得到的训练数据集中的数据推断拒绝样本的标签,构建具有标签的拒绝样本,并加入到S1中得到的训练数据集中;S4,利用S3中得到的训练数据集训练风险评估模型;利用训练完成的风险评估模型,对新申请者的违约概率进行计算,进而得到风险评估结果。优选地,所述S1中:将现有数据划分为已有信用还款记录的接受申请用户数据和无借贷还款记录的拒绝申请用户数据,预处理后分别形成接受样本和拒绝样本;将信用还款记录作为标签,有违约记录的接受样本为正样本,无违约记录的接受样本为负样本,以此构建具有标签的接受样本,并形成训练数据集。优选地,所述预处理包括:数据清洗、特征选择、特征编码、不平衡处理。优选地,所述统计接受样本和拒绝样本的共有特征维度,包括:选择接受样本和拒绝样本的共有特征;对共有特征进行类别特征划分和数值特征划分;对处理后的特征进行特征工程操作,得到共有特征维度。优选地,所述S2中:利用多层感知器作为特征表示模型,将具有标签的接受样本和拒绝样本作为模型的输入,输出为样本特征向量;输出的样本特征向量满足同标签样本间的距离足够近,不同标签样本间的距离足够远,其中,距离的度量方式是欧式距离,得到特征表示结果。优选地,所述S3中,利用经过受约束的半监督聚类模型作为拒绝推断模型,将处理后的有标签接受样本和无标签拒绝样本作为输入,通过聚类结果推断出拒绝样本的标签。优选地,所述S4中,利用逻辑回归信用评分模型作为风险评估模型,将具有标签的接受样本和利用拒绝推断模型推断出标签的拒绝样本共同作为输入,输出为新用户的违约概率。根据本专利技术的另一个方面,提供了一种基于拒绝推断的金融违约风险评估系统,包括:样本处理模块,所述样本处理模块获取接受申请用户和拒绝申请用户的数据,对数据进行预处理,分别形成接受样本和拒绝样本,统计接受样本和拒绝样本的共有特征维度;将信用还款记录作为标签,将接受样本分为违约正样本和非违约负样本,构建具有标签的接受样本,并形成训练数据集;特征表示模块,所述特征表示模块利用样本处理模块中得到的训练数据集中的数据学习特征表示模型,利用学习后的特征表示模型生成具有标签的接受样本和拒绝样本的特征表示结果;拒绝推断模块,拒绝推断模块利用特征表示模块中得到的特征表示结果训练拒绝推断模型,利用训练后的拒绝推断模型,根据样本处理模块中得到的训练数据集中的数据推断拒绝样本的标签,构建具有标签的拒绝样本,并加入到样本处理模块中得到的训练数据集中,对训练数据集进行更新;风险评估模块,所述风险评估模块利用更新后的训练数据集训练风险评估模型,利用训练完成的风险评估模型,对新用户的金融违约风险进行评估。优选地,所述样本处理模块中:将现有数据划分为已有信用还款记录的接受申请用户数据和无借贷还款记录的拒绝申请用户数据,预处理后分别形成接受样本和拒绝样本;将信用还款记录作为标签,有违约记录的接受样本为正样本,无违约记录的接受样本为负样本,以此构建具有标签的接受样本,并形成训练数据集。优选地,所述预处理包括:数据清洗、特征选择、特征编码、不平衡处理、异常和缺失处理。优选地,所述统计接受样本和拒绝样本的共有特征维度,包括:选择接受样本和拒绝样本的共有特征;对的共有特征进行类别特征划分和数值特征划分;对处理后的特征进行特征工程操作,得到共有特征维度,该共有特征为两类样本都包含并可用于后续所有模型训练的特征,用于拒绝推断模型和风险评估模型的训练。优选地,所述特征表示模块中:利用多层感知器作为特征表示模型,将具有标签的接受样本和拒绝样本作为模型的输入,输出为样本特征向量;输出的样本特征向量满足同标签样本间的距离足够近,不同标签样本间的距离足够远,其中,距离的度量方式是欧式距离,得到特征表示结果。优选地,所述拒绝推断模块中,利用经过受约束的半监督聚类模型作为拒绝推断模型,将有标签接受样本和无标签拒绝样本作为输入,通过聚类结果推断出拒绝样本的标签。优选地,所述风险评估模块中,利用逻辑回归信用评分模型作为风险评估模型,将具有标签的接受样本和利用拒绝推断模型推断出标签的拒绝样本共同作为输入,输出为新用户的违约概率。根据本专利技术的第三个方面,提供了一种本文档来自技高网
...

【技术保护点】
1.一种基于拒绝推断的金融违约风险评估方法,其特征在于,包括:/nS1,获取接受申请用户和拒绝申请用户的数据,对数据进行预处理,分别形成接受样本和拒绝样本,统计接受样本和拒绝样本的共有特征维度;将信用还款记录作为标签,将接受样本分为违约正样本和非违约负样本,构建具有标签的接受样本,并形成训练数据集;/nS2,利用S1中得到的训练数据集中的数据学习特征表示模型,利用学习后的特征表示模型生成具有标签的接受样本和拒绝样本的特征表示结果;/nS3,利用S2中得到的特征表示结果训练拒绝推断模型,利用训练后的拒绝推断模型,根据S1中得到的训练数据集中的数据推断拒绝样本的标签,构建具有标签的拒绝样本,并加入到S1中得到的训练数据集中;/nS4,利用S3中得到的训练数据集训练风险评估模型;/n利用训练完成的风险评估模型,对新申请者的违约概率进行计算,进而得到风险评估结果。/n

【技术特征摘要】
1.一种基于拒绝推断的金融违约风险评估方法,其特征在于,包括:
S1,获取接受申请用户和拒绝申请用户的数据,对数据进行预处理,分别形成接受样本和拒绝样本,统计接受样本和拒绝样本的共有特征维度;将信用还款记录作为标签,将接受样本分为违约正样本和非违约负样本,构建具有标签的接受样本,并形成训练数据集;
S2,利用S1中得到的训练数据集中的数据学习特征表示模型,利用学习后的特征表示模型生成具有标签的接受样本和拒绝样本的特征表示结果;
S3,利用S2中得到的特征表示结果训练拒绝推断模型,利用训练后的拒绝推断模型,根据S1中得到的训练数据集中的数据推断拒绝样本的标签,构建具有标签的拒绝样本,并加入到S1中得到的训练数据集中;
S4,利用S3中得到的训练数据集训练风险评估模型;
利用训练完成的风险评估模型,对新申请者的违约概率进行计算,进而得到风险评估结果。


2.根据权利要求1所述的基于拒绝推断的金融违约风险评估方法,其特征在于,所述S1中:将现有数据划分为已有信用还款记录的接受申请用户数据和无借贷还款记录的拒绝申请用户数据,预处理后分别形成接受样本和拒绝样本;将信用还款记录作为标签,有违约记录的接受样本为正样本,无违约记录的接受样本为负样本,以此构建具有标签的接受样本,并形成训练数据集。


3.根据权利要求1或2所述的基于拒绝推断的金融违约风险评估方法,其特征在于,所述预处理包括:数据清洗、特征选择、特征编码和/或不平衡处理。


4.根据权利要求1或2所述的基于拒绝推断的金融违约风险评估方法,其特征在于,所述统计接受样本和拒绝样本的共有特征维度,包括:
选择接受样本和拒绝样本的共有特征;
对共有特征进行类别特征划分和数值特征划分;
对划分后的特征分别进行相应的缺失值和异常值处理;
对处理后的特征进行特征工程操作,得到共有特征维度。


5.根据权利要求1所述的基于拒绝推断的金融违约风险评估方法,其特征在于,所述S2中:利用多层感知器作为特征表示模型,将具有标签的接受样本和拒绝样本作为模型的输入,输出为样本特征向量;输出的样本特征向量满足同标签样本间的距离足够近,不同标签样本间的距离足够远,其中,距离的度量方式是欧式距离,得到特征表示结果。


6.根据权利要求1所述的基于拒绝推断的金融违约风险评估方法,其特征在于,所述S3中,利用经过受约束的半监督聚类模型作为拒绝推断模型,将带标签的接受样本和无标签的拒绝样本作为输入,通过聚类结果推断出拒绝样本的标签。


7.根据权利要求1所述的基于拒绝推断的金融违约风险评估方法,其特征在于,所述S4中,利用逻辑回归信用评分模型作为风险评估模型,将具有标签的接受样本和利用拒绝推断模型推断出标签的拒绝样本共同作为输入,输出为新用户的违约概率。


8.一种基于拒绝推断的金融违约风险评估系统,其特征在于,包括:
样本处理模块,所述样本处理模块获取接受申请用户...

【专利技术属性】
技术研发人员:段建钢邓诗哲李瑞
申请(专利权)人:上海旻浦科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1