一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统技术方案

技术编号:18973045 阅读:21 留言:0更新日期:2018-09-19 03:54
本发明专利技术公开一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统,该方法包括:首先,根据获取的高维大规模非平衡历史征信数据,构建由所获取的历史数据集构建的训练矩阵X,利用自适应弹性网络特征选择算法对给定的历史征信数据集实施维度约简;然后将经过维度约简后的训练样本集划分为少数样本类及多数样本类,根据类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W,设置相关参数,用IWELM模型实施个人信用风险评估。本发明专利技术所提的方法克服大规模征信数据展现出的高度非平衡性问题,同时提升个人信用风险评估的执行速度与效率,增强评估结果的可靠性和可信度。

【技术实现步骤摘要】
一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统
本专利技术涉及数据评估领域,尤其涉及一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统。
技术介绍
目前,面向多渠道、碎片化、异构、半结构化和非结构化征信数据的个人信用风险评估方法越来越受到金融服务机构的重视。由于当前采集的信用风险评估数据所展现出的大规模、高维、稀疏以及高度类不平衡等特点,要求在进行评估模型训练前对数据进行相应的属性约简,以提升原数据集的质量与信息密度,从而帮助建立更为有效地个人信用风险评估模型,在此过程中需要采用相应的特征选择算法对粗糙的原数据集进行降维,剔除与评估目标无关及弱相关的变量。在个人信用风险评估领域常用的特征选择方法主要有原始Lasso,以及对原始Lasso的改进算法,如groupLasso、adaptiveLasso及fusedLasso等。而在个人信用风险评估模型方面,主要分为统计模型与非统计模型两大类,统计类模型典型代表有Logistic回归模型、Probit模型及K-近邻判别模型等;非统计类模型主要包括贝叶斯网络、决策树模型和粗糙集,以及大量的人工智能算法,如神经网络、支持向量机和各类深度学习算法。而人工智能算法在解决大数据信用风险评估问题时更具有优势,更适用于处理具有大量输入变量的稀疏数据,能更好地解决模型过度拟合问题,预测准确度较高,因此人工智能算法越来越受到该研究领域相关学者的重视。然而,在大规模征信数据特征选择方面,虽然基于Lasso及其改进形式的特征选择算法在实践中被证明是有效的,但依然存在一些缺陷。即Lasso利用L1范数的正则化最小二乘方法进行特征筛选,在样本的特征维数远远大于样本总数时,Lasso的效果不很令人满意,不管所选出的特征数量是否达到饱和,Lasso都最多只能选择样本数量的特征维数,且对于两两之间具有强相关性的一组特征,Lasso倾向于随意地选择其中某一个而忽略该组中所有的其他特征。并且,在个人信用评估模型方面,现有的评估方法更重视评估精度指标,极少考虑当前大规模征信数据中普遍存在的类不平衡现象,即违约行为大大少于履约,但少量的违约信息中往往隐藏着重要的具有反欺诈价值的信息,传统评估模型的训练目标是追求经验风险或者结构风险最小,经验风险最小是期望求得最低的训练集的误分率,这会使得属于少数类的实例被大量误分,结构风险最小其实是期望求得类间距离最大化,这通常会使得类间隔面被移动到实例分布比较稀疏的类别那一边,从而使得分类器对少数类失灵。且传统算法对大规模数据集的分类效率偏低,构建类间隔面的时间开销也很高。
技术实现思路
本专利技术的目的在于针对当前征信数据展现出的大规模、高维、稀疏及高度类不平衡等问题,提供一种面向大规模非平衡征信数据的个人信用风险评估方法及其系统,具体技术方案如下:一种面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,该方法包括如下步骤:步骤一:获取搜集的原始大规模个人信用记录数据集,构建模型训练的样本数据矩阵X和对应于样本数据的类别标签向量Y,其中,X=[x1,x2,…,xp]∈Rn×p为一组包含p个特征、n个样本的个人历史征信记录数据所构成的矩阵,其中xi=[x1i,x2i,…,xpi]T∈Rp(i=1,2,…,p)为表示样本的第i条个人信用记录;Y=[y1,y2,…,yn]T∈Rn×1表示对应于样本数据的类别标签向量,yj=1表示履约,记为“好客户”,yj=0表示违约,记为“坏客户”;步骤二:根据自适应弹性网络模型AEnet对样本数据矩阵X进行维度约简,所述的自适应弹性网络模型AEnet为在弹性网络模型的基础上,在L1范数惩罚项中加入权重系数来实现变量的自动删选,该模型的准则定义如下式所示:其中,为β的L2范数惩罚项,为β的L1范数惩罚项,而βi是基于矩阵X与Y的最小二乘估计值,λ1和λ2为两个非负的惩罚参数,且其中,γ和λ1*为正常数;步骤三:将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类,利用类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W,W为一个对角阵,对角线上的元素Wii即第i个样本的隶属度;设在训练集X*上的整体类不平衡比率的倒数为δ,即少数类与多数类样本数之比为δ,则两类样本的隶属度为:为第i个多数类客户信用记录样本所对应的隶属函数值,为第i个少数类客户信用记录样本所对应的隶属函数值;为评估函数,用于评估特定样本点在特征空间所处位置的重要程度,且考虑样本总体在特征空间的具体分布信息,建立基于类簇质心距离指数化衰减的隶属度确定函数,如下式所示:为多数类或方差少数类所在簇类质心,为到其所在簇类质心的欧氏距离,σ2为X*的总体方差;步骤四:计算隐藏层输出矩阵H:ai和bi分别表示第i个隐藏层节点的权重与偏置,G表示激活函数;步骤五:计算输出权重矩阵θ的近似解其中,为隐层输出矩阵H的Moore-Penrose广义逆;Y*为维度约简后的类别标签向量,且步骤六:根据改进加权ELM模型IWELM计算第i个样例在隐藏层上的输出向量其中所述的IWELM的形式如下所示:εi表示第i个训练样本的实际输出与期望输出之差;C为惩罚因子,用于调控网络的泛化能力与精确度间的平衡关系,s为删选后的样本数量;步骤七:根据改进加权ELM模型IWELM得到其中,I为单位矩阵,T为训练集X*对应的期望输出向量,将守约客户所对应类别输出节点的期望输出值设为1,违约客户所对应类别节点的输出值则设为0,K为标签类别数目;步骤八:通过下式可确定该客户所对应的类别标签,从而完成个人信用风险评估;优选地,λ1和λ2为两个非负的惩罚参数,两者最优值通过网格搜索及十折交叉法确定。优选地,所述的改进加权ELM模型IWELM的输入层的节点为s个,隐藏层为k个,输出层为m个。优选地,所述的步骤四中第i个隐藏层节点的权重与偏置ai和bi均为在[-1,1]区间内随机生成。一种采用上述任一项的个人信用风险评估方法的个人信用风险评估系统,其特征在于,该系统包括如下模块:数据采集模块,用于采集并获取原始大规模个人信用记录数据;数据预处理模块,用于将个人信用记录数据构建模型训练的样本数据矩阵X,标定类别标签,构建标签向量Y;维度约简模块,用于根据样本数据矩阵X和标签向量Y,利用自适应弹性网络模型AEnet对原始大规模个人信用记录进行维度约简;数据划分模块:用于将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类;隶属度计算模块:用于基于类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W;信用风险评估模块:根据改进加权ELM模型IWELM实施个人信用风险评估;评估结果输出模块:用于输出个人信用风险评估结果。本专利技术的有益效果是,本专利技术所提供的方法可以根据给定的大规模征信数据自动删选有效个人信用风险的评估变量,删除无关、弱相关变量,提升待评估征信数据的质量与信息密度,然后利用改进加权极限学习机克服个人信用评价数据展现出的高度非平衡性,同时提升面向大规模征信数据的个人信用风险评估模型的执行速度与效率。同时,所提个人信用风险评估模型在提升评估效率与速度的同时,可以有效处理征信数据集中存在类不平衡问题,增强了评估结果的可靠性和可信本文档来自技高网
...

【技术保护点】
1.一种面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,该方法包括如下步骤:步骤一:获取搜集的原始大规模个人信用记录数据集,构建模型训练的样本数据矩阵X和对应于样本数据的类别标签向量Y,其中,X=[x1,x2,…,xp]∈Rn×p为一组包含p个特征、n个样本的个人历史征信记录数据所构成的矩阵,其中xi=[x1i,x2i,…,xpi]T∈Rp(i=1,2,…,p)为表示样本的第i条个人信用记录;Y=[y1,y2,…,yn]T∈Rn×1表示对应于样本数据的类别标签向量,yj=1表示履约,记为“好客户”,yj=0表示违约,记为“坏客户”。步骤二:根据自适应弹性网络模型AEnet对样本数据矩阵X进行维度约简,所述的自适应弹性网络模型AEnet为在弹性网络模型的基础上,在L1范数惩罚项中加入权重系数

【技术特征摘要】
1.一种面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,该方法包括如下步骤:步骤一:获取搜集的原始大规模个人信用记录数据集,构建模型训练的样本数据矩阵X和对应于样本数据的类别标签向量Y,其中,X=[x1,x2,…,xp]∈Rn×p为一组包含p个特征、n个样本的个人历史征信记录数据所构成的矩阵,其中xi=[x1i,x2i,…,xpi]T∈Rp(i=1,2,…,p)为表示样本的第i条个人信用记录;Y=[y1,y2,…,yn]T∈Rn×1表示对应于样本数据的类别标签向量,yj=1表示履约,记为“好客户”,yj=0表示违约,记为“坏客户”。步骤二:根据自适应弹性网络模型AEnet对样本数据矩阵X进行维度约简,所述的自适应弹性网络模型AEnet为在弹性网络模型的基础上,在L1范数惩罚项中加入权重系数来实现变量的自动删选,该模型的准则定义如下式所示:其中,为β的L2范数惩罚项,为β的L1范数惩罚项,而βi是基于矩阵X与Y的最小二乘估计值,λ1和λ2为两个非负的惩罚参数,且其中,γ和λ1*为正常数。步骤三:将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类,利用类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W,W为一个对角阵,对角线上的元素Wii即第i个样本的隶属度;设在训练集X*上的整体类不平衡比率的倒数为δ,即少数类与多数类样本数之比为δ,则两类样本的隶属度为:为第i个多数类客户信用记录样本所对应的隶属函数值,为第i个少数类客户信用记录样本所对应的隶属函数值;为评估函数,用于评估特定样本点在特征空间所处位置的重要程度,且考虑样本总体在特征空间的具体分布信息,建立基于类簇质心距离指数化衰减的隶属度确定函数,如下式所示:为多数类或方差少数类所在簇类质心,为到其所在簇类质心的欧氏距离,σ2为X*的总体方差。步骤四:计算隐藏层输出矩阵H:ai和bi分别表示第i个隐藏层节点的权重与偏置,G表示激活函数。步骤五:计算输出权重矩阵θ的近似解其中,为隐层输出矩阵H的Moore-Penro...

【专利技术属性】
技术研发人员:徐达宇魏致善蓝倩施宇伦林路
申请(专利权)人:信雅达系统工程股份有限公司浙江农林大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1