【技术实现步骤摘要】
一种基于灰狼算法优化广义回归神经网络的信用评估方法
本专利技术涉及互联网金融行业的风控
,具体为一种基于灰狼算法优化广义回归神经网络的信用评估方法。
技术介绍
在评估方法方面,互联网金融的海量数据和快速响应要求使得人工智能方法成为不二选择,逻辑回归、决策树、支持向量机和贝叶斯网络等机器学习算法在各类实证研究中都成功应用。随着人工智能技术的快速发展,误差逆向传播(BP)、径向基函数(RBF)、自组织映射(SOM)等神经网络等成为互联网金融信用评估的重要研究领域。但BP和RBF神经网络存在学习速度慢、易陷入局部极小值,预测结果精度不高的缺点,SOM网络采用无监督学习规则,缺乏分类信息,因此,对一种基于灰狼算法优化广义回归神经网络的信用评估方法的需求日益增长。广义回归神经网络(GeneralizedRegressionNeuralNetwork,GRNN)是在RBF网络基础之上发展起来的一种基于非线性回归理论的前馈式神经网络。与常用的BP和RBF神经网络不同,对于GRNN来说,训练样本确定,则网络结构和各节点之间的连接权值也随之确定,无需反复迭代训练学习,只需要通过光滑因子σ来调整各单元的传递函数。GRNN通过寻找最佳平滑因子σ以获得最佳回归估计结果,极大简化了网络运算的性能,增加了网络模型的鲁棒性,GRNN具有非线性逼近能力强、网络结构简单和预测精度高等优点,在学习速率、稳定性与逼近能力等方面的性能均优于BP和RBF神经网络。与一般的神经网络相比,GRNN模型比较简单,光滑因子σ是其唯一需要确定的参 ...
【技术保护点】
1.一种基于灰狼算法优化广义回归神经网络的信用评估方法,其特征在于:包括以下六个步骤:/nS1、采集数据,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据作为信用数据,以及样本对应的正常还款或逾期表现作为标签数据;/nS2、数据预处理,对采集的信用数据进行缺失补全、异常值处理和归一化处理后,通过随机森林算法对信用数据做特征选择,K折交叉验证数据划分训练集和测试集;/nS3、构建GRNN,将随机森林筛选后的信用数据作为GRNN的输入,将标签数据作为GRNN模型的输出,确定网络拓扑结构及初始化网络参数;/nS4、利用灰狼算法对GRNN的平滑因子寻优,得到GWO-GRNN预测模型;/nS5、输入训练集样本,训练GWO-GRNN预测模型,将测试集样本输入训练后的模型得到预测结果,以模型精度评价指标与遗传算法、粒子群算法优化的GRNN预测模型进行对比和评估;/nS6、将优化GRNN信用评分模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出实时申请信用评分,实现申请客 ...
【技术特征摘要】
1.一种基于灰狼算法优化广义回归神经网络的信用评估方法,其特征在于:包括以下六个步骤:
S1、采集数据,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据作为信用数据,以及样本对应的正常还款或逾期表现作为标签数据;
S2、数据预处理,对采集的信用数据进行缺失补全、异常值处理和归一化处理后,通过随机森林算法对信用数据做特征选择,K折交叉验证数据划分训练集和测试集;
S3、构建GRNN,将随机森林筛选后的信用数据作为GRNN的输入,将标签数据作为GRNN模型的输出,确定网络拓扑结构及初始化网络参数;
S4、利用灰狼算法对GRNN的平滑因子寻优,得到GWO-GRNN预测模型;
S5、输入训练集样本,训练GWO-GRNN预测模型,将测试集样本输入训练后的模型得到预测结果,以模型精度评价指标与遗传算法、粒子群算法优化的GRNN预测模型进行对比和评估;
S6、将优化GRNN信用评分模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出实时申请信用评分,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
2.根据权利要求1所述的一种基于灰狼算法优化广义回归神经网络的信用评估方法,其特征在于,在S1中,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据。其中用户的个人申请信息包括:手机号、学历、婚姻状况、工作单位、住址、联系人信息,征信报告获取的个人基本信息、信用交易信息、公共信息、特别记录数据;所述埋点数据包括埋点时采集的设备行为数据和日志数据,其中设备行为数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下,不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
3.根据权利要求1所述的一种基于灰狼算法优化广义回归神经网络的信用评估方法,其特征在于,在S2中,将S1所收集的样本数据,使用归一化公式对剔除异常点和降低噪声后的数据归一化处理,把所有的数据转化到[0,1],减少数据之间差值,使数据更平滑,归一化公式如下:
其中,Xnorm是归一化后的数据;Xmin、Xmax分别代表数据集中最小和最大值;X为原始数据。
4.根据权利要求1所述的一种基于灰狼算法优化广义回归神经网络的信用评估方法,其特征在于,在S2中,所采集的信用数据特征有很多,其中不乏有很多噪音,不利于神经网络的训练,通过随机森林算法对信用数据计算出每一个特征的重要性(VariableImportance,VI)并降序排序,选择出重要性靠前的特征完成变量降维。对降维后的数据集采用K折划分训练集和测试集,首先将数据集打乱,均匀分成K个不相交的子集,随机划分训练集和测试集,用于交叉验证。
5.根据权利要求1所述的基一种基于灰狼算法优化广义回归神经网络的信用评估方法,其特征在于,在S3中,广义回归神经网络(GeneralRegressionNeuralNetwork,GRNN)是在径向基函数(RadialBasisFunction,RBF)神经网络基础之上发展起来的典型的前馈型神经网络,GRNN网络结构由四层组成:输入层、模式层(径向基层)、求和层、输出层。输入历史数据逐次通过四层运算得到网络预测输出,并根据输出的误差不断调节平滑参数σ,最终使误差最小。
设定GRNN输入向量Xj=[xj1,xj2,…,xjm]T,输出向量Y=[Y1,Y2,…,Yk],其中1≤j≤n,n为训练样本数,m代表网络输出向量X的维数,k代表网络输出变量Y的维数。
S31、输入层
输入层对输入训练样本数据不进行任何计算处理,该层节点数目等于输入训练样本数据的维数,各节点将输入变量直接传递给模式层。
S32、模式层
模式层使用非线性的传递函数处理从输入层传输的数据,该层节点数目为样本数目个数n,每个节点对应一个训练样本,传递函数通常选用高斯核函数,计算表达式如下:
式中,X是网络输入变量;Xi为第i节点对应的训练样本;σ是高斯核函数的光滑因子。
S33、求和层
求和层使用求和方式处理由模式层的计算结果得到分子层节点和分母层节点,该层的节点数目和模式层均与训练样本数目个数n相等。
分母层节点是对所有模式层的节点进行算数求和,计算方式为:
分子层节点是对所有模式层的节点输出进行加权求和,是节点预期结果与每个模式层节点的加权求和,计算方式为:
式中,Si是分母层节点;Swj是分子层节点;Pi是模式层第i个节点,i=1,2…,n是模式层节点数,即训练样本数;yij是节点预期结果,j=1,2,…,k是输出向量的维数。
S34、输出层
输出层是将求和层得到的分子层节点和分母层节点的输出相除,得到最终的估计值。该层的节点数目与训练样本的输出向量维数k相等,计算公式如下:
式中,yj是第j个网络输出值,j=1,2,…,k是输出向量的维数;Si是分母层节点,i=1,2…,n是求和层节点数,即训练样本数;Swj是分子层节点。
由上述分析可知,GRNN确定输入向量后,在训练过程中不需要调整节点之间的连接权值,只要改变平滑因子σ从而调整模式层中...
【专利技术属性】
技术研发人员:江远强,
申请(专利权)人:百维金科上海信息科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。