一种信用评估模型训练、评估方法与装置制造方法及图纸

技术编号:21142828 阅读:56 留言:0更新日期:2019-05-18 05:39
本发明专利技术公开一种的信用评估模型训练、评估的方法与装置,其中信用评估模型通过训练方法得到,包括:获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果;对收集到的用户数据中的用户数据进行预处理,转换为数值数据,包含但不限于将类别型数据进行One hot变换,数值型数据进行归一化;构建m个SDT子分类器,m为正整数,另构建一个SDT权重生成器,用以生成m个SDT子分类器的权重概率分布;利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练。通过本发明专利技术所述方法构建的信用评估模型与装置,拥有更高的工作效率,而且可以降低坏账率;同时具有产生可视化的决策过程。

【技术实现步骤摘要】
一种信用评估模型训练、评估方法与装置
本专利技术公开了一种金融风险评估领域中的信用评估模型训练、评估的方法与装置,具体涉及到基于加权软决策森林的信用评估模型训练、评估方法与装置。
技术介绍
信用评估是金融机构预测客户是否违约的关键步骤。错误的信用评估会使金融机构蒙受经济损失。开发智能的信用评估系统不仅可以提高金融机构的工作效率,还可以降低坏账率。近年来,常用的传统征信系统中大多使用评分卡来构建用户的信用模型。评分卡主要使用逻辑回归算法来实现,可以提高线性模型的性能。但是,目前常用的线性模型虽然能保证一定的可解释性,模型性能却并不能满足需求,导致这种方法对用户的信用评估预测结果可能不准确,实际应用价值有限。目前,已有许多人工智能算法被应用于该领域,如支持向量机、集成学习、K-最近邻等方法,大幅提高了信用评估模型的性能。然而,这些人工智能算法由于其计算过程的复杂性,普遍存在可解释性差的问题。而信用评估模型的可解释性又是具有现实意义的,例如:欧盟颁布的“通用数据保护条例”明确要求企业对智能算法得到的决策进行适当解释,否则会给予巨额罚款。因此,如何在保证模型具有良好可解释性的前提下,提高信用评估的准确性,是本领域技术人员亟需解决的技术问题。
技术实现思路
本专利技术要解决的技术问题是提供一种性能良好同时具有一定可解释性的信用评估模型的训练、评估方法以及装置。为此,本专利技术的第一个目的在于提出一种新型的基于加权软决策森林的信用评估模型及训练方法。该模型基于软决策树(SoftDecisionTree,SDT)实现,构建m个SDT子分类器进行分类,1个SDT权重生成器对m个SDT子分类器进行加权集成。由于SDT是一种逻辑上具有二叉树结构的深度神经网络,因而该模型在保证性能的同时,继承了决策树算法的可解释性。本专利技术的第二个目的在于提出一种可解释的信用评估方法。本专利技术的第三个目的在于提出一种可解释的信用评估模型的训练装置。本专利技术的第四个目的在于提出一种可解释的信用评估装置。为达到上述目的,本专利技术的技术方案是这样实现的:一种信用评估模型的训练方法,其特征在于,它包括以下步骤:S11,获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果;S12,对收集到的用户数据中的用户数据进行预处理,转换为数值数据;S13,构建m个SDT子分类器,m为正整数,另构建一个SDT权重生成器,用以生成m个SDT子分类器的权重概率分布,该模型即为加权软决策森林(WeightedSoftDecisionForest,WSDF);S14,利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练。进一步地,上述S13具体包括:构建m个SDT子分类器和一个SDT权重生成器,并初始化模型参数;将所述预处理后的用户数据依次通过m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。进一步地,上述S14中端到端的训练具体包括:设已拥有预处理后的用户数据集T,使用该数据集对WSDF模型进行训练:首先,将数据集T随机划分成S组mini-batch;在每组mini-batch上分别计算本专利技术定义的损失函数的函数值,使用梯度下降算法进行参数更新;计算完S组mini-batch的损失函数值后,重新划分数据集并更新参数,重复N次。一种WSDF信用评估模型,通过上述的方法训练出来。一种信用评估的方法,使用上述的WSDF信用评估模型,其特征在于,包括以下步骤S21,获取待信用评估的用户在征信系统中的用户数据;S22,对收集到的用户数据中的用户数据进行预处理,转换为数值数据;S23,使用已训练好的WSDF信用评估模型对用户的信用信息进行预测;S24,对所述WSDF信用评估模型中的参数值进行可视化,即可得到每一棵SDT的直观决策过程。进一步地,所述使用已训练好的WSDF信用评估模型对用户进行预测,包括:将所述预处理后的用户数据依次通过所述已训练好的WSDF信用评估模型中的m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。进一步地,所述对WSDF信用评估模型中的参数值进行可视化,即可得到每一棵SDT的直观决策过程,包括:提取出除叶节点外的每个SDT内部节点的权重值,并分别按绝对值从大到小排序,即可得到影响用户信用信息权重较大的特征。若知晓用户属性的具体含义,也可以从中归纳出具有现实意义的信用评估决策规则。一种信用评估模型的训练装置,用于训练上述的WSDF信用评估模型,其特征在于,包括:数据获取模块S31,用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据;数据预处理模块S32,用于对收集到的用户数据进行预处理;模型构建与初始化模块S33,用于构建WSDF模型,并对模型参数初始化;模型训练模块S34,该模块利用预处理后的用户数据对WSDF模型的参数进行迭代更新,训练出WSDF信用评估模型。进一步地,所述模型构建与初始化模块,包括:构建m个SDT子分类器和一个SDT权重生成器,并初始化模型参数。进一步地,所述模型训练模块,包括:设已拥有预处理后的用户数据集T,使用该数据集对模型进行训练:首先,将数据集T随机划分成S组mini-batch;在每组mini-batch上分别计算本专利技术定义的损失函数的函数值,使用梯度下降算法进行参数更新;计算完S组mini-batch的损失函数值后,重新划分数据集并更新参数,重复N次。一种信用评估的装置,采用上述的WSDF信用评估模型,其特征在于,包括:数据获取模块S41,用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据;数据预处理模块S42,用于对收集到的用户数据进行预处理;预测模块S43,用于对待信用评估的用户进行预测;可视化模块S44,用于可视化信用评估模型的具体决策过程。进一步地,所述预测模块:将所述预处理后的用户数据依次通过所述WSDF信用评估模型中的m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的本文档来自技高网...

【技术保护点】
1.一种信用评估模型的训练方法,其特征在于,它包括以下步骤:S11,获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果;S12,对收集到的用户数据中的用户数据进行预处理,转换为数值数据;S13,构建m个SDT子分类器,m为正整数,另构建一个SDT权重生成器,用以生成m个SDT子分类器的权重概率分布,该模型即为WSDF;S14,利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练。

【技术特征摘要】
1.一种信用评估模型的训练方法,其特征在于,它包括以下步骤:S11,获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果;S12,对收集到的用户数据中的用户数据进行预处理,转换为数值数据;S13,构建m个SDT子分类器,m为正整数,另构建一个SDT权重生成器,用以生成m个SDT子分类器的权重概率分布,该模型即为WSDF;S14,利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练。2.如权利要求1所述的训练方法,其特征在于,S13具体包括:构建m个SDT子分类器和一个SDT权重生成器,并初始化模型参数;将所述预处理后的用户数据依次通过m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。3.如权利要求1所述的训练方法,其特征在于,S14中端到端的训练具体包括:设已拥有预处理后的用户数据集T,使用该数据集对S13的WSDF模型进行训练:首先,将数据集T随机划分成S组mini-batch;在每组mini-batch上分别计算本申请定义的损失函数的函数值,使用梯度下降算法进行参数更新;计算完S组mini-batch的损失函数值后,重新划分数据集并更新参数,重复N次。4.一种通过权利要求1-3任一权利要求所述的训练方法训练出来的WSDF信用评估模型。5.一种信用评估的方法,使用权利要求4所述的WSDF信用评估模型,其特征在于,包括以下步骤:S21,获取待信用评估的用户在征信系统中的用户数据;S22,对收集到的用户数据中的用户数据进行预处理,转换为数值数据;S23,使用已训练好的WSDF信用评估模型对用户的信用信息进行预测;S24,对所述WSDF信用评估模型中的参数值进行可视化,即可得到每一棵SDT的直观决策过程。6.如权利要求5所述的信用评估方法,其特征在于,所述使用已训练好的WSDF信用评估模型对用户进行预测,包括:将所述预处理后的用户数据依次通过所述已训练好的WSDF信用评估模型中的m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概...

【专利技术属性】
技术研发人员:刘欣阳周琪云曲彦文高子健
申请(专利权)人:江西师范大学
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1