一种基于多实例学习的信用风险评估模型生成方法技术

技术编号:23767908 阅读:149 留言:0更新日期:2020-04-11 20:50
一种基于多实例学习的信用风险评估模型生成方法,包括以下步骤:S1:收集用户的相关数据源信息S2:对获取到的数据源信息利用最小Hausdorff距离聚类特征提取用户历史行为特征向量;S3:将所述用户历史行为特征向量和个人信息数据进行结合,构建新向量数据集;S4:采用基于径向基函数的多实例学习方法对上述结合的新向量数据集进行训练,基于评价模型指标函数来构建信用风险评估模型;S5:对所述信用风险评估模型的效果进行预测,通过适应度函数来检验模型的正确性。本发明专利技术解决了用户数据高维度、无标签问题,实现了最小化风险、最小化复杂性和最大化准确性的目标,不仅提高了信用风险评估模型的运行效率也提高了模型准确性和可解释性。

A credit risk assessment model generation method based on multi instance learning

【技术实现步骤摘要】
一种基于多实例学习的信用风险评估模型生成方法
本专利技术涉及信用评估领域,具体涉及一种基于多实例学习的信用风险评估模型生成方法。
技术介绍
随着信息时代的快速发展,信用风险评估成为金融机构研究的重要课题之一。它是将不确定性转化为风险控制过程。高质量的风险管理使银行能够建立健全的决策体系,减少损失。根据巴塞尔银行监管委员会巴塞尔协议II将银行风险分为三类:(1)信用风险,(2)市场风险,(3)经营风险。因此,从银行安全的角度来看,信用风险已成为银行业研究的一个重要课题,信用风险评估被认为是一个复杂的多维问题,它主要是基于大量的历史数据,如监护人,工作状态,以前的信用历史,个人帐户状态等,目的是了解申请人的行为和预测风险。因此,信用风险度量和管理体系的制定主要着眼于申请人的分类或信用评分。且在专利名称为:“一种基于文本分析的信用风险评估方法及装置”(申请号:2015106953161,申请公布日:2017.05.03)中公开了一种基于文本分析的信用风险评估方法及装置,其中,所述方法还包括:获取借款人的文本;对所述文本进行分析,得到基本语言特征,所述基本语言特征用于预测借款人是否会违约;将所述基本语言特征输入到预设的信用风险评估模型,得到从所述信用风险评估模型输出的所述借款人的信用风险值;输出所述借款人的信用风险值。上述专利汇中使用到了例如线性判别分析(LDA)和逻辑回归(LR)等方法用于构建信用评估模型。这些统计方法因其简单易操作、易于实现而得到广泛的应用。然而,它们相对较差的预测性能限制了它们的使用,尤其是在具有大量特征维的大型数据集上。为了有效地使用信用评估模型,信用评估模型必须在分类性能和可解释性之间寻求良好的平衡。
技术实现思路
本专利技术创新地提出一种基于多实例学习的信用风险评估模型生成方法,能够解决用户数据高维度、无标签问题,以提高风险评估模型的准确率与召回率。本专利技术的技术方案如下所示:一种基于多实例学习的信用风险评估模型生成方法,包括以下步骤:S1:收集用户的相关数据源信息,具体包括个人信息数据和历史动态行为数据;S2:对获取到的数据源信息利用最小Hausdorff距离聚类特征提取用户的历史行为特征向量;S3:将所述历史行为特征向量和个人信息数据进行结合,构建新向量数据集;S4:采用基于径向基函数的多实例学习方法对上述结合的新向量数据集进行训练,基于评价模型指标函数来构建信用风险评估模型;S5:对所述信用风险评估模型的效果进行预测,通过适应度函数来检验模型的正确性。优选的,步骤S2中所述的用户历史行为特征向量的提取过程具体为:S2.1:将S1的历史动态行为数据聚集成K个集群;S2.2:通过每个集群中心的距离映射到历史行为特征向量中,采用距离函数D为最小Hausdorff距离度量,具体定义为:,其中是和之间的欧式距离;S2.3:将历史行为特征向量记为,将第i个变量的特征分量记为,的计算公式为:,通过该公式计算得到历史行为特征向量的具体值;其中表示第n个用户;表示第n个用户与集群之间的距离;表示标准差,用来描述两两集群中心点之间的平均距离。优选的,步骤S2.3中所述的标准差的计算公式为:,其中为恒定参数。其中表示集群与之间的距离,K为集群数。优选的,步骤S3中所述新向量数据集的具体构建步骤为:S3.1:将所述历史行为特征向量记为;S3.2:将用户的个人信息数据记为向量;S3.3:构建新向量,将用户的个人信息数据与历史行为特征向量相结合。其中表示第i个变量的特征分量,表示第n个用户构建的综合特征向量;表示第n个用户与集群之间的距离;表示标准差,用来描述两两集群中心点之间的平均距离。优选的,步骤S5中适应度函数为质量函数和风险函数。优选的,所述质量函数为对正确性的评分,其计算公式为:。更优选的,所述风险函数为通过计算信息值来区分高风险属性和低风险属性,其中高负值表示高风险,高正值表示低风险,计算公式为:;其中代表好的样本总数;表示坏的样本总数;表示特征中好的属性个数;表示特征中坏的属性个数。本专利技术的有益效果为:本专利技术中利用机器学习中的多实例学习方法结合径向基函数对用户相关数据集进行综合风险评估,解决了用户数据高维度、无标签问题,实现了最小化风险、最小化复杂性和最大化准确性的目标,不仅提高了信用风险评估模型的运行效率也提高了模型准确性和可解释性。附图说明图1为本专利技术中信用风险评估模型生成的流程图。具体实施方式下面将结合附图对本专利技术的实施例进行详细的描述。一种基于多实例学习的信用风险评估模型生成方法,如图1所示,包括以下步骤:S1:收集用户的个人信息数据和历史动态行为数据。S2:对获取到的数据源信息利用最小Hausdorff距离聚类特征提取用户的历史行为特征向量,具体包括以下步骤:将历史动态行为数据聚集成K个集群。在聚集之前需要对数据集进行预处理,首先对缺失数据进行均值补充,并删除重复数据。这里由于数据是高维数据,需要先对数据集进行降维,在本专利技术中采用LDA算法,在降维的同时获得其特征主题。接下来对预处理后的低维数据进行聚集;通过每个集群中心的距离映射到特征向量中,采用距离函数D为最小Hausdorff距离度量,具体定义为:,其中是和之间的欧式距离,、分别表示集群点;将历史行为特征向量记为,将第i个变量的特征分量记为,的计算公式为:,通过该公式计算得到历史行为特征向量的具体值;其中表示第n个用户;表示第n个用户与集群之间的距离;表示标准差,用来描述两两集群中心点之间的平均距离,标准差的计算公式为:,其中表示集群与之间的距离,K为集群数,为恒定参数。S3:将所述历史行为特征向量和个人信息数据进行结合,构建新向量数据集,具体包括以下步骤:将通过上述步骤所获得的历史行为特征向量记为;将用户的个人信息数据包括用户身份证号、手机号、银行卡号、邮箱号等数据进行连接合并,记为向量,若有缺失数据则记为NULL;构建新向量,将用户的个人信息数据与历史行为特征向量相结合构建联合向量矩阵。S4:采用基于径向基函数的多实例学习方法对上述结合的新向量数据集进行训练,基于评价模型指标函数来构建信用风险评估模型,评价函数为;其中表示第i个变量的特征分量,表示第n个用户构建的综合特征向量;表示第n个用户与集群之间的距离;表示标准差,用来描述两两集群中心点之间的平均距离,K表示特征向量数。S5:对所述信用风险评估模型的效果进行预测,通过两个适应度函数,即质量函数和风险函数,来检验模型的正确性。其中质量函数为对正确性的评分,如果具有较高的精度分数,则认为解决方案具有较高的质量。其目的是最大限度地提高质量的规则生成的基础上收集的历史样本数据。实际上,使质量函数最大化意味着使数据集验证的正确分类规则最大化。其计算公式为:。风险函数为通过计算信息值来区分高风险属性和本文档来自技高网
...

【技术保护点】
1.一种基于多实例学习的信用风险评估模型生成方法,其特征在于,包括以下步骤:/nS1:收集用户的相关数据源信息,所述数据源信息具体包括个人信息数据和历史动态行为数据;/nS2:对获取到的数据源信息利用最小Hausdorff距离聚类特征提取用户的历史行为特征向量;/nS3:将所述历史行为特征向量和个人信息数据进行结合,构建新向量数据集;/nS4:采用基于径向基函数的多实例学习方法对上述结合的新向量数据集进行训练,基于评价模型指标函数来构建信用风险评估模型;/nS5:对所述信用风险评估模型的效果进行预测,通过适应度函数来检验模型的正确性。/n

【技术特征摘要】
1.一种基于多实例学习的信用风险评估模型生成方法,其特征在于,包括以下步骤:
S1:收集用户的相关数据源信息,所述数据源信息具体包括个人信息数据和历史动态行为数据;
S2:对获取到的数据源信息利用最小Hausdorff距离聚类特征提取用户的历史行为特征向量;
S3:将所述历史行为特征向量和个人信息数据进行结合,构建新向量数据集;
S4:采用基于径向基函数的多实例学习方法对上述结合的新向量数据集进行训练,基于评价模型指标函数来构建信用风险评估模型;
S5:对所述信用风险评估模型的效果进行预测,通过适应度函数来检验模型的正确性。


2.根据权利要求1中所述的一种基于多实例学习的信用风险评估模型生成方法,其特征在于,步骤S2中所述的历史行为特征向量的提取过程具体为:
S2.1:将S1的历史动态行为数据聚集成K个集群;
S2.2:通过每个集群中心的距离映射到历史行为特征向量中,采用距离函数D为最小Hausdorff距离度量,具体定义为:,其中是和之间的欧式距离;
S2.3:将历史行为特征向量记为,将第i个变量的特征分量记为,的计算公式为:,通过该公式计算得到历史行为特征向量的具体值;其中表示第n个用户;表示第n个用户与集群之间的距离;表示标准差,用来描述两两集群中心点之...

【专利技术属性】
技术研发人员:吴基成程宏峰陈杰
申请(专利权)人:杭州信雅达数码科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1