违约预测模型的训练方法、违约预测方法、装置及设备制造方法及图纸

技术编号:38497557 阅读:9 留言:0更新日期:2023-08-15 17:07
本公开提供了一种违约预测模型的训练方法、违约预测方法、装置及设备,可以应用于大数据分析、金融科技和人工智能领域。违约预测模型的训练方法包括:对资源偿还数据集中每个对象的偿还信息进行特征提取,生成与对象对应的偿还向量,对象包括违约对象和不违约对象;对多个违约对象的偿还向量进行聚类分析,得到多个数据簇和每个数据簇对应的聚类质心;对多个聚类质心进行采样生成至少一个质心对;基于每个质心对中第一质心与第二质心之间的质心距离生成多个违约向量;在违约向量和多个违约对象对应的偿还向量的总数量,与多个不违约对象对应的偿还向量的数量的比例为预设比例的情况下,利用违约向量和资源偿还数据集对违约预测模型进行训练。测模型进行训练。测模型进行训练。

【技术实现步骤摘要】
违约预测模型的训练方法、违约预测方法、装置及设备


[0001]本公开涉及大数据分析、金融科技和人工智能领域,尤其涉及一种违约预测模型的训练方法、违约预测方法、装置及设备。

技术介绍

[0002]近年来,违约行为越发普遍,通过对有贷款需求的客户进行违约预测,便于对可能违约的客户进行关注,有助于减少坏账产生的风险。相关技术在对违约预测模型训练过程中,由于违约样本和不违约样本数量悬殊,因此通过采用过采样的方式来改善不平衡样本的比率。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题:由于在过采样的过程中只是随机的在样本近邻之间采样,容易产生样本边缘化的问题,进而导致违约预测模型的训练精度较低。

技术实现思路

[0004]鉴于上述问题,本公开提供了违约预测模型的训练方法、违约预测方法、装置、设备、介质和程序产品。
[0005]根据本公开的第一个方面,提供了一种违约预测模型的训练方法,包括:对资源偿还数据集中每个对象的偿还信息进行特征提取,生成与上述对象对应的偿还向量,其中,上述对象包括违约对象和不违约对象,上述偿还信息中包括上述对象的属性信息、历史偿还信息以及信用信息;对多个上述违约对象的偿还向量进行聚类分析,得到多个数据簇以及每个上述数据簇对应的聚类质心;对多个上述聚类质心进行采样,生成至少一个质心对;基于每个上述质心对中第一质心与第二质心之间的质心距离,生成多个违约向量;在上述违约向量和多个上述违约对象对应的偿还向量的总数量,与多个上述不违约对象对应的偿还向量的数量的比例为预设比例的情况下,利用上述违约向量和上述资源偿还数据集对违约预测模型进行训练。
[0006]根据本公开的实施例,上述方法还包括:针对每个上述质心对,确定上述质心对的组队违约数量,上述组队违约数量为上述质心对中第一质心和第二质心分别对应的数据簇中偿还向量的数量总和;基于组队违约数量和上述资源偿还数据集中偿还向量的总量确定上述质心对对应的新数据生成比例;基于预设新数据数量和上述新数据生成比例确定上述质心对对应的组队新数据数量。
[0007]根据本公开的实施例,上述基于每个上述质心对中第一质心与第二质心之间的质心距离,生成多个违约向量,包括:针对每个上述质心对,确定上述第一质心和上述第二质心之间的质心距离;利用随机函数基于上述质心距离生成上述组队新数据数量的新的质心距离;基于上述新的质心距离和上述第一质心或上述第二质心生成上述组队新数据数量的违约向量。
[0008]根据本公开的实施例,在上述对多个上述违约对象的偿还向量进行聚类分析之
前,还包括:对上述资源偿还数据集进行预处理,生成新的资源偿还数据集,以利用上述新的资源偿还数据集生成违约向量。
[0009]根据本公开的实施例,上述对上述资源偿还数据集进行预处理,包括:基于上述资源偿还数据集中数据对应的属性类别生成资源表;针对上述资源表行方向的每条行数据,在上述行数据的缺失率大于第一预设缺失率的情况下,删除上述行数据;针对上述资源表列方向的每条列数据,在上述列数据的缺失率大于第二预设缺失率的情况下,删除上述列数据;在上述列数据小于或者等于上述第二预设缺失率的情况下,基于上述列数据的概率分布对上述列数据进行补充;针对上述列数据中的每个单数据,在上述单数据不在上述列数据的预设标准差范围内的情况下,删除上述单数据所在行的行数据。
[0010]根据本公开的实施例,上述对上述资源偿还数据集进行预处理,还包括:对上述资源偿还数据集中属性类别为预设类别的数据进行分箱处理,得到分箱数据。
[0011]根据本公开的实施例,上述对上述资源偿还数据集进行预处理,还包括:在每条上述列数据的方差膨胀系数大于预设系数的情况下,删除上述列数据。
[0012]本公开的第二方面提供了一种违约预测方法,包括:获取待预测数据集,上述待预测数据集包括对象的属性信息、历史偿还信息以及信用信息;将上述待预测数据集输入上述违约预测模型的训练方法训练得到的违约预测模型中,输出上述对象的违约概率。
[0013]本公开的第三方面提供了一种违约预测模型的训练装置,包括:特征提取模块,用于对资源偿还数据集中每个对象的偿还信息进行特征提取,生成与上述对象对应的偿还向量,其中,上述对象包括违约对象和不违约对象,上述偿还信息中包括上述对象的属性信息、历史偿还信息以及信用信息;聚类模块,用于对多个上述违约对象的偿还向量进行聚类分析,得到多个数据簇以及每个上述数据簇对应的聚类质心;采样模块,用于对多个上述聚类质心进行采样,生成至少一个质心对;数据生成模块,用于基于每个上述质心对中第一质心与第二质心之间的质心距离,生成多个违约向量;训练模块,用于在上述违约向量和多个上述违约对象对应的偿还向量的总数量,与多个上述不违约对象对应的偿还向量的数量的比例为预设比例的情况下,利用上述违约向量和上述资源偿还数据集对违约预测模型进行训练。
[0014]本公开的第四方面提供了一种违约预测装置,包括:获取模块,用于获取待预测数据集,上述待预测数据集包括对象的属性信息、历史偿还信息以及信用信息;预测模块,用于将上述待预测数据集输入上述违约预测模型的训练方法训练得到的违约预测模型中,输出上述对象的违约概率。
[0015]本公开的第五方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
[0016]本公开的第六方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
[0017]本公开的第七方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。
[0018]根据本公开提供的违约预测模型的训练方法、违约预测方法、装置、设备、介质和程序产品,通过对多个违约对象的偿还向量进行聚类分析,得到多个数据簇以及每个数据
簇对应的聚类质心;对多个聚类质心进行采样,生成至少一个质心对;基于每个质心对中第一质心与第二质心之间的质心距离,生成多个违约向量。由于违约向量是基于质心对之间的质心距离生成的,使得违约向量能够在多个聚类质心所框定的范围内,因此至少部分解决了新生成的数据边缘化问题。有效改变了资源偿还数据集中数据不平衡的状态,使得基于资源偿还数据集和违约向量训练的违约预测模型精准度更高。
附图说明
[0019]通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
[0020]图1示意性示出了根据本公开实施例的违约预测模型的训练方法或违约预测方法的应用场景图;
[0021]图2示意性示出了根据本公开实施例的违约预测模型的训练方法的流程图;
[0022]图3示意性示出了根据本公开实施例的违约预测方法的流程图;
[0023]图4示意性示出了根据本公开实施例的违约预测模型的训练装置的结构框图;...

【技术保护点】

【技术特征摘要】
1.一种违约预测模型的训练方法,包括:对资源偿还数据集中每个对象的偿还信息进行特征提取,生成与所述对象对应的偿还向量,其中,所述对象包括违约对象和不违约对象,所述偿还信息中包括所述对象的属性信息、历史偿还信息以及信用信息;对多个所述违约对象的偿还向量进行聚类分析,得到多个数据簇以及每个所述数据簇对应的聚类质心;对多个所述聚类质心进行采样,生成至少一个质心对;基于每个所述质心对中第一质心与第二质心之间的质心距离,生成多个违约向量;在所述违约向量和多个所述违约对象对应的偿还向量的总数量,与多个所述不违约对象对应的偿还向量的数量的比例为预设比例的情况下,利用所述违约向量和所述资源偿还数据集对违约预测模型进行训练。2.根据权利要求1所述的方法,还包括:针对每个所述质心对,确定所述质心对的组队违约数量,所述组队违约数量为所述质心对中第一质心和第二质心分别对应的数据簇中偿还向量的数量总和;基于组队违约数量和所述资源偿还数据集中偿还向量的总量确定所述质心对对应的新数据生成比例;基于预设新数据数量和所述新数据生成比例确定所述质心对对应的组队新数据数量。3.根据权利要求2所述的方法,其中,所述基于每个所述质心对中第一质心与第二质心之间的质心距离,生成多个违约向量,包括:针对每个所述质心对,确定所述第一质心和所述第二质心之间的质心距离;利用随机函数基于所述质心距离生成所述组队新数据数量的新的质心距离;基于所述新的质心距离和所述第一质心或所述第二质心生成所述组队新数据数量的违约向量。4.根据权利要求1所述的方法,其中,在所述对多个所述违约对象的偿还向量进行聚类分析之前,还包括:对所述资源偿还数据集进行预处理,生成新的资源偿还数据集,以利用所述新的资源偿还数据集生成违约向量。5.根据权利要求4所述的方法,其中,所述对所述资源偿还数据集进行预处理,包括:基于所述资源偿还数据集中数据对应的属性类别生成资源表;针对所述资源表行方向的每条行数据,在所述行数据的缺失率大于第一预设缺失率的情况下,删除所述行数据;针对所述资源表列方向的每条列数据,在所述列数据的缺失率大于第二预设缺失率的情况下,删除所述列数据;在所述列数据小于或者等于所述第二预设缺失率的情况下,基于所述列数据的概率分布对所述列数据进行补充;针对所述列数据中的每个单数据,在所述单数据不在所述列数据的预设标准差范围内的情况下,删除所述单数据所在行的行数据。6....

【专利技术属性】
技术研发人员:胡玉杰赵吉昆贾利娟
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1