违约风险预测模型训练方法、违约风险预测方法及设备技术

技术编号：38010995 阅读：7 留言：0更新日期：2023-06-30 10:31

本发明专利技术提供一种违约风险预测模型训练方法、违约风险预测方法及设备，涉及金融风险防范技术领域，所述训练方法包括：获取样本债券数据；基于K折交叉验证，将样本债券数据进行分组，得到多组训练数据集和测试数据集；针对每个初始违约风险预测模型，将目标训练数据集内的样本债券数据输入初始违约风险预测模型，输出预测指标；基于预测指标和违约风险类别数据，确定初始违约风险预测模型的第一累计误差和第一预测精度，并基于第一累计误差和第一预测精度更新初始违约风险预测模型的超参数，得到更新后的预测模型；将多个预测模型中超参数最优的预测模型确定为违约风险预测模型。本发明专利技术可实现违约风险预测，提高泛化能力和预测精度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
违约风险预测模型训练方法、违约风险预测方法及设备

[0001]本专利技术涉及金融风险防范
，尤其涉及一种违约风险预测模型训练方法、违约风险预测方法及设备。

技术介绍

[0002]违约风险防范是指金融市场主体在对相关数据分析的基础上运用一定的方法合规性地防范风险发生或规避风险以实现预期目标的行为。针对金融风险防范，一般通过构建违约风险防范模型来进行违约风险预测。
[0003]目前，违约风险防范模型包括传统债券评级模型、基于统计规则的模型和基于神经网络和支持向量机等机器学习的模型，其中，传统债券评级模型中采用信用评级等方法，主要基于主观打分进行风险预测，存在模型较为简单、依赖专家经验且难以形成量化风险指标的问题，导致预测精度较低；基于统计规则的方法通常依赖财务数据，违约预警滞后，难以做到事前预测；基于神经网络和支持向量机等机器学习的方法以量化的方式对违约相关指标进行了特征提取，进而实现违约风险预测，但泛化能力较弱，一定的影响了预测精度。

技术实现思路

[0004]本专利技术提供一种违约风险预测模型训练方法、违约风险预测方法及设备，用以解决现有技术中预测精度较低的缺陷，基于多源异构数据实现违约风险预测，提高泛化能力和预测精度。
[0005]本专利技术提供一种违约风险预测模型训练方法，包括：
[0006]获取样本债券数据，所述样本债券数据包括违约风险类别数据和债券特征数据；
[0007]基于K折交叉验证，将所述样本债券数据进行分组，得到多组数据量比例为K
‑/>1:1的训练数据集和测试数据集；
[0008]针对每个初始违约风险预测模型，将多组所述训练数据内与所述初始违约风险预测模型对应的目标训练数据集内的样本债券数据输入所述初始违约风险预测模型，输出用于表征违约风险程度的预测指标；
[0009]基于所述预测指标和所述目标训练数据集对应的违约风险类别数据，确定各所述初始违约风险预测模型的第一累计误差和第一预测精度，并基于所述第一累计误差和第一预测精度更新所述初始违约风险预测模型的超参数，得到更新后的预测模型；
[0010]将多个更新后的预测模型中超参数最优的预测模型确定为违约风险预测模型。
[0011]根据本专利技术提供的违约风险预测模型训练方法，所述初始违约风险预测模型包括多棵决策树；
[0012]所述基于所述第一累计误差和第一预测精度更新所述初始违约风险预测模型的超参数，包括：
[0013]确定所述第一累计误差超过阈值的至少一棵决策树，并更新所述至少一棵决策树
的深度参数；
[0014]基于所述第一预测精度，更新各所述决策树对应的特征数量参数和所述初始违约风险预测模型中决策树的数量参数。
[0015]根据本专利技术提供的违约风险预测模型训练方法，所述将多组所述训练数据内与所述初始违约风险预测模型对应的目标训练数据集内的样本债券数据输入所述初始违约风险预测模型，输出用于表征违约风险程度的预测指标，包括：
[0016]将多组所述训练数据集内的目标训练数据集内的样本债券数据输入初始违约风险预测模型，确定所述初始违约风险预测模型中各决策树输出的子预测指标；
[0017]基于投票思想，将所属违约风险类别数量最多的所述子预测指标确定为预测指标。
[0018]根据本专利技术提供的违约风险预测模型训练方法，所述初始违约风险预测模型是基于以下步骤得到的：
[0019]对所述目标训练数据集进行预设次数的有放回的抽样，确定多个债券学习数据集；
[0020]基于所述债券学习数据集的债券特征，随机确定预设数量的债券子特征；
[0021]基于所述债券学习数据集和所述债券子特征，确定债券学习数据子集；
[0022]基于各所述债券学习数据子集和所述债券子特征，构建多棵决策树；
[0023]基于投票思想，将所述多棵决策树组合为初始违约风险预测模型。
[0024]根据本专利技术提供的违约风险预测模型训练方法，所述基于各所述债券学习数据子集和所述债券子特征，构建多棵决策树，包括：
[0025]确定各所述债券子特征的信息增益和以对应所述债券子特征为随机变量的熵；
[0026]基于所述信息增益和熵，确定对应所述债券子特征的信息增益率；
[0027]基于所述信息增益率最高的债券子特征对所述债券学习数据子集进行分类，得到至少一个分裂子集；
[0028]确定各所述分裂子集中信息增益率最大的新债券子特征，并基于所述新债券子特征对所述分裂子集再次进行分类；
[0029]循环对债券学习数据子集进行分类，在所述债券子特征均进行分类的情况下停止继续分类，以构建所述决策树。
[0030]根据本专利技术提供的违约风险预测模型训练方法，所述将多个更新后的预测模型中超参数最优的预测模型确定为违约风险预测模型，包括：
[0031]确定多个更新后的预测模型各自对应的评估指标，所述评估指标包括第二预测精度、第二累积误差和泛化能力；
[0032]基于所述评估指标的平均值，确定多个更新后的预测模型的最优参数组，并将所述最优参数组对应的所述更新后的预测模型确定为最终训练好的违约风险预测模型。
[0033]本专利技术还提供一种违约风险预测方法，包括：
[0034]获取债券待检测数据；
[0035]将所述债券待检测数据输入违约风险预测模型，输出用于表征违约风险程度的违约风险量化指标，其中，所述违约风险预测模型是基于上述任一项所述的违约风险预测模型训练方法进行训练得到的。
[0036]本专利技术还提供一种违约风险预测模型训练装置，包括：
[0037]第一获取模块，用于获取样本债券数据，所述样本债券数据包括违约风险类别数据和债券特征数据；
[0038]分组模块，用于基于K折交叉验证，将所述样本债券数据进行分组，得到多组数据量比例为K
‑
1:1的训练数据集和测试数据集；
[0039]第一输出模块，用于针对每个初始违约风险预测模型，将多组所述训练数据集内与所述初始违约风险预测模型对应的目标训练数据集内的样本债券数据输入初始违约风险预测模型，输出用于表征违约风险程度的预测指标；
[0040]第一确定模块，用于基于所述预测指标和所述目标训练数据集对应的违约风险类别数据，确定各所述初始违约风险预测模型的第一累计误差和第一预测精度，并基于所述第一累计误差和第一预测精度更新所述初始违约风险预测模型的超参数，得到更新后的预测模型；
[0041]第二确定模块，用于将多个更新后的预测模型中超参数最优的预测模型确定为违约风险预测模型。
[0042]本专利技术还提供一种违约风险预测装置，包括：
[0043]第二获取模块，用于获取债券待检测数据；
[0044]第二输出模块，用于将所述债券待检测数据输入违约风险预测模型，输出用于表征违约风险程度的违约风险量化指标，其中，所述违约风险预测模型是基于上述任一项所述的违约风险预测模型本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种违约风险预测模型训练方法，其特征在于，包括：获取样本债券数据，所述样本债券数据包括违约风险类别数据和债券特征数据；基于K折交叉验证，将所述样本债券数据进行分组，得到多组数据量比例为K
‑
1:1的训练数据集和测试数据集；针对每个初始违约风险预测模型，将多组所述训练数据内与所述初始违约风险预测模型对应的目标训练数据集内的样本债券数据输入所述初始违约风险预测模型，输出用于表征违约风险程度的预测指标；基于所述预测指标和所述目标训练数据集对应的违约风险类别数据，确定所述初始违约风险预测模型的第一累计误差和第一预测精度，并基于所述第一累计误差和第一预测精度更新所述初始违约风险预测模型的超参数，得到更新后的预测模型；将多个更新后的预测模型中超参数最优的预测模型确定为违约风险预测模型。2.根据权利要求1所述的违约风险预测模型训练方法，其特征在于，所述初始违约风险预测模型包括多棵决策树，所述超参数包括决策树的深度参数、特征数量参数和决策树的数量参数；所述基于所述第一累计误差和第一预测精度更新所述初始违约风险预测模型的超参数，包括：确定第一累计误差超过阈值的至少一棵决策树，并更新所述至少一棵决策树的深度参数；基于所述第一预测精度，更新各所述决策树对应的特征数量参数和所述初始违约风险预测模型中决策树的数量参数。3.根据权利要求2所述的违约风险预测模型训练方法，其特征在于，所述将多组所述训练数据内与所述初始违约风险预测模型对应的目标训练数据集内的样本债券数据输入所述初始违约风险预测模型，输出用于表征违约风险程度的预测指标，包括：将多组所述训练数据集内的目标训练数据集内的样本债券数据输入初始违约风险预测模型，确定所述初始违约风险预测模型中各决策树输出的子预测指标；基于投票思想，将所属违约风险类别数量最多的所述子预测指标确定为预测指标。4.根据权利要求2或3所述的违约风险预测模型训练方法，其特征在于，所述初始违约风险预测模型是基于以下步骤得到的：对所述目标训练数据集进行预设次数的有放回的抽样，确定多个债券学习数据集；基于所述债券学习数据集的债券特征，随机确定预设数量的债券子特征；基于所述债券学习数据集和所述债券子特征，确定债券学习数据子集；基于各所述债券学习数据子集和所述债券子特征，构建多棵决策树；基于投票思想，将所述多棵决策树组合为初始违约风险预测模型。5.根据权利要求4所述的违约风险预测模型训练方法，其特征在于，所述基于各所述债券学习数据子集和所述债券子特征，构建多棵决策树，包括：确定各所述债券子特征的信息增益和以对应所述债券子特征为随机变量的熵；基于所述信息增益和熵，确定对应所述债券子特征的信息增益...

【专利技术属性】
技术研发人员：王延昭，唐华云，李荣，孙爽，商丽丽，华娇娇，
申请(专利权)人：中债金科信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人