基于半监督模型预测发债主体违约的方法、设备及存储介质技术

技术编号：33903922 阅读：13 留言：0更新日期：2022-06-25 18:21

本发明专利技术涉及计算机技术领域，公开了一种基于半监督模型预测发债主体违约的方法、设备及存储介质，包括：S1：获取发债主体的主体数据，所述主体数据包括新闻舆情信息、工商信息、市场评价信息、外部信息，通过所述主体数据构建发债主体的信用违约风险的指标体系；S2：从统计分析、业务判断、衍生构造底层特征，生成底层因子；S3：基于未标记样本加权法与评分卡模型的组合建立半监督模型；S4：基于半监督模型判断预测发债主体的违约风险。本次建模的方法是基于未标记样本加权法与评分卡模型的组合，利用正样本和无标记样本训练的XGB分类器对风险的排序能力扩大正样本的规模，使用高风险概率最高的样本作为新的正样本，训练评分卡模型，构建半监督模型。构建半监督模型。构建半监督模型。

全部详细技术资料下载

【技术实现步骤摘要】
基于半监督模型预测发债主体违约的方法、设备及存储介质

[0001]本专利技术涉及计算机
，特别提供一种基于半监督模型预测发债主体违约的方法、设备及存储介质。

技术介绍

[0002]传统的发债企业违约预测方法主要使用财务数据和信用研究员评分来对企业进行评级，得出企业的违约概率，新闻舆情数据由于为非结构化数据，无法被计算机模型直接使用，难以作为模型的输入，因此如何自动利用新闻舆情建立预测发债主体违约模型是现有技术需要解决的必要问题。
[0003]现有技术常常通过使用财务数据和信用研究员对企业不同维度的打分，进行发债企业的评级，输出违约概率，及人工处理舆情数据，大量业务人员的参与及主观评价的输入，制定大量预警规则，这使现在技术存在着挖掘、分析不足，评估信用风险水平难以全面实施，且效率低与依赖主观判断的现象。
[0004]另外，发债企业违约是小概率事件，所以在数据建模时，正样本非常少，如何利用现有的样本扩充正样本占比，是解决模型失真问题的关键。

技术实现思路

[0005]为了解决现有技术存在人工处理舆情数据，大量业务人员参与及主观评价制定预警规则的问题，本专利技术提供了一种基于半监督模型预测发债主体违约的方法、设备及存储介质。
[0006]本专利技术的技术方案如下：
[0007]一种基于半监督模型预测发债主体违约的方法，包括：
[0008]S1：获取发债主体的主体数据，所述主体数据包括新闻舆情信息、工商信息、市场评价信息、外部信息，通过所述主体数据构建发债主体的信...

【技术保护点】

【技术特征摘要】
1.一种基于半监督模型预测发债主体违约的方法，其特征在于：包括：S1：获取发债主体的主体数据，所述主体数据包括新闻舆情信息、工商信息、市场评价信息、外部信息，通过所述主体数据构建发债主体的信用违约风险的指标体系；S2：从统计分析、业务判断、衍生构造底层特征，生成底层因子；S3：基于未标记样本加权法与评分卡模型的组合建立半监督模型；S4：基于半监督模型判断预测发债主体的违约风险。2.根据权利要求1所述的一种基于半监督模型预测发债主体违约的方法，其特征在于：所述S1的指标体系通过基本资质信息、财务经营信息、处罚信息、股权质押信息、新闻舆情信息、内外部评级信息和风险关联信息对发债主体进行评级。3.根据权利要求1所述的一种基于半监督模型预测发债主体违约的方法，其特征在于：所述S2采用了对数、均值、众数和极值的统计类指标挖掘发债主体数据的潜在信息。4.根据权利要求1所述的一种基于半监督模型预测发债主体违约的方法，其特征在于：建立所述S3的半监督模型包括以下步骤：S21：通过网格搜索以AUC为目标进行调参，训练XGBoost模型获取识别样本是否被标记的分类器；S22：使用校准分类器进行概率校准，将XGBoost的输出校准作为近似标准的概率；S23：使用校准后的样本，与原负面标签取并集作为后续训练评分卡的建模目标；S24：使用均衡样本加权计算权重；S25：使用卡方分箱将特征全部转化为序数型分类变量；S26：分析特征与建模目标的关联程度，及特征之间的共线性，筛选可以入模的优质特征；S27：人工优化特征可解释性；S2...

【专利技术属性】
技术研发人员：王专，郝玉爽，田鑫涛，
申请(专利权)人：中国人寿资产管理有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人