基于半监督模型预测发债主体违约的方法、设备及存储介质技术

技术编号:33903922 阅读:13 留言:0更新日期:2022-06-25 18:21
本发明专利技术涉及计算机技术领域,公开了一种基于半监督模型预测发债主体违约的方法、设备及存储介质,包括:S1:获取发债主体的主体数据,所述主体数据包括新闻舆情信息、工商信息、市场评价信息、外部信息,通过所述主体数据构建发债主体的信用违约风险的指标体系;S2:从统计分析、业务判断、衍生构造底层特征,生成底层因子;S3:基于未标记样本加权法与评分卡模型的组合建立半监督模型;S4:基于半监督模型判断预测发债主体的违约风险。本次建模的方法是基于未标记样本加权法与评分卡模型的组合,利用正样本和无标记样本训练的XGB分类器对风险的排序能力扩大正样本的规模,使用高风险概率最高的样本作为新的正样本,训练评分卡模型,构建半监督模型。构建半监督模型。构建半监督模型。

【技术实现步骤摘要】
基于半监督模型预测发债主体违约的方法、设备及存储介质


[0001]本专利技术涉及计算机
,特别提供一种基于半监督模型预测发债主体违约的方法、设备及存储介质。

技术介绍

[0002]传统的发债企业违约预测方法主要使用财务数据和信用研究员评分来对企业进行评级,得出企业的违约概率,新闻舆情数据由于为非结构化数据,无法被计算机模型直接使用,难以作为模型的输入,因此如何自动利用新闻舆情建立预测发债主体违约模型是现有技术需要解决的必要问题。
[0003]现有技术常常通过使用财务数据和信用研究员对企业不同维度的打分,进行发债企业的评级,输出违约概率,及人工处理舆情数据,大量业务人员的参与及主观评价的输入,制定大量预警规则,这使现在技术存在着挖掘、分析不足,评估信用风险水平难以全面实施,且效率低与依赖主观判断的现象。
[0004]另外,发债企业违约是小概率事件,所以在数据建模时,正样本非常少,如何利用现有的样本扩充正样本占比,是解决模型失真问题的关键。

技术实现思路

[0005]为了解决现有技术存在人工处理舆情数据,大量业务人员参与及主观评价制定预警规则的问题,本专利技术提供了一种基于半监督模型预测发债主体违约的方法、设备及存储介质。
[0006]本专利技术的技术方案如下:
[0007]一种基于半监督模型预测发债主体违约的方法,包括:
[0008]S1:获取发债主体的主体数据,所述主体数据包括新闻舆情信息、工商信息、市场评价信息、外部信息,通过所述主体数据构建发债主体的信用违约风险的指标体系;
[0009]S2:从统计分析、业务判断、衍生构造底层特征,生成底层因子;
[0010]S3:基于未标记样本加权法与评分卡模型的组合建立半监督模型;
[0011]S4:基于半监督模型判断预测发债主体的违约风险。
[0012]进一步地,所述S1的指标体系通过基本资质信息、财务经营信息、处罚信息、股权质押信息、新闻舆情信息、内外部评级信息和风险关联信息对发债主体进行评级。
[0013]进一步地,所述S2采用了对数、均值、众数和极值的统计类指标挖掘发债主体数据的潜在信息。
[0014]进一步地,建立所述S3的半监督模型包括以下步骤:
[0015]S21:通过网格搜索以AUC为目标进行调参,训练XGBoost模型获取识别样本是否被标记的分类器;
[0016]S22:使用校准分类器进行概率校准,将XGBoost的输出校准作为近似标准的概率;
[0017]S23:使用校准后的样本,与原负面标签取并集作为后续训练评分卡的建模目标;
[0018]S24:使用均衡样本加权计算权重;
[0019]S25:使用卡方分箱将特征全部转化为序数型分类变量;
[0020]S26:分析特征与建模目标的关联程度,及特征之间的共线性,筛选可以入模的优质特征;
[0021]S27:人工优化特征可解释性;
[0022]S28:将特征经证据权重编码后训练评分卡模型;
[0023]S29:人工查看评分规则,修正少数与响应率分布结果不符的规则。
[0024]进一步地,所述S2的评分卡模型,是基于逻辑回归的评分卡模型,将正样本各特征中的分布转化为证据权重编码,再结合证据权重和回归系数中的β生成评分,输出的数据驱动评分卡模型反映从数据中挖掘的信息以及模型的运算逻辑,给出发债主体评分过程及单因子评分占比。
[0025]进一步地,所述半监督模型通过KS评价模型检验区分能力,KS>0.4。
[0026]进一步地,所述S21的AUC的范围为AUC>0.7。
[0027]本专利技术还提供了一种基于半监督模型预测发债主体违约的设备,所述基于半监督模型预测发债主体违约设备包括:
[0028]存储器、处理器,通信总线以及存储在所述存储器上的半监督模型预测发债主体违约程序,
[0029]所述通信总线用于实现处理器与存储器间的通信连接;
[0030]所述处理器用于执行所述基于半监督模型预测发债主体违约程序,以实现如上述任意一项所述的基于半监督模型预测发债主体违约方法的步骤。
[0031]本专利技术还提供了一种计算机可读存储介质,存储有可执行指令,所述存储介质上存储有基于半监督模型预测发债主体违约程序,所述基于半监督模型预测发债主体违约程序被处理器执行时实现上述任意一项所述的基于半监督机器学习预测主体违约方法的步骤。
[0032]本专利技术的有益效果至少包括:
[0033](1)本次建模的方法是基于未标记样本加权法与评分卡模型的组合,利用正样本和无标记样本训练的XGB分类器对风险的排序能力扩大正样本的规模,使用高风险概率最高的样本作为新的正样本,训练评分卡模型,因为评分卡模型良好的可解释性与白盒化的训练过程,将其作为输出最终结果的评价模型;
[0034](2)利用半监督学习中的正样本和无标记样本学习方法,扩大了正样本规模,将原本严重有偏的建模样本进行了修正,一方面正视了未标记样本中存在标记样本的可能,另一方面能更好的让模型学习到坏样本的特征,减少了样本不均衡带来的模型更多的拟合了噪音的风险;
[0035](3)本方法基于机器学习的模型以数据驱动的方式生成模型,减少主观干预造成的信息损失,风险预警更加客观,更有效的捕捉主体事前违约的风险变动。
附图说明
[0036]图1为本专利技术的基于半监督模型预测发债主体违约的流程图。
[0037]图2为本专利技术的半监督模型的流程图。
具体实施方式
[0038]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0039]结合图1与图2所示,一种基于半监督模型预测发债主体违约的方法,包括:
[0040]S1:获取发债主体的主体数据,所述主体数据包括新闻舆情信息、工商信息、市场评价信息、外部信息,通过所述主体数据构建发债主体的信用违约风险的指标体系;
[0041]S2:从统计分析、业务判断、衍生构造底层特征,生成底层因子;
[0042]S3:基于未标记样本加权法与评分卡模型的组合建立半监督模型;
[0043]S4:基于半监督模型判断预测发债主体的违约风险。
[0044]本专利技术建模的主要目标是通过量化模型实现对具有高违约概率的主体进行预测,实现违约风险的事前侦测,分析数据的来源主要为企业工商数据和新闻舆情数据。分析对象为具有舆情数据的主体,主要从新闻舆情和工商基本信息两个角度出发,挖掘预测主体在基本资质、工商变动、舆情变动等三个维度下的潜在规律和联系;通过特征工程丰富底层指标,探索与违约风险相关联的风险因子;建立基于半监督学习的评分卡本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于半监督模型预测发债主体违约的方法,其特征在于:包括:S1:获取发债主体的主体数据,所述主体数据包括新闻舆情信息、工商信息、市场评价信息、外部信息,通过所述主体数据构建发债主体的信用违约风险的指标体系;S2:从统计分析、业务判断、衍生构造底层特征,生成底层因子;S3:基于未标记样本加权法与评分卡模型的组合建立半监督模型;S4:基于半监督模型判断预测发债主体的违约风险。2.根据权利要求1所述的一种基于半监督模型预测发债主体违约的方法,其特征在于:所述S1的指标体系通过基本资质信息、财务经营信息、处罚信息、股权质押信息、新闻舆情信息、内外部评级信息和风险关联信息对发债主体进行评级。3.根据权利要求1所述的一种基于半监督模型预测发债主体违约的方法,其特征在于:所述S2采用了对数、均值、众数和极值的统计类指标挖掘发债主体数据的潜在信息。4.根据权利要求1所述的一种基于半监督模型预测发债主体违约的方法,其特征在于:建立所述S3的半监督模型包括以下步骤:S21:通过网格搜索以AUC为目标进行调参,训练XGBoost模型获取识别样本是否被标记的分类器;S22:使用校准分类器进行概率校准,将XGBoost的输出校准作为近似标准的概率;S23:使用校准后的样本,与原负面标签取并集作为后续训练评分卡的建模目标;S24:使用均衡样本加权计算权重;S25:使用卡方分箱将特征全部转化为序数型分类变量;S26:分析特征与建模目标的关联程度,及特征之间的共线性,筛选可以入模的优质特征;S27:人工优化特征可解释性;S2...

【专利技术属性】
技术研发人员:王专郝玉爽田鑫涛
申请(专利权)人:中国人寿资产管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1