训练预测模型的方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:25226271 阅读:21 留言:0更新日期:2020-08-11 23:14
本发明专利技术公开了一种训练预测模型的方法、装置、计算机设备及可读存储介质,该方法包括:获取用于训练预测模型的正例样本集和负例样本集;基于所述正例样本集和负例样本集,利用K折交叉验证算法确定出K组训练集和验证集;在使用一组中的训练集进行模型训练的过程中,利用EasyEnsemble算法将所述训练集划分为N个训练子集,并分别使用每个训练子集进行模型训练,以训练出N个预测模型;在使用一组中的验证集对训练出的预测模型进行验证的过程中,使用所述验证集依次对训练出的各个预测模型进行验证,并将验证通过的预测模型用于预测企业是否存在债券违约风险;本发明专利技术可以训练出可靠度高且预测准确性好的模型。

【技术实现步骤摘要】
训练预测模型的方法、装置、计算机设备及可读存储介质
本专利技术涉及机器学习
,具体涉及一种训练预测模型的方法、装置、计算机设备及可读存储介质。
技术介绍
债券违约是指债券发行企业不能按照事先达成的债券协议履行其义务的行为,近年来高发的债券违约现象给个人和投资机构造成了严重的影响,因此,如何预测出具有债券违约风险的企业显得极为重要。现有的债券违约风险预测方式主要依靠信评研究员对发债企业进行评估,但由于人力有限,最终仅依靠研究员所评估的广度是有限的,且人力成本较高、预测效率低下。此外,在现有技术中,还存在通过利用机器学习算法建立债券违约预测模型的方式,但由于存在可用于模型训练的样本数量较少,以及存在正例、负例样本分布不均衡的现象,从而导致了训练出的预测模型的预测准确性不高的问题。
技术实现思路
本专利技术的目的在于提供一种训练预测模型的方法、装置、计算机设备及可读存储介质,可以训练出可靠度高且预测准确性好的模型。根据本专利技术的一个方面,提供了一种训练预测模型的方法,具体包括以下步骤:获取用于训练预测模型的正例样本集和负例样本集;其中,所述正例样本集包括:债券违约企业样本、所述负例样本集包括:债券未违约企业样本;基于所述正例样本集和负例样本集,利用K折交叉验证算法确定出K组训练集和验证集,以使用每组中的训练集进行模型训练,并使用对应组中的验证集对训练出的预测模型进行验证;在使用一组中的训练集进行模型训练的过程中,利用EasyEnsemble算法将所述训练集划分为N个训练子集,并分别使用每个训练子集进行模型训练,以训练出N个预测模型;在使用一组中的验证集对训练出的预测模型进行验证的过程中,使用所述验证集依次对训练出的各个预测模型进行验证,并将验证通过的预测模型用于预测企业是否存在债券违约风险。可选的,所述基于所述正例样本集和负例样本集,利用K折交叉验证算法确定出K组训练集和验证集,具体包括:将所述正例样本集均分为K个正例样本子集,并将所述负例样本集均分为K个负例样本子集;不重复的选取一个正例样本子集与一个负例样本子集,并将选取的正例样本子集与负例样本子集合并为参考样本集,从而形成K个参考样本集;依次将每个参考样本集作为验证集,并将剩余的K-1个参考样本集作为训练集,以确定出K组训练集和验证集。可选的,所述在使用一组中的训练集进行模型训练的过程中,利用EasyEnsemble算法将所述训练集划分为N个训练子集,具体包括:识别出所述训练集中的债券违约企业样本和债券未违约企业样本;将所述训练集中的所有债券未违约企业样本均分为N个互斥训练子集,并在每个训练子集中添加所述训练集中的所有债券违约企业样本。可选的,所述训练子集的个数其中,P为所述训练集中债券未违约企业样本的总数量,Q为所述训练集中债券违约企业样本的总数量。可选的,所述方法还包括:获取待预测企业的特征参数,并将所述特征参数输入到各个验证通过的预测模型中,以得到各个预测模型的预测结果;根据所有预测模型的预测结果,按照预设算法,计算出所述待预测企业的最终预测结果;基于所述最终预测结果判断所述待预测企业是否存在债券违约风险。根据本专利技术的另一个方面,还提供了一种训练预测模型的装置,具体包括以下组成部分:获取模块,用于获取用于训练预测模型的正例样本集和负例样本集;其中,所述正例样本集包括:债券违约企业样本、所述负例样本集包括:债券未违约企业样本;确定模块,用于基于所述正例样本集和负例样本集,利用K折交叉验证算法确定出K组训练集和验证集,以使用每组中的训练集进行模型训练,并使用对应组中的验证集对训练出的预测模型进行验证;训练模块,用于在使用一组中的训练集进行模型训练的过程中,利用EasyEnsemble算法将所述训练集划分为N个训练子集,并分别使用每个训练子集进行模型训练,以训练出N个预测模型;验证模块,用于在使用一组中的验证集对训练出的预测模型进行验证的过程中,使用所述验证集依次对训练出的各个预测模型进行验证,并将验证通过的预测模型用于预测企业是否存在债券违约风险。可选的,所述确定模块具体用于:将所述正例样本集均分为K个正例样本子集,并将所述负例样本集均分为K个负例样本子集;不重复的选取一个正例样本子集与一个负例样本子集,并将选取的正例样本子集与负例样本子集合并为参考样本集,从而形成K个参考样本集;依次将每个参考样本集作为验证集,并将剩余的K-1个参考样本集作为训练集,以确定出K组训练集和验证集。可选的,所述训练模块,具体用于:识别出所述训练集中的债券违约企业样本和债券未违约企业样本;将所述训练集中的所有债券未违约企业样本均分为N个互斥训练子集,并在每个训练子集中添加所述训练集中的所有债券违约企业样本。根据本专利技术的另一个方面,还提供了一种计算机设备,具体包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述训练预测模型的方法的步骤。根据本专利技术的另一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述训练预测模型的方法的步骤。本专利技术提供的训练预测模型的方法、装置、计算机设备及可读存储介质,通过在模型训练过程中使用K折交叉验证算法以解决可用于模型训练的样本数量较少的技术问题,从而训练出可靠性高的预测模型;此外,在每次交叉验证过程中,还使用EasyEnsemble算法以解决正例样本数量和负例样本数量不均衡的技术问题,从而训练出预测准确性好的预测模型。本实施例利用机器学习算法,完成发债企业的财务基本面分析,从而避免债券踩雷。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为实施例一提供的训练预测模型的方法的一种可选的流程示意图;图2为实施例一中的五折交叉验证算法中验证集的验证效果实例图;图3为实施例二提供的训练预测模型的装置的一种可选的程序模块示意图;图4为实施例三提供的计算机设备的一种可选的硬件架构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一本专利技术实施例提供了一种训练预测模型的方法,如图1所示,该方法具体包括以下步骤:步骤S101:获取用于训练预测模型的正例样本集和负例样本集;其中,所述正例样本集包括:债券违约企本文档来自技高网...

【技术保护点】
1.一种训练预测模型的方法,其特征在于,所述方法包括:/n获取用于训练预测模型的正例样本集和负例样本集;其中,所述正例样本集包括:债券违约企业样本、所述负例样本集包括:债券未违约企业样本;/n基于所述正例样本集和负例样本集,利用K折交叉验证算法确定出K组训练集和验证集,以使用每组中的训练集进行模型训练,并使用对应组中的验证集对训练出的预测模型进行验证;/n在使用一组中的训练集进行模型训练的过程中,利用EasyEnsemble算法将所述训练集划分为N个训练子集,并分别使用每个训练子集进行模型训练,以训练出N个预测模型;/n在使用一组中的验证集对训练出的预测模型进行验证的过程中,使用所述验证集依次对训练出的各个预测模型进行验证,并将验证通过的预测模型用于预测企业是否存在债券违约风险。/n

【技术特征摘要】
1.一种训练预测模型的方法,其特征在于,所述方法包括:
获取用于训练预测模型的正例样本集和负例样本集;其中,所述正例样本集包括:债券违约企业样本、所述负例样本集包括:债券未违约企业样本;
基于所述正例样本集和负例样本集,利用K折交叉验证算法确定出K组训练集和验证集,以使用每组中的训练集进行模型训练,并使用对应组中的验证集对训练出的预测模型进行验证;
在使用一组中的训练集进行模型训练的过程中,利用EasyEnsemble算法将所述训练集划分为N个训练子集,并分别使用每个训练子集进行模型训练,以训练出N个预测模型;
在使用一组中的验证集对训练出的预测模型进行验证的过程中,使用所述验证集依次对训练出的各个预测模型进行验证,并将验证通过的预测模型用于预测企业是否存在债券违约风险。


2.根据权利要求1所述的训练预测模型的方法,其特征在于,所述基于所述正例样本集和负例样本集,利用K折交叉验证算法确定出K组训练集和验证集,具体包括:
将所述正例样本集均分为K个正例样本子集,并将所述负例样本集均分为K个负例样本子集;
不重复的选取一个正例样本子集与一个负例样本子集,并将选取的正例样本子集与负例样本子集合并为参考样本集,从而形成K个参考样本集;
依次将每个参考样本集作为验证集,并将剩余的K-1个参考样本集作为训练集,以确定出K组训练集和验证集。


3.根据权利要求1所述的训练预测模型的方法,其特征在于,所述在使用一组中的训练集进行模型训练的过程中,利用EasyEnsemble算法将所述训练集划分为N个训练子集,具体包括:
识别出所述训练集中的债券违约企业样本和债券未违约企业样本;
将所述训练集中的所有债券未违约企业样本均分为N个互斥训练子集,并在每个训练子集中添加所述训练集中的所有债券违约企业样本。


4.根据权利要求3所述的训练预测模型的方法,其特征在于,所述训练子集的个数其中,P为所述训练集中债券未违约企业样本的总数量,Q为所述训练集中债券违约企业样本的总数量。


5.根据权利要求1所述的训练预测模型的方法,其特征在于,所述方法还包括:
获取待预测企业的特征参数,并将所述特征参数输入到各个验证通过的预测模型中,以得到各个预测模型的预测结果;
根据所有...

【专利技术属性】
技术研发人员:唐永鹏刘硕凌程宁韩雷
申请(专利权)人:易方达基金管理有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1