训练预测模型的方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号：25226271 阅读：21 留言：0更新日期：2020-08-11 23:14

本发明专利技术公开了一种训练预测模型的方法、装置、计算机设备及可读存储介质，该方法包括：获取用于训练预测模型的正例样本集和负例样本集；基于所述正例样本集和负例样本集，利用K折交叉验证算法确定出K组训练集和验证集；在使用一组中的训练集进行模型训练的过程中，利用EasyEnsemble算法将所述训练集划分为N个训练子集，并分别使用每个训练子集进行模型训练，以训练出N个预测模型；在使用一组中的验证集对训练出的预测模型进行验证的过程中，使用所述验证集依次对训练出的各个预测模型进行验证，并将验证通过的预测模型用于预测企业是否存在债券违约风险；本发明专利技术可以训练出可靠度高且预测准确性好的模型。

全部详细技术资料下载

【技术实现步骤摘要】
训练预测模型的方法、装置、计算机设备及可读存储介质
本专利技术涉及机器学习
，具体涉及一种训练预测模型的方法、装置、计算机设备及可读存储介质。
技术介绍
债券违约是指债券发行企业不能按照事先达成的债券协议履行其义务的行为，近年来高发的债券违约现象给个人和投资机构造成了严重的影响，因此，如何预测出具有债券违约风险的企业显得极为重要。现有的债券违约风险预测方式主要依靠信评研究员对发债企业进行评估，但由于人力有限，最终仅依靠研究员所评估的广度是有限的，且人力成本较高、预测效率低下。此外，在现有技术中，还存在通过利用机器学习算法建立债券违约预测模型的方式，但由于存在可用于模型训练的样本数量较少，以及存在正例、负例样本分布不均衡的现象，从而导致了训练出的预测模型的预测准确性不高的问题。
技术实现思路
本专利技术的目的在于提供一种训练预测模型的方法、装置、计算机设备及可读存储介质，可以训练出可靠度高且预测准确性好的模型。根据本专利技术的一个方面，提供了一种训练预测模型的方法，具体包括以下步骤：获取用于训练预测模型的正例样本集和负例样本集；其中，所述正例样本集包括：债券违约企业样本、所述负例样本集包括：债券未违约企业样本；基于所述正例样本集和负例样本集，利用K折交叉验证算法确定出K组训练集和验证集，以使用每组中的训练集进行模型训练，并使用对应组中的验证集对训练出的预测模型进行验证；在使用一组中的训练集进行模型训练的过程中，利用EasyEnsemble算法将所述训练集划分为N...

【技术保护点】
1.一种训练预测模型的方法，其特征在于，所述方法包括：/n获取用于训练预测模型的正例样本集和负例样本集；其中，所述正例样本集包括：债券违约企业样本、所述负例样本集包括：债券未违约企业样本；/n基于所述正例样本集和负例样本集，利用K折交叉验证算法确定出K组训练集和验证集，以使用每组中的训练集进行模型训练，并使用对应组中的验证集对训练出的预测模型进行验证；/n在使用一组中的训练集进行模型训练的过程中，利用EasyEnsemble算法将所述训练集划分为N个训练子集，并分别使用每个训练子集进行模型训练，以训练出N个预测模型；/n在使用一组中的验证集对训练出的预测模型进行验证的过程中，使用所述验证集依次对训练出的各个预测模型进行验证，并将验证通过的预测模型用于预测企业是否存在债券违约风险。/n

【技术特征摘要】
1.一种训练预测模型的方法，其特征在于，所述方法包括：
获取用于训练预测模型的正例样本集和负例样本集；其中，所述正例样本集包括：债券违约企业样本、所述负例样本集包括：债券未违约企业样本；
基于所述正例样本集和负例样本集，利用K折交叉验证算法确定出K组训练集和验证集，以使用每组中的训练集进行模型训练，并使用对应组中的验证集对训练出的预测模型进行验证；
在使用一组中的训练集进行模型训练的过程中，利用EasyEnsemble算法将所述训练集划分为N个训练子集，并分别使用每个训练子集进行模型训练，以训练出N个预测模型；
在使用一组中的验证集对训练出的预测模型进行验证的过程中，使用所述验证集依次对训练出的各个预测模型进行验证，并将验证通过的预测模型用于预测企业是否存在债券违约风险。

2.根据权利要求1所述的训练预测模型的方法，其特征在于，所述基于所述正例样本集和负例样本集，利用K折交叉验证算法确定出K组训练集和验证集，具体包括：
将所述正例样本集均分为K个正例样本子集，并将所述负例样本集均分为K个负例样本子集；
不重复的选取一个正例样本子集与一个负例样本子集，并将选取的正例样本子集与负例样本子集合并为参考样本集，从而形成K个参考样本集；
依次将每个参考样本集作为验证集，并将剩余的K-1个参考样本集作为训练集，以确定出K组训练集和验证集。

3.根据权利要求1所述的训练预测模型的方法，其特征在于，所述在使用一组中的训练集进行模型训练的过程中，利用EasyEnsemble算法将所述训练集划分为N个训练子集，具体包括：
识别出所述训练集中的债券违约企业样本和债券未违约企业样本；
将所述训练集中的所有债券未违约企业样本均分为N个互斥训练子集，并在每个训练子集中添加所述训练集中的所有债券违约企业样本。

4.根据权利要求3所述的训练预测模型的方法，其特征在于，所述训练子集的个数其中，P为所述训练集中债券未违约企业样本的总数量，Q为所述训练集中债券违约企业样本的总数量。

5.根据权利要求1所述的训练预测模型的方法，其特征在于，所述方法还包括：
获取待预测企业的特征参数，并将所述特征参数输入到各个验证通过的预测模型中，以得到各个预测模型的预测结果；
根据所有...

【专利技术属性】
技术研发人员：唐永鹏，刘硕凌，程宁，韩雷，
申请(专利权)人：易方达基金管理有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人