一种风险预测模型的训练方法和相关装置制造方法及图纸

技术编号:26223929 阅读:22 留言:0更新日期:2020-11-04 10:57
本申请涉及区块存储系统及人工智能领域,公开了一种风险预测模型的训练方法和相关装置,该方法包括:获取第一金融数据集,所述第一金融数据集包括多个第一字段对应的M条第一金融数据;针对所述第一金融数据集,将所述多个第一字段中每个第一字段关联的多条第一金融数据向量化,得到多个第一向量;采用预设特征选择算法确定所述多个向量中每两个第一向量之间的相关性;根据所述每两个第一向量之间的相关性,从所述第一金融数据集中确定第二金融数据集;采用所述第二金融数据集训练风险预测模型。实施本申请实施例,减短了风险预测模型的训练周期,降低了训练复杂度。

【技术实现步骤摘要】
一种风险预测模型的训练方法和相关装置
本申请涉及计算机
,尤其涉及一种风险预测模型的训练方法和相关装置。
技术介绍
随着新兴技术的高速发展,各行各业开始利用深度学习、神经网络等实现风险预测。比如,通过风险预测模型实现企业违约风险的预测。一般来说,在通过风险预测模型实现企业违约风险的预测之前,需要进行风险预测模型的训练。在现有技术中,在训练风险预测模型时,往往会直接采用金融数据集。由于金融数据集的数据量大,导致风险预测模型的训练周期长,训练复杂度高。
技术实现思路
本申请实施例提供了一种风险预测模型的训练方法和相关装置,实施本申请实施例,减短了风险预测模型的训练周期,降低了训练复杂度。本申请第一方面提供了一种风险预测模型的训练方法,包括:获取第一金融数据集,所述第一金融数据集包括多个第一字段对应的M条第一金融数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一金融数据,所述第一字段B关联Y条第一金融数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;针对所述第一金融数据集,将所述多个第一字段中每个第一字段关联的多条第一金融数据向量化,得到多个第一向量;采用预设特征选择算法确定所述多个第一向量中每两个第一向量之间的相关性;根据所述每两个第一向量之间的相关性,从所述第一金融数据集中确定第二金融数据集;采用所述第二金融数据集训练风险预测模型。本申请第二方面提供了一种风险预测模型的训练装置,包括:处理模块,用于获取第一金融数据集,所述第一金融数据集包括多个第一字段对应的M条第一金融数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一金融数据,所述第一字段B关联Y条第一金融数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;针对所述第一金融数据集,将所述多个第一字段中每个第一字段关联的多条第一金融数据向量化,得到多个第一向量;采用预设特征选择算法确定所述多个第一向量中每两个第一向量之间的相关性;根据所述每两个第一向量之间的相关性,从所述第一金融数据集中确定第二金融数据集;采用所述第二金融数据集训练风险预测模型。本申请第三方面提供了一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被生成由所述处理器执行,以执行一种风险预测模型的训练方法任一项方法中的步骤的指令。本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述存储计算机程序被所述处理器执行,以实现一种风险预测模型的训练方法任一项所述的方法。可以看出,上述技术方案中,通过根据相关性,从第一金融数据集中确定第二金融数据集,并采用第二金融数据集训练风险预测模型,实现了深度挖掘金融数据之间的相关性,从而根据金融数据之间的相关性,从第一金融数据集中确定第二金融数据集,减少了用于训练风险预测模型的数据,进而减短了风险预测模型的训练周期,降低了训练复杂度。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:图1是本申请实施例提供的一种风险预测模型的训练系统的示意图;图2为本申请实施例提供的一种风险预测模型的训练方法的流程示意图;图3为本申请实施例提供的又一种风险预测模型的训练方法的流程示意图;图4为本申请实施例提供的又一种风险预测模型的训练方法的流程示意图;图5为本申请实施例提供的一种风险预测模型的训练装置的示意图;图6为本申请的实施例涉及的硬件运行环境的电子设备结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下分别进行详细说明。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。首先,参见图1,图1是本申请实施例提供的一种风险预测模型的训练系统的示意图,该风险预测模型的训练系统100包括风险预测模型的训练装置110。该风险预测模型的训练装置110用于处理、存储第一金融数据集。该风险预测模型的训练系统100可以包括集成式单体设备或者多设备,为方便描述,本申请将风险预测模型的训练系统100统称为电子设备。显然该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(UserEquipment,UE),移动台(MobileStation,MS),终端设备(terminaldevice)等等。结合图1,本申请实施例提出一种风险预测模型的训练方法,下面对本申请实施例进行详细介绍。参见图2,图2为本申请实施例提供的一种风险预测模型的训练方法的流程示意图。该风险预测模型的训练方法可以应用于电子设备,如图2所示,所述方法包括:201、获取第一金融数据集,所述第一金融数据集包括多个第一字段对应的M条第一金融数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一金融数据,所述第一字段B关联Y条第一金融数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数。其中,第一字段例如可以包括:上市及发债企业基本信息、财报、审计意见、信用评级、负面事件、股东股权股价、证监会处罚等方面的字段。具体的,第一字段例如可以包括3年内净利润同比增长率、3年内信用评级上升幅度、3年内负面事件的次数、3年内净利润三年平均值等,在此不做限定等。其中,第一金融数据例如可以包括:3年内净利润同比增长率、3年内信用评级上升幅度、3年内负面事件的次数、3年内净利润三年平均值等,在此不做限定。举例来说,参见表1,表1为本申请实施例提供的一种第一金融数据集,如表1所示。表1可以看出,表1中,一个第一字段为3年内信用评级上升幅度,一个第一字段为3年内负面事件的次数,一个第一字段为3年内净利润三年平均值。进一步的,第一字段为3年内信用评级上升幅度,其对应的第一金融数据包括15%、11%等。第一字段为3年内负面事件的次数,其对应的第一金融数本文档来自技高网...

【技术保护点】
1.一种风险预测模型的训练方法,其特征在于,包括:/n获取第一金融数据集,所述第一金融数据集包括多个第一字段对应的M条第一金融数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一金融数据,所述第一字段B关联Y条第一金融数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;/n针对所述第一金融数据集,将所述多个第一字段中每个第一字段关联的多条第一金融数据向量化,得到多个第一向量;/n采用预设特征选择算法确定所述多个第一向量中每两个第一向量之间的相关性;/n根据所述每两个第一向量之间的相关性,从所述第一金融数据集中确定第二金融数据集;/n采用所述第二金融数据集训练风险预测模型。/n

【技术特征摘要】
1.一种风险预测模型的训练方法,其特征在于,包括:
获取第一金融数据集,所述第一金融数据集包括多个第一字段对应的M条第一金融数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一金融数据,所述第一字段B关联Y条第一金融数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;
针对所述第一金融数据集,将所述多个第一字段中每个第一字段关联的多条第一金融数据向量化,得到多个第一向量;
采用预设特征选择算法确定所述多个第一向量中每两个第一向量之间的相关性;
根据所述每两个第一向量之间的相关性,从所述第一金融数据集中确定第二金融数据集;
采用所述第二金融数据集训练风险预测模型。


2.根据权利要求1所述的方法,其特征在于,所述获取第一金融数据集,包括:
从至少一条区块链上获取初始金融数据集,所述初始金融数据集包括多个初始字段对应的N条初始金融数据,所述多个初始字段包括初始字段A和初始字段B,所述初始字段A关联S条初始金融数据,所述初始字段B关联T条初始金融数据,N=S+T,其中,所述N、所述S、所述T均为大于1的整数;
确定所述初始金融数据集的稀疏度;
若所述稀疏度小于阈值,则针对所述初始金融数据集,确定所述多个初始字段中是否存在至少一个初始字段关联的多条初始金融数据不满足预设分布;
若是,则针对所述初始金融数据集,删除所述至少一个初始字段关联的多条初始金融数据,得到剩余的初始金融数据集,将所述剩余的初始金融数据集确定为所述第一金融数据集;
若否,则将所述初始金融数据集确定为所述第一金融数据集。


3.根据权利要求2所述的方法,其特征在于,所述确定所述初始金融数据集的稀疏度,包括:
根据所述初始金融数据集构建矩阵,所述矩阵中的一列元素对应于所述多个初始字段中一个初始字段关联的多条初始金融数据;
确定所述矩阵中每列元素的稀疏元素的个数,所述稀疏元素对应的初始数据为零;
根据所述矩阵中每列元素的稀疏元素的个数,确定所述矩阵对应的所述稀疏度。


4.根据权利要求1-3任意一项所述的方法,其特征在于,所述根据所述每两个第一向量之间的相关性,从所述第一金融数据集中确定第二金融数据集,所述每两个第一向量之间的相关性包括第二向量与第三向量之间的相关性,所述第二向量为所述多个第一向量中的任意一个向量,所述第三向量为所述多个第一向量中除所述第二向量之外的任意一个向量,所述方法包括:
若所述第二向量与所述第三向量之间的相关性高于预设相关性,则将所述第二向量对应的多条第一金融数据保留,并将所述第三向量对应的多条第一金融数据删除,得到所述第二金融数据集;或,将所述第二向量对应的多条第一金融数据删除,并将所述第三向量对应的多条第一金融数据保留,得到所述第二金融数据集。


5.根据权利要求1所述的方法,其特征在于,所述采用所述第二金融数据集训练风险预测模型,所述第二金融数据集包括多个第二字段中每个第二字段关联的多条第二金融数据,包括:
针对所述第二...

【专利技术属性】
技术研发人员:李招张彬杰
申请(专利权)人:未鲲上海科技服务有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1