【技术实现步骤摘要】
一种风险预测模型的训练方法和相关装置
本申请涉及计算机
,尤其涉及一种风险预测模型的训练方法和相关装置。
技术介绍
随着新兴技术的高速发展,各行各业开始利用深度学习、神经网络等实现风险预测。比如,通过风险预测模型实现企业违约风险的预测。一般来说,在通过风险预测模型实现企业违约风险的预测之前,需要进行风险预测模型的训练。在现有技术中,在训练风险预测模型时,往往会直接采用金融数据集。由于金融数据集的数据量大,导致风险预测模型的训练周期长,训练复杂度高。
技术实现思路
本申请实施例提供了一种风险预测模型的训练方法和相关装置,实施本申请实施例,减短了风险预测模型的训练周期,降低了训练复杂度。本申请第一方面提供了一种风险预测模型的训练方法,包括:获取第一金融数据集,所述第一金融数据集包括多个第一字段对应的M条第一金融数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一金融数据,所述第一字段B关联Y条第一金融数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;针对所述第一金融数据集,将所述多个第一字段中每个第一字段关联的多条第一金融数据向量化,得到多个第一向量;采用预设特征选择算法确定所述多个第一向量中每两个第一向量之间的相关性;根据所述每两个第一向量之间的相关性,从所述第一金融数据集中确定第二金融数据集;采用所述第二金融数据集训练风险预测模型。本申请第二方面提供了一种风险预测模型的训练装置,包括:处理模 ...
【技术保护点】
1.一种风险预测模型的训练方法,其特征在于,包括:/n获取第一金融数据集,所述第一金融数据集包括多个第一字段对应的M条第一金融数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一金融数据,所述第一字段B关联Y条第一金融数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;/n针对所述第一金融数据集,将所述多个第一字段中每个第一字段关联的多条第一金融数据向量化,得到多个第一向量;/n采用预设特征选择算法确定所述多个第一向量中每两个第一向量之间的相关性;/n根据所述每两个第一向量之间的相关性,从所述第一金融数据集中确定第二金融数据集;/n采用所述第二金融数据集训练风险预测模型。/n
【技术特征摘要】
1.一种风险预测模型的训练方法,其特征在于,包括:
获取第一金融数据集,所述第一金融数据集包括多个第一字段对应的M条第一金融数据,所述多个第一字段包括第一字段A和第一字段B,所述第一字段A关联X条第一金融数据,所述第一字段B关联Y条第一金融数据,M=X+Y,其中,所述M、所述X、所述Y均为大于1的整数;
针对所述第一金融数据集,将所述多个第一字段中每个第一字段关联的多条第一金融数据向量化,得到多个第一向量;
采用预设特征选择算法确定所述多个第一向量中每两个第一向量之间的相关性;
根据所述每两个第一向量之间的相关性,从所述第一金融数据集中确定第二金融数据集;
采用所述第二金融数据集训练风险预测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取第一金融数据集,包括:
从至少一条区块链上获取初始金融数据集,所述初始金融数据集包括多个初始字段对应的N条初始金融数据,所述多个初始字段包括初始字段A和初始字段B,所述初始字段A关联S条初始金融数据,所述初始字段B关联T条初始金融数据,N=S+T,其中,所述N、所述S、所述T均为大于1的整数;
确定所述初始金融数据集的稀疏度;
若所述稀疏度小于阈值,则针对所述初始金融数据集,确定所述多个初始字段中是否存在至少一个初始字段关联的多条初始金融数据不满足预设分布;
若是,则针对所述初始金融数据集,删除所述至少一个初始字段关联的多条初始金融数据,得到剩余的初始金融数据集,将所述剩余的初始金融数据集确定为所述第一金融数据集;
若否,则将所述初始金融数据集确定为所述第一金融数据集。
3.根据权利要求2所述的方法,其特征在于,所述确定所述初始金融数据集的稀疏度,包括:
根据所述初始金融数据集构建矩阵,所述矩阵中的一列元素对应于所述多个初始字段中一个初始字段关联的多条初始金融数据;
确定所述矩阵中每列元素的稀疏元素的个数,所述稀疏元素对应的初始数据为零;
根据所述矩阵中每列元素的稀疏元素的个数,确定所述矩阵对应的所述稀疏度。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述根据所述每两个第一向量之间的相关性,从所述第一金融数据集中确定第二金融数据集,所述每两个第一向量之间的相关性包括第二向量与第三向量之间的相关性,所述第二向量为所述多个第一向量中的任意一个向量,所述第三向量为所述多个第一向量中除所述第二向量之外的任意一个向量,所述方法包括:
若所述第二向量与所述第三向量之间的相关性高于预设相关性,则将所述第二向量对应的多条第一金融数据保留,并将所述第三向量对应的多条第一金融数据删除,得到所述第二金融数据集;或,将所述第二向量对应的多条第一金融数据删除,并将所述第三向量对应的多条第一金融数据保留,得到所述第二金融数据集。
5.根据权利要求1所述的方法,其特征在于,所述采用所述第二金融数据集训练风险预测模型,所述第二金融数据集包括多个第二字段中每个第二字段关联的多条第二金融数据,包括:
针对所述第二...
【专利技术属性】
技术研发人员:李招,张彬杰,
申请(专利权)人:未鲲上海科技服务有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。