计算机实现的机器学习模型训练方法技术

技术编号:37249976 阅读:37 留言:0更新日期:2023-04-20 23:28
提供了一种计算机实现的机器学习模型训练方法,包括:从存储器中读取原始样本集合,原始样本集合包括正样本集合和负样本集合;对负样本集合中的负样本进行多次随机下采样,将每次随机下采样得到的目标数量的负样本作为一个采样集合,得到多个采样集合;删除负样本集合中除多个采样集合外的负样本,以释放原始样本集合中除多个负样本集合外的负样本所占用的存储空间;使用多个采样集合分别与正样本集合构成目标样本集合,得到与多个采样集合对应的多个目标样本集合;利用多个目标样本集合分别训练相应的多个机器学习模型,得到多个目标预测模型。预测模型。预测模型。

【技术实现步骤摘要】
计算机实现的机器学习模型训练方法


[0001]本公开涉及数据处理
,特别是涉及一种计算机实现的机器学习模型训练方法和基于机器学习模型的概率预测方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着大数据和人工智能技术的发展,各行各业对机器学习模型的依赖性和认可度逐步加强,如何更好地实现对机器学习模型的训练以得到理想的目标模型也成为了当下的研究热点。相关技术中,需要使用大量的样本数据对机器学习模型进行训练以得到有效且稳定的目标预测模型,然而,大规模的样本数据会占用存储器中较大的存储空间,浪费资源且训练效率较低。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]提供一种缓解、减轻或甚至消除上述问题中的一个或多个的机制将是有利的。
[0005]根据本公开的一方面,提供了一种计算机实现的机器学习模型训练方法,包括:从存储器中读取原始样本集合,所述原始样本集合包括正样本集合和负样本集合;对所述负样本集合中的负样本进行多次随机下采样,将每次随机下采样得到的目标数量的负样本作为一个采样集合,得到多个采样集合;删除所述负样本集合中除所述多个采样集合外的负样本,以释放所述原始样本集合中除所述多个负样本集合外的负样本所占用的存储空间;使用所述多个采样集合分别与所述正样本集合构成目标样本集合,得到与所述多个采样集合一一对应的多个目标样本集合;利用所述多个目标样本集合分别训练相应的多个机器学习模型,得到多个目标预测模型。
[0006]根据本公开的另一方面,提供了一种基于机器学习模型的概率预测方法,包括:获取待预测样本数据;利用所述多个目标预测模型分别处理所述待预测样本数据,得到所述多个目标预测模型输出的相应多个预测概率值;确定所述多个预测概率值的平均值作为针对所述待预测样本数据的目标预测结果。
[0007]根据本公开的又另一方面,提供了一种计算机实现的机器学习模型训练装置,包括:第一数据获取模块,用于从存储器中读取原始样本集合,所述原始样本集合包括正样本集合和负样本集合;随机采样模块,用于对所述负样本集合中的负样本进行多次随机下采样,将每次随机下采样得到的目标数量的负样本作为一个采样集合,得到多个采样集合;数据过滤模块,用于删除所述负样本集合中除所述多个采样集合外的负样本,以释放所述原始样本集合中除所述多个负样本集合外的负样本所占用的存储空间;集合生成模块,用于使用所述多个采样集合分别与所述正样本集合构成目标样本集合,得到与所述多个采样集合一一对应的多个目标样本集合;模型训练模块,用于利用所述多个目标样本集合分别训
练相应的多个机器学习模型,得到多个目标预测模型。
[0008]根据本公开的又另一方面,提供了一种基于机器学习模型的概率预测装置,包括:第二数据获取模块,用于获取待预测样本数据;数据处理模块,用于利用所述多个目标预测模型分别处理所述待预测样本数据,得到所述多个目标预测模型输出的相应多个预测概率值;结果生成模块,用于确定所述多个预测概率值的平均值作为针对所述待预测样本数据的目标预测结果。
[0009]根据本公开的又另一方面,提供了一种计算机设备,包括:至少一个处理器;以及至少一个存储器,其上存储有计算机程序,其中,所述计算机程序在被所述至少一个处理器执行时,使所述至少一个处理器执行如上所述的方法。
[0010]根据本公开的又另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,使所述处理器执行如上所述的方法。
[0011]根据本公开的再另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,使所述处理器执行如上所述的方法。
[0012]根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
[0013]在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
[0014]图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统的示意图;
[0015]图2是图示出根据示例性实施例的计算机实现的机器学习模型训练方法的流程图;
[0016]图3是图示出根据示例性实施例的计算机实现的机器学习模型训练方法中原始样本集合、多个目标样本集合、多个机器学习模型和多个目标预测模型之间的对应关系示意图。
[0017]图4是图示出根据示例性实施例的基于机器学习模型的概率预测方法的流程图;
[0018]图5是图示出根据示例性实施例的计算机实现的机器学习模型训练装置的示意性框图;
[0019]图6是图示出根据示例性实施例的基于机器学习模型的概率预测装置的示意性框图;
[0020]图7是图示出能够应用于示例性实施例的示例性计算机设备的框图。
具体实施方式
[0021]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0022]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目
的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。如本文使用的,术语“多个”意指两个或更多,并且术语“基于”应解释为“至少部分地基于”。此外,术语“和/或”以及
“……
中的至少一个”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0023]相关技术中,需要使用大量的样本数据对机器学习模型进行训练以得到有效且稳定的目标预测模型,然而,大规模的样本数据会占用存储器中较大的存储空间,浪费资源且训练效率较低。
[0024]为了在降低样本数据对存储空间的占用的同时保证使用样本数据训练得到的目标预测模型的预测准确性和稳定性,本公开提供了一种计算机实现的机器学习模型训练方法。
[0025]图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统100的示意图。
[0026]参考图1,该系统100包括客户端设备110、服务器120、以及将客户端设备110与服务器120通信地耦合的网络130。
[0027]客户端设备110包括显示器114和可经由显示器114显示的客户端应用(APP)112。客户端应用112可以为运行前需要下载和安装的应用程序或者作为轻量化应用程序的小程序(liteapp)。在客户端应用112为运行前需要下载和安装的应用程序的情况下,客户端应用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的机器学习模型训练方法,包括:从存储器中读取原始样本集合,所述原始样本集合包括正样本集合和负样本集合;对所述负样本集合中的负样本进行多次随机下采样,将每次随机下采样得到的目标数量的负样本作为一个采样集合,得到多个采样集合;删除所述负样本集合中除所述多个采样集合外的负样本,以释放所述原始样本集合中除所述多个负样本集合外的负样本所占用的存储空间;使用所述多个采样集合分别与所述正样本集合构成目标样本集合,得到与所述多个采样集合一一对应的多个目标样本集合;利用所述多个目标样本集合分别训练相应的多个机器学习模型,得到多个目标预测模型。2.根据权利要求1的方法,其中,通过如下公式确定所述目标数量:k=(1

r)*m/r其中,k表示所述目标数量,r表示所述正样本集合的正样本数量占相应目标样本集合中正样本和负样本的总数量的比例,m表示所述正样本集合中的正样本数量。3.根据权利要求1的方法,其中,所述机器学习模型包括XGBoost模型。4.一种基于机器学习模型的概率预测方法,包括:获取待预测样本数据;利用多个目标预测模型分别处理所述待预测样本数据,得到所述多个目标预测模型输出的相应多个预测概率值,其中,所述多个目标预测模型通过如权利要求1所述的计算机实现的机器学习模型训练方法得到;确定所述多个预测概率值的平均值作为针对所述待预测样本数据的目标预测结果。5.一种计算机实现的机器学习模型训练装置,包括:第一数据获取模块,用于从存储器中读取原始样本集合,所述原始样本集合包括正样本集合和负样本集合;随机采样模块,用于对所述负样本集合中的负样本进行多次随机下采样,将每次随机下采样得到的目标数量的负样本作为一个采样集合,得到多个采样集合;数据过滤模块,用于删除所述负样本...

【专利技术属性】
技术研发人员:陈凯杜金栗张誉段伟民陈鑫李伯堂
申请(专利权)人:腾云天宇科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1