用于模型训练的方法、装置、设备和存储介质制造方法及图纸

技术编号：43356330 阅读：14 留言：0更新日期：2024-11-19 17:42

本公开的实施例涉及一种用于模型训练的方法、装置、设备和存储介质。在此提出的方法包括：获取训练数据集，其中训练数据集至少包括与第一行为相关的第一训练样本集；确定第一训练样本的第一分布信息，其中第一分布信息指示第一训练样本集中训练样本的分布在训练数据集中训练样本的总分布中所占据的第一区域；基于第一分布信息，扩展第一训练样本集，以得到第二训练样本集；以及至少利用第二训练样本集，训练目标机器学习模型，其中目标机器学习模型至少被配置为识别输入的行为相关数据是否与第一行为有关。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的示例实施例总体涉及计算机，并且更具体地，涉及一种用于模型训练的方法、装置、设备和存储介质。

技术介绍

1、电商是指通过网络进行商务活动的一种新型商业模式，是传统商业活动各环节的电子化、网络化和信息化。在这其中，部分用户为了个人目的(例如提升经营积分排名以及赚取流量等)，通过诸如“寄空包”等操作来进行违规刷单。

技术实现思路

1、在本公开的第一方面，提供了一种用于模型训练的方法。该方法包括：获取训练数据集，其中所述训练数据集至少包括与第一行为相关的第一训练样本集；确定所述第一训练样本的第一分布信息，其中所述第一分布信息指示所述第一训练样本集中训练样本的分布在所述训练数据集中训练样本的总分布中所占据的第一区域；基于所述第一分布信息，扩展所述第一训练样本集，以得到第二训练样本集；以及至少利用所述第二训练样本集，训练目标机器学习模型，其中所述目标机器学习模型至少被配置为识别输入的行为相关数据是否与所述第一行为有关。

2、在本公开的第二方面，提供了一种用于模型训练的装置。该装置包括：训练数据集获取模块，被配置为获取训练数据集，其中所述训练数据集至少包括与第一行为相关的第一训练样本集；分布信息确定模块，被配置为确定所述第一训练样本的第一分布信息，其中所述第一分布信息指示所述第一训练样本集中训练样本的分布在所述训练数据集中训练样本的总分布中所占据的第一区域；样本扩展模块，被配置为基于所述第一分布信息，扩展所述第一训练样本集，以得到第二训练样本集；以及模型训练模块，被配置为至少

3、在本公开的第三方面，提供了一种电子设备。该设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。

4、在本公开的第四方面，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，计算机程序可由处理器执行以实现第一方面的方法。

5、在本公开的第五方面，提供了一种计算机程序产品。该计算机程序产品包括计算机可执行指令，这些指令在被处理器执行时，实现根据本公开的第一方面的方法。

6、应当理解，本内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种用于模型训练的方法，包括：

2.根据权利要求1所述的方法，其中所述训练数据集还包括与第二行为相关的第三训练样本集，所述第一训练样本集的训练样本的数目小于所述第三训练样本集的训练样本的数目，并且其中所述第二训练样本集的训练样本的数目与所述第三训练样本集的训练样本的数目的差异小于预定差异。

3.根据权利要求2所述的方法，其中至少利用所述第二训练样本集，训练目标机器学习模型，包括：

4.根据权利要求2所述的方法，其中基于所述第一分布信息，扩展所述第一训练样本集，包括：

5.根据权利要求4所述的方法，其中基于在所述总分布中所述第一区域与所述第二区域之间的相对位置关系，调整所述第一分布信息，包括：

6.根据权利要求5所述的方法，其中基于所述第三分布信息，扩展所述第一训练样本集，包括：

7.根据权利要求6所述的方法，其中至少基于所述第一训练样本、所述第二训练样本以及所述第三训练样本，确定扩展训练样本，包括：

8.根据权利要求7所述的方法，其中所述第一随机系数、所述第二随机系数与所述第三随机系数之和为预定值。

9.根据权利要求6所述的方法，其中所述第二训练样本和所述第三训练样本是与所述第一训练样本相邻的训练样本。

10.根据权利要求1所述的方法，其中确定所述第一训练样本集的第一分布信息，包括：

11.根据权利要求1所述的方法，其中所述第一行为包括第一风险行为，所述第二行为包括第二风险行为，并且其中所述方法还包括：

12.根据权利要求1所述的方法，其中所述行为相关数据包括以下至少一项：

13.一种用于模型训练的装置，包括：

14.一种电子设备，包括：

15.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可由处理器执行以实现根据权利要求1至12任一项所述的方法。

16.一种计算机程序产品，包括计算机可执行指令，其中所述计算机可执行指令在被处理器执行时实现根据权利要求1至12中任一项所述的方法。

...

【技术特征摘要】

1.一种用于模型训练的方法，包括：

3.根据权利要求2所述的方法，其中至少利用所述第二训练样本集，训练目标机器学习模型，包括：

4.根据权利要求2所述的方法，其中基于所述第一分布信息，扩展所述第一训练样本集，包括：

5.根据权利要求4所述的方法，其中基于在所述总分布中所述第一区域与所述第二区域之间的相对位置关系，调整所述第一分布信息，包括：

6.根据权利要求5所述的方法，其中基于所述第三分布信息，扩展所述第一训练样本集，包括：

7.根据权利要求6所述的方法，其中至少基于所述第一训练样本、所述第二训练样本以及所述第三训练样本，确定扩展训练样本，包括：

8...

【专利技术属性】
技术研发人员：王成，
申请(专利权)人：北京京东远升科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人