一种训练样本的确定方法、装置、计算设备及存储介质制造方法及图纸

技术编号：42579455 阅读：27 留言：0更新日期：2024-08-29 00:42

本申请提供一种训练样本的确定方法、装置、计算设备及存储介质，包括：针对任一正样本，根据正样本中推荐对象标识和用户标识，确定正样本对应的映射码；其中，正样本表征用户对推荐对象执行了预设行为；针对任一推荐对象，根据推荐对象的推荐对象标识，确定推荐对象对应的映射码；针对任一映射码对应的子集合，基于子集合中的第一正样本中的第一用户标识，为子集合中的第二推荐对象构建具有第一用户标识的负样本从而得到训练样本；第一正样本为子集合中的任一正样本，第二推荐对象为子集合中的任一推荐对象；第一正样本中的第一推荐对象与第二推荐对象不同。该方案，能够从一个大的商品规模上，高效地构造出满足要求的训练样本。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种训练样本的确定方法、装置、计算设备及存储介质。

技术介绍

1、在推荐系统中，一般采用召回模型向用户推荐用户感兴趣的商品，召回模型是数字化营销中的一种常用的推荐系统，它的目的是根据用户的行为和偏好，从海量的候选商品中筛选出最有可能被用户感兴趣的商品，从而提高用户的满意度和转化率。

2、然而，召回模型的效果往往受限于训练样本的质量和数量，因此训练召回模型的训练样本至关重要。

3、现有技术，一般采用用户点击过的商品作为正样本，曝光但用户未点击的商品作为负样本；但是如果选择曝光未点击的样本作为负样本，那么召回模型就会陷入“一叶障目，不见泰山”的困境，也就是说召回模型只会鉴别那些高曝光的样本，对于那些没出现，或少出现的样本，它根本区分不出来这是正样本还是负样本。

4、当前广泛流行的做法是从全部商品中随机选择部分商品，构成负样本。但对于电商而言，通常全部商品的数量都比较庞大，要在这样一个大的商品规模上每次对一个用户都要随机采样出若干商品构造负样本面临着严峻的性能和效率问题，且由于全部...

【技术保护点】

1.一种训练样本的确定方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述为所述子集合中的第二推荐对象构建具有所述第一用户标识的负样本从而得到训练样本，包括：

3.如权利要求1所述的方法，其特征在于，所述据所述正样本中推荐对象标识和用户标识，确定所述正样本对应的映射码，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述推荐对象的推荐对象标识，确定所述推荐对象对应的映射码，包括：

5.如权利要求1至4中任一项所述的方法，其特征在于，所述方法是基于Map Reduce架构实现的。

6.一种训练样本的确定装...

【技术特征摘要】

1.一种训练样本的确定方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述为所述子集合中的第二推荐对象构建具有所述第一用户标识的负样本从而得到训练样本，包括：

3.如权利要求1所述的方法，其特征在于，所述据所述正样本中推荐对象标识和用户标识，确定所述正样本对应的映射码，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述推荐对象的推荐对象标识，确定所述推荐对象对应的映射码，包括：

5.如权利要求1至4中任一项所述的方法，其特征在于，所述方法是基于map reduce架构实现的。

6.一种训练样本的确定装置，其特征在于，包括子集确...

【专利技术属性】
技术研发人员：王晓丹，
申请(专利权)人：上海壹佰米网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人