一种基于热度排序的降采样方法技术

技术编号:33455801 阅读:28 留言:0更新日期:2022-05-19 00:38
本申请示出一种基于热度排序的降采样方法。解决了推荐业务推荐的媒资集中在少量热门媒资的问题。其中,基于热度排序的降采样方法包括:获取符合第一预设条件的第一负样本集合,根据热度提升函数,将第一负样本集合进行热度提升采样;第一预设条件用于表征曝光的个体在第一预设时间内未被点击;获取符合第二预设条件的第二负样本集合,对第二负样本集合进行随机降采样;第二预设条件用于表征个体符合第一预设条件且在第二预设时间内被连续曝光;获取符合第三预设条件的正样本集合,根据热度打压函数,对正样本集合进行热度打压采样;合并第一负样本集合、第二负样本集合以及正样本集合。集合。集合。

【技术实现步骤摘要】
一种基于热度排序的降采样方法


[0001]本申请涉及数据处理领域,尤其涉及一种基于热度排序的降采样方法。

技术介绍

[0002]终端设备在提供推荐业务时,依赖于预先训练好的推荐模型,而推荐模型的训练依赖于训练样本的构造。一定程度上,样本质量决定了排序模型的上限,因此训练样本需要小心选择。样本选择的过程我们称之为“降采样”。
[0003]目前,降采样方式主要围绕热门打压来实现,主流的方法来自于word2vec的降采样的启发——词频表示一个单词的热度,根据词频计算该词的采样率。在自然语言中,词汇量一般是百万级别,每个词出现的频数没有明显的长尾分布,因此,“根据词频计算该词的采样率”虽然在自然语言处理(natural language processing,NLP)领域是适用的。
[0004]然而,对于推荐业务来说,用户对样本的行为普遍存在长尾效应,即少量的热门样本贡献了大部分的点击,会造成推荐业务推荐的媒资集中在少量热门媒资中,推荐业务不能发挥其有效性。

技术实现思路

[0005]本申请提供一种基于热度排序的降采样方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于热度排序的降采样方法,其特征在于,包括:获取符合第一预设条件的第一负样本集合,根据热度提升函数,将所述第一负样本集合进行热度提升采样;所述第一预设条件用于表征曝光的个体在第一预设时间内未被点击;获取符合第二预设条件的第二负样本集合,对所述第二负样本集合进行随机降采样;所述第二预设条件用于表征个体符合所述第一预设条件且在第二预设时间内被连续曝光;获取符合第三预设条件的正样本集合,根据热度打压函数,对所述正样本集合进行热度打压采样;合并所述第一负样本集合、所述第二负样本集合以及所述正样本集合。2.根据权利要求1所述的基于热度排序的降采样方法,其特征在于,所述热度提升函数和所述热度打压函数的输入为个体的热度,所述热度为所述个体在总体点击量由小到大排序后对应的排序位次;随着所述热度的增大,所述热度提升函数输出的采样概率越大;随着所述热度的增大,所述热度打压函数输出的采样概率越小。3.根据权利要求2所述的基于热度排序的降采样方法,其特征在于,所述热度提升函数为:其中,rank
i
表示为item
i
的采样概率;item
i
表示为在总体中的各个个体按照点击量由小到大排序后,第i个排序位次对应的个体,则rank
i
=i。4.根据权利要求3所述的基于热度排序的降采样方法,其特征在于,所...

【专利技术属性】
技术研发人员:陈将浩黄山山
申请(专利权)人:聚好看科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1