用于推荐算法的采样方法技术

技术编号:39756031 阅读:8 留言:0更新日期:2023-12-17 23:55
本申请涉及一种用于推荐算法的采样方法

【技术实现步骤摘要】
用于推荐算法的采样方法、装置、计算机设备和存储介质


[0001]本申请涉及大数据处理
,特别是涉及一种用于推荐算法的采样方法

装置

计算机设备和存储介质


技术介绍

[0002]随着大数据处理技术的发展,采用推荐算法的业务推荐系统时刻面对海量的数据

推荐算法的模型训练过程中需要大量的原始样本数据

[0003]通常,系统中每天产生的原始样本从百万级到百亿级,在计算资源有限的情况下,若想要快速找出适用于某一种场景的算法模块或解决方案,需要花费大量时间成本

同时,未经处理的原始样本充斥着各种噪声和偏差,它们会让模型训练偏离正常轨道

[0004]因此,目前的推荐算法采样过程中采用多种数据维度对原始样本数据进行筛选,但采样过程中需要耗费大量资源,导致采样成本过高


技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够降低采样成本的用于推荐算法的采样方法

装置

计算机设备和计算机可读存储介质

[0006]第一方面,本申请提供了一种用于推荐算法的采样方法,包括:
[0007]获取原始数据集和采样特征信息,其中,所述原始数据集中包括多条样本数据,每一条样本数据包括多种数据特征;
[0008]针对每条样本数据中的每种所述数据特征,采用所述采样特征信息确定对应的特征采样概率;
[0009]根据多个所述特征采样概率计算对应于所述样本数据的目标采样概率;
[0010]根据所述目标采样概率确定目标样本数据,基于所述目标样本数据形成目标数据集

[0011]在其中一个实施例中,所述根据所述目标采样概率确定目标样本数据,基于所述目标样本数据形成目标数据集包括:
[0012]在预设数值范围内生成随机数值;
[0013]将每条所述样本数据对应的所述目标采样概率与所述随机数值进行对比;
[0014]在所述目标采样概率大于所述随机数值的情况下,将对应的所述样本数据作为目标样本数据;
[0015]汇总所有所述目标样本数据,形成目标数据集

[0016]在其中一个实施例中,所述针对每条样本数据中的每种所述数据特征,采用所述采样特征信息确定对应的特征采样概率,包括:
[0017]在所述数据特征是标记特征的情况下,识别所述标记特征的标记种类,并根据所述采样特征信息和所述标记种类直接确定所述特征采样概率;
[0018]在所述数据特征是参与推荐算法模型训练的训练特征的情况下,识别所述训练特
征所指示的特征数值,并根据所述采样特征信息和所述特征数值计算所述特征采样概率

[0019]在其中一个实施例中,所述训练特征包括数据生成时刻

数值偏移率

数据曝光位置中的任意一个或多个

[0020]在其中一个实施例中,所述识别所述训练特征所指示的特征数值,并根据所述采样特征信息和所述特征数值计算所述特征采样概率包括:
[0021]识别所述训练特征所指示的特征数值;
[0022]提取所述采样特征信息中的中间类型数值范围;
[0023]判断所述特征数值所在的数值范围类型;
[0024]在所述特征数值所在的数值范围类型为中间类型数值范围时,获取所述特征数值对应的特征采样概率

[0025]在其中一个实施例中,所述采样特征信息包括采样概率映射表,所述概率映射表包括多组数值范围与采样概率值的映射关系;所述在所述特征数值所在的数值范围类型为中间类型数值范围时,获取所述特征数值对应的特征采样概率包括:
[0026]从所述采样概率映射表中获取所述中间类型数值范围中的多个子数值范围;
[0027]查找与所述特征数值相符合的所述子数值范围,以获得目标子数值范围;
[0028]将所述目标子数值范围对应的所述采样概率值作为所述特征采样概率

[0029]在其中一个实施例中,所述根据多个所述特征采样概率计算对应于所述样本数据的目标采样概率包括:
[0030]计算多个所述特征采样概率的乘积,以得到对应于所述样本数据的目标采样概率

[0031]第二方面,本申请还提供了一种用于推荐算法的采样装置,包括:
[0032]信息获取模块,用于获取原始数据集和采样特征信息,其中,所述原始数据集中包括多条样本数据,每一条样本数据包括多种数据特征;
[0033]概率计算模块,用于针对每条样本数据中的每种所述数据特征,采用所述采样特征信息确定对应的特征采样概率;
[0034]概率确定模块,用于根据多个所述特征采样概率计算对应于所述样本数据的目标采样概率;
[0035]数据采样模块,用于根据所述目标采样概率确定目标样本数据,基于所述目标样本数据形成目标数据集

[0036]第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0037]获取原始数据集和采样特征信息,其中,所述原始数据集中包括多条样本数据,每一条样本数据包括多种数据特征;
[0038]针对每条样本数据中的每种所述数据特征,采用所述采样特征信息确定对应的特征采样概率;
[0039]根据多个所述特征采样概率计算对应于所述样本数据的目标采样概率;
[0040]根据所述目标采样概率确定目标样本数据,基于所述目标样本数据形成目标数据集

[0041]第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所
述计算机程序被处理器执行时实现以下步骤:
[0042]获取原始数据集和采样特征信息,其中,所述原始数据集中包括多条样本数据,每一条样本数据包括多种数据特征;
[0043]针对每条样本数据中的每种所述数据特征,采用所述采样特征信息确定对应的特征采样概率;
[0044]根据多个所述特征采样概率计算对应于所述样本数据的目标采样概率;
[0045]根据所述目标采样概率确定目标样本数据,基于所述目标样本数据形成目标数据集

[0046]上述用于推荐算法的采样方法

装置

计算机设备和存储介质,从原始数据集中获取到多条样本数据,并且每条样本数据又包括了不同维度的多种数据特征,根据采样特征信息来确定每一条样本数据的每种数据特征所对应的特征采样概率,能够从多个维度全面地衡量出该条样本数据的出现在最终的目标数据集中的可能性,再根据得出的多个特征采样概率计算出对应于样本数据的目标采样概率,将根据多维度确定的目标采样概率作为该条样本数据出现在最终目标数据集中的概率,对每条样本数据逐一计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种用于推荐算法的采样方法,其特征在于,所述方法包括:获取原始数据集和采样特征信息,其中,所述原始数据集中包括多条样本数据,每一条样本数据包括多种数据特征;针对每条样本数据中的每种所述数据特征,采用所述采样特征信息确定对应的特征采样概率;根据多个所述特征采样概率计算对应于所述样本数据的目标采样概率;根据所述目标采样概率确定目标样本数据,基于所述目标样本数据形成目标数据集
。2.
根据权利要求1所述的方法,其特征在于,所述根据所述目标采样概率确定目标样本数据,基于所述目标样本数据形成目标数据集包括:在预设数值范围内生成随机数值;将每条所述样本数据对应的所述目标采样概率与所述随机数值进行对比;在所述目标采样概率大于所述随机数值的情况下,将对应的所述样本数据作为目标样本数据;汇总所有所述目标样本数据,形成目标数据集
。3.
根据权利要求1所述的方法,其特征在于,所述针对每条样本数据中的每种所述数据特征,采用所述采样特征信息确定对应的特征采样概率,包括:在所述数据特征是标记特征的情况下,识别所述标记特征的标记种类,并根据所述采样特征信息和所述标记种类直接确定所述特征采样概率;在所述数据特征是参与推荐算法模型训练的训练特征的情况下,识别所述训练特征所指示的特征数值,并根据所述采样特征信息和所述特征数值计算所述特征采样概率
。4.
根据权利要求3所述的方法,其特征在于,所述训练特征包括数据生成时刻

数值偏移率

数据曝光位置中的任意一个或多个
。5.
根据权利要求3所述的方法,其特征在于,所述识别所述训练特征所指示的特征数值,并根据所述采样特征信息和所述特征数值计算所述特征采样概率包括:识别所述训练特征所指示的特征数值;提取所述采样特征信息中的中间类型数值范围;判断所述特征...

【专利技术属性】
技术研发人员:车佳融
申请(专利权)人:上海鱼尔网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1