【技术实现步骤摘要】
用于推荐算法的采样方法、装置、计算机设备和存储介质
[0001]本申请涉及大数据处理
,特别是涉及一种用于推荐算法的采样方法
、
装置
、
计算机设备和存储介质
。
技术介绍
[0002]随着大数据处理技术的发展,采用推荐算法的业务推荐系统时刻面对海量的数据
。
推荐算法的模型训练过程中需要大量的原始样本数据
。
[0003]通常,系统中每天产生的原始样本从百万级到百亿级,在计算资源有限的情况下,若想要快速找出适用于某一种场景的算法模块或解决方案,需要花费大量时间成本
。
同时,未经处理的原始样本充斥着各种噪声和偏差,它们会让模型训练偏离正常轨道
。
[0004]因此,目前的推荐算法采样过程中采用多种数据维度对原始样本数据进行筛选,但采样过程中需要耗费大量资源,导致采样成本过高
。
技术实现思路
[0005]基于此,有必要针对上述技术问题,提供一种能够降低采样成本的用于推荐算法的采样方法 />、
装置本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种用于推荐算法的采样方法,其特征在于,所述方法包括:获取原始数据集和采样特征信息,其中,所述原始数据集中包括多条样本数据,每一条样本数据包括多种数据特征;针对每条样本数据中的每种所述数据特征,采用所述采样特征信息确定对应的特征采样概率;根据多个所述特征采样概率计算对应于所述样本数据的目标采样概率;根据所述目标采样概率确定目标样本数据,基于所述目标样本数据形成目标数据集
。2.
根据权利要求1所述的方法,其特征在于,所述根据所述目标采样概率确定目标样本数据,基于所述目标样本数据形成目标数据集包括:在预设数值范围内生成随机数值;将每条所述样本数据对应的所述目标采样概率与所述随机数值进行对比;在所述目标采样概率大于所述随机数值的情况下,将对应的所述样本数据作为目标样本数据;汇总所有所述目标样本数据,形成目标数据集
。3.
根据权利要求1所述的方法,其特征在于,所述针对每条样本数据中的每种所述数据特征,采用所述采样特征信息确定对应的特征采样概率,包括:在所述数据特征是标记特征的情况下,识别所述标记特征的标记种类,并根据所述采样特征信息和所述标记种类直接确定所述特征采样概率;在所述数据特征是参与推荐算法模型训练的训练特征的情况下,识别所述训练特征所指示的特征数值,并根据所述采样特征信息和所述特征数值计算所述特征采样概率
。4.
根据权利要求3所述的方法,其特征在于,所述训练特征包括数据生成时刻
、
数值偏移率
、
数据曝光位置中的任意一个或多个
。5.
根据权利要求3所述的方法,其特征在于,所述识别所述训练特征所指示的特征数值,并根据所述采样特征信息和所述特征数值计算所述特征采样概率包括:识别所述训练特征所指示的特征数值;提取所述采样特征信息中的中间类型数值范围;判断所述特征...
【专利技术属性】
技术研发人员:车佳融,
申请(专利权)人:上海鱼尔网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。