【技术实现步骤摘要】
数据处理方法、装置、设备以及存储介质
[0001]本公开涉及网络信息处理
,尤其涉及一种数据处理方法、装置、设备以及存储介质。
技术介绍
[0002]目前,通常利用有标签的媒体资源来训练转化率(Click Value Rate,CVR)/和点击率(Click Through Rate,CTR)模型,以得到CVR和CTR等评测指标的预估结果。
[0003]在深度学习技术中,有标签的媒体资源可以通过流式训练确定。当需要确定标签的媒体资源是在线广告时,具体的确定方法为:获取已曝光的在线广告,在得到已曝光的在线广告数据后,等待固定时间,获取用户行为数据,再根据用户行为数据确定出每个在线广告的标签。
[0004]由上述可知,不同的等待固定时间,将会得到不同的用户行为数据,从而影响标签的完整性和回传标签的及时性。针对该问题,现有技术通过设置一个可变的阈值来解决。由于该阈值是根据历史数据得到的,因而可以保证大部分的标签都符合要求。但是对于长尾现象(即:在一个数据区间中,大多数的数据集中在区间头部,还有部分差异化的、少 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取媒体资源曝光数据中每个媒体资源的标签和所述每个媒体资源的回传时间;所述标签用于表征所述媒体资源的样本属性;根据目标媒体资源的回传时间,从多个预设阈值区间中确定所述目标媒体资源对应的目标阈值区间,所述目标媒体资源为所述媒体资源曝光数据中每一媒体资源,所述目标阈值区间为所述多个预设阈值区间中任一预设阈值区间;基于所述目标阈值区间的回传规则,回传所述目标媒体资源和所述目标媒体资源的标签。2.根据权利要求1所述的数据处理方法,其特征在于,还包括:获取历史媒体资源标签的回传时间;对所述历史媒体资源标签的回传时间进行分类处理,得到所述多个预设阈值区间。3.根据权利要求1所述的数据处理方法,其特征在于,还包括:根据所述目标媒体资源对应的目标阈值区间,从多个训练模型中确定所述目标媒体资源对应的目标训练模型;所述目标训练模型为所述多个训练模型中任一训练模型;将所述目标媒体资源和所述目标媒体资源的标签输入所述目标训练模型进行训练,得到目标模型;对所有的所述目标模型进行组合处理,生成预测模型。4.根据权利要求3所述的数据处理方法,其特征在于,还包括:将所述媒体资源曝光数据和用户行为数据输入到所述预测模型中,得到评测指标的预测结果。5.根据权利要求1
‑
4中任一项所述的数据处理方法,其特征在于,所述基于所述目标阈值区间的回传规则,回传所述目标媒体资源和所述目标媒体资源的标签,包括:当处于所述目标阈值区间的结束时间时,回传所述目标媒体资源和所述目标媒体资源的标签。6.根据权利要求1
‑
4中任一项所述的数据处理方法,其特征在于,所述样本属性包括正样本和负样本,...
【专利技术属性】
技术研发人员:李绍哲,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。