数据处理方法、装置、设备以及存储介质制造方法及图纸

技术编号：30323611 阅读：25 留言：0更新日期：2021-10-09 23:52

本公开提供一种数据处理方法、装置、设备以及存储介质，涉及网络信息处理技术领域，以至少解决现有技术中无法均衡媒体资源标签完整性和标签回传的实时性的问题。该方法包括：获取媒体资源曝光数据中每个媒体资源的标签和每个媒体资源的回传时间；标签用于表征媒体资源的样本属性；根据目标媒体资源的回传时间，从多个预设阈值区间中确定目标媒体资源对应的目标阈值区间，目标媒体资源为媒体资源曝光数据中每一媒体资源，目标阈值区间为多个预设阈值区间中任一预设阈值区间；基于目标阈值区间的回传规则，回传目标媒体资源和目标媒体资源的标签。资源的标签。资源的标签。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、设备以及存储介质

[0001]本公开涉及网络信息处理
，尤其涉及一种数据处理方法、装置、设备以及存储介质。

技术介绍

[0002]目前，通常利用有标签的媒体资源来训练转化率(Click Value Rate，CVR)/和点击率(Click Through Rate，CTR)模型，以得到CVR和CTR等评测指标的预估结果。
[0003]在深度学习技术中，有标签的媒体资源可以通过流式训练确定。当需要确定标签的媒体资源是在线广告时，具体的确定方法为：获取已曝光的在线广告，在得到已曝光的在线广告数据后，等待固定时间，获取用户行为数据，再根据用户行为数据确定出每个在线广告的标签。
[0004]由上述可知，不同的等待固定时间，将会得到不同的用户行为数据，从而影响标签的完整性和回传标签的及时性。针对该问题，现有技术通过设置一个可变的阈值来解决。由于该阈值是根据历史数据得到的，因而可以保证大部分的标签都符合要求。但是对于长尾现象(即：在一个数据区间中，大多数的数据集中在区间头部，还有部分差异化的、少量的数据集中在区间尾部。区间尾部的数据累加起来会形成比区间头部的数据累加起来还大的影响)而言，若等待时间过长，将影响回传标签的实时性，若等待时间过短，将影响标签的完整性。

技术实现思路

[0005]本公开提供一种数据处理方法、装置、设备以及存储介质，以至少解决现有技术中无法均衡媒体资源标签完整性和标签回传的实时性的问题。本公开的技术方案如下：
[0006]根据本公开的第一方...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取媒体资源曝光数据中每个媒体资源的标签和所述每个媒体资源的回传时间；所述标签用于表征所述媒体资源的样本属性；根据目标媒体资源的回传时间，从多个预设阈值区间中确定所述目标媒体资源对应的目标阈值区间，所述目标媒体资源为所述媒体资源曝光数据中每一媒体资源，所述目标阈值区间为所述多个预设阈值区间中任一预设阈值区间；基于所述目标阈值区间的回传规则，回传所述目标媒体资源和所述目标媒体资源的标签。2.根据权利要求1所述的数据处理方法，其特征在于，还包括：获取历史媒体资源标签的回传时间；对所述历史媒体资源标签的回传时间进行分类处理，得到所述多个预设阈值区间。3.根据权利要求1所述的数据处理方法，其特征在于，还包括：根据所述目标媒体资源对应的目标阈值区间，从多个训练模型中确定所述目标媒体资源对应的目标训练模型；所述目标训练模型为所述多个训练模型中任一训练模型；将所述目标媒体资源和所述目标媒体资源的标签输入所述目标训练模型进行训练，得到目标模型；对所有的所述目标模型进行组合处理，生成预测模型。4.根据权利要求3所述的数据处理方法，其特征在于，还包括：将所述媒体资源曝光数据和用户行为数据输入到所述预测模型中，得到评测指标的预测结果。5.根据权利要求1
‑
4中任一项所述的数据处理方法，其特征在于，所述基于所述目标阈值区间的回传规则，回传所述目标媒体资源和所述目标媒体资源的标签，包括：当处于所述目标阈值区间的结束时间时，回传所述目标媒体资源和所述目标媒体资源的标签。6.根据权利要求1
‑
4中任一项所述的数据处理方法，其特征在于，所述样本属性包括正样本和负样本，...

【专利技术属性】
技术研发人员：李绍哲，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人