数据处理方法、装置、设备以及存储介质制造方法及图纸

技术编号:30323611 阅读:25 留言:0更新日期:2021-10-09 23:52
本公开提供一种数据处理方法、装置、设备以及存储介质,涉及网络信息处理技术领域,以至少解决现有技术中无法均衡媒体资源标签完整性和标签回传的实时性的问题。该方法包括:获取媒体资源曝光数据中每个媒体资源的标签和每个媒体资源的回传时间;标签用于表征媒体资源的样本属性;根据目标媒体资源的回传时间,从多个预设阈值区间中确定目标媒体资源对应的目标阈值区间,目标媒体资源为媒体资源曝光数据中每一媒体资源,目标阈值区间为多个预设阈值区间中任一预设阈值区间;基于目标阈值区间的回传规则,回传目标媒体资源和目标媒体资源的标签。资源的标签。资源的标签。

【技术实现步骤摘要】
数据处理方法、装置、设备以及存储介质


[0001]本公开涉及网络信息处理
,尤其涉及一种数据处理方法、装置、设备以及存储介质。

技术介绍

[0002]目前,通常利用有标签的媒体资源来训练转化率(Click Value Rate,CVR)/和点击率(Click Through Rate,CTR)模型,以得到CVR和CTR等评测指标的预估结果。
[0003]在深度学习技术中,有标签的媒体资源可以通过流式训练确定。当需要确定标签的媒体资源是在线广告时,具体的确定方法为:获取已曝光的在线广告,在得到已曝光的在线广告数据后,等待固定时间,获取用户行为数据,再根据用户行为数据确定出每个在线广告的标签。
[0004]由上述可知,不同的等待固定时间,将会得到不同的用户行为数据,从而影响标签的完整性和回传标签的及时性。针对该问题,现有技术通过设置一个可变的阈值来解决。由于该阈值是根据历史数据得到的,因而可以保证大部分的标签都符合要求。但是对于长尾现象(即:在一个数据区间中,大多数的数据集中在区间头部,还有部分差异化的、少量的数据集中在区间尾部。区间尾部的数据累加起来会形成比区间头部的数据累加起来还大的影响)而言,若等待时间过长,将影响回传标签的实时性,若等待时间过短,将影响标签的完整性。

技术实现思路

[0005]本公开提供一种数据处理方法、装置、设备以及存储介质,以至少解决现有技术中无法均衡媒体资源标签完整性和标签回传的实时性的问题。本公开的技术方案如下:
[0006]根据本公开的第一方面,提供一种数据处理方法,该数据处理方法包括:电子设备获取媒体资源曝光数据中每个媒体资源的标签和每个媒体资源的回传时间;标签用于表征媒体资源的样本属性;并根据目标媒体资源的回传时间,从多个预设阈值区间中确定目标媒体资源对应的目标阈值区间,目标媒体资源为媒体资源曝光数据中每一媒体资源,目标阈值区间为多个预设阈值区间中任一预设阈值区间;基于目标阈值区间的回传规则,电子设备回传目标媒体资源和目标媒体资源的标签。
[0007]可选的,该数据处理方法,还包括:电子设备获取历史媒体资源标签的回传时间;电子设备对历史媒体资源标签的回传时间进行分类处理,得到多个预设阈值区间。
[0008]可选的,该数据处理方法,还包括:电子设备根据目标媒体资源对应的目标阈值区间,从多个训练模型中确定目标媒体资源对应的目标训练模型;目标训练模型为多个训练模型中任一训练模型;并将目标媒体资源和目标媒体资源的标签输入目标训练模型进行训练,得到目标模型;对所有的目标模型进行组合处理,生成预测模型。
[0009]可选的,该数据处理方法,还包括:电子设备将媒体资源曝光数据和用户行为数据输入到预测模型中,得到评测指标的预测结果。
[0010]可选的,基于目标阈值区间的回传规则,回传目标媒体资源和目标媒体资源的标签,包括:当处于目标阈值区间的结束时间时,回传目标媒体资源和目标媒体资源的标签。
[0011]可选的,样本属性包括正样本和负样本,媒体资源曝光数据为消费媒体资源曝光数据,获取媒体资源曝光数据中每个媒体资源的标签包括:在用户对目标消费媒体资源执行交互操作的情况下,获取目标消费媒体资源的标签为正样本;目标消费媒体资源为消费媒体资源曝光数据中的每一消费媒体资源;在用户对目标消费媒体资源未执行交互操作情况下,获取目标消费媒体资源的标签为负样本。
[0012]根据本公开的第二方面,提供一种数据处理装置,该数据处理装置包括获取模块、处理模块和发送模块。获取模块,被配置为获取媒体资源曝光数据中每个媒体资源的标签和每个媒体资源的回传时间;标签用于表征媒体资源的样本属性;处理模块,被配置为根据目标媒体资源的回传时间,从多个预设阈值区间中确定目标媒体资源对应的目标阈值区间,目标媒体资源为媒体资源曝光数据中每一媒体资源,目标阈值区间为多个预设阈值区间中任一预设阈值区间;发送模块,被配置为基于目标阈值区间的回传规则,回传目标媒体资源和目标媒体资源的标签。
[0013]可选的,获取模块,还被配置为获取历史媒体资源标签的回传时间;
[0014]处理模块,还被配置为对历史媒体资源标签的回传时间进行分类处理,得到多个预设阈值区间。
[0015]可选的,处理模块,还被配置为根据目标媒体资源对应的目标阈值区间,从多个训练模型中确定目标媒体资源对应的目标训练模型;目标训练模型为多个训练模型中任一训练模型;
[0016]处理模块,还被配置为将目标媒体资源和目标媒体资源的标签输入目标训练模型进行训练,得到目标模型;
[0017]处理模块,还被配置为对所有的目标模型进行组合处理,生成预测模型。
[0018]可选的,处理模块,还被配置为将媒体资源曝光数据和用户行为数据输入到预测模型中,得到评测指标的预测结果。
[0019]可选的,发送模块,还被配置为当处于目标阈值区间的结束时间时,回传目标媒体资源和目标媒体资源的标签。
[0020]可选的,样本属性包括正样本和负样本,媒体资源曝光数据为消费媒体资源曝光数据,获取模块,还被配置为在用户对目标消费媒体资源执行交互操作的情况下,获取目标消费媒体资源的标签为正样本;目标消费媒体资源为消费媒体资源曝光数据中的每一消费媒体资源;
[0021]获取模块,还被配置为在用户对目标消费媒体资源未执行交互操作情况下,获取目标消费媒体资源的标签为负样本。
[0022]根据本公开的第三方面,提供一种电子设备,包括:处理器和用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现如上述第一方面中任一种可选的数据处理方法。
[0023]根据本公开的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述第一方面中任一种可选的数据处理方法。
[0024]根据本公开的第五方面,提供一种计算机程序产品,包含指令,当该计算机程序产品中的指令由电子设备的处理器执行时,实现如上述第一方面中任一种可选的数据处理方法。
[0025]本公开实施例提供的技术方案至少带来以下有益效果:
[0026]上述方案中,电子设备创建多个预设阈值区间,然后获取媒体资源曝光数据中每个媒体资源的标签和每个媒体资源的回传时间,根据媒体资源的回传时间确定出该媒体资源对应的预设阈值区间,按照预设阈值区间的回传规则,回传媒体资源和媒体资源的标签。相较于现有技术中,只设置一个阈值,本公开设置多个预设阈值区间,从而将获取到的媒体资源标签按照预设阈值区间进行分类回传,进一步提升数据处理的实时性,同时,避免了由于媒体资源回传时间较晚,而导致的标签不完整的问题。
[0027]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0028]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取媒体资源曝光数据中每个媒体资源的标签和所述每个媒体资源的回传时间;所述标签用于表征所述媒体资源的样本属性;根据目标媒体资源的回传时间,从多个预设阈值区间中确定所述目标媒体资源对应的目标阈值区间,所述目标媒体资源为所述媒体资源曝光数据中每一媒体资源,所述目标阈值区间为所述多个预设阈值区间中任一预设阈值区间;基于所述目标阈值区间的回传规则,回传所述目标媒体资源和所述目标媒体资源的标签。2.根据权利要求1所述的数据处理方法,其特征在于,还包括:获取历史媒体资源标签的回传时间;对所述历史媒体资源标签的回传时间进行分类处理,得到所述多个预设阈值区间。3.根据权利要求1所述的数据处理方法,其特征在于,还包括:根据所述目标媒体资源对应的目标阈值区间,从多个训练模型中确定所述目标媒体资源对应的目标训练模型;所述目标训练模型为所述多个训练模型中任一训练模型;将所述目标媒体资源和所述目标媒体资源的标签输入所述目标训练模型进行训练,得到目标模型;对所有的所述目标模型进行组合处理,生成预测模型。4.根据权利要求3所述的数据处理方法,其特征在于,还包括:将所述媒体资源曝光数据和用户行为数据输入到所述预测模型中,得到评测指标的预测结果。5.根据权利要求1

4中任一项所述的数据处理方法,其特征在于,所述基于所述目标阈值区间的回传规则,回传所述目标媒体资源和所述目标媒体资源的标签,包括:当处于所述目标阈值区间的结束时间时,回传所述目标媒体资源和所述目标媒体资源的标签。6.根据权利要求1

4中任一项所述的数据处理方法,其特征在于,所述样本属性包括正样本和负样本,...

【专利技术属性】
技术研发人员:李绍哲
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1