数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27773583 阅读:17 留言:0更新日期:2021-03-23 13:01
本公开关于一种数据处理方法、装置、电子设备及存储介质。其中方法包括:获取待处理视频对应的多个用户行为日志,分别从每个用户行为日志中提取特征数据;所述特征数据包括特征类别;针对每个特征类别,确定当前特征类别的有效度,以及确定当前特征类别的重要度;获取有效度满足预设的第一阈值条件且重要度满足预设的第二阈值条件的特征类别,将获取的特征类别作为所述待处理视频的代表特征类别;所述代表特征类别作为在利用所述待处理视频训练反馈预估模型时所使用的特征类别。本公开一方面代表特征类别相对于全部特征数据的数据量更小,因此能够提高模型训练的效率;另一方面代表特征类别在模型训练中的作用更大,因此利用代表特征类别进行训练能够提高模型的准确性。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质
本公开涉及互联网
,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
随着互联网技术的飞速发展,用户越来越依赖于通过网络获取各种信息。各商家为了推广商品,通常通过互联网进行视频(如广告视频)投放。当用户请求时向用户推荐商家投放的视频。在视频推荐场景下,通过反馈预估模型预估各种反馈信息的技术是非常重要的。在用户的一次请求中,可以通过反馈预估模型预估各视频的点击率、转化率等反馈信息,视频投放引擎根据这些反馈信息选择合适的视频推荐给用户。LR(LogisticRegression,逻辑回归)模型可以作为一种反馈预估模型。但是随着用户数量的迅速增加,用户行为日志的数据存在一个非常明显的特性:场景稀疏,数据海量。场景稀疏即用户在不同场景下的行为是稀疏的,例如一个用户只会对海量的商品视频库中很小一部分视频产生行为,那这些行为记录就是稀疏的。数据海量即用户的行为数据是海量的,例如用户的每一次滑动、点击都会产生一次记录,这就导致每天记录的数据量非常高。针对这种情况LR模型已经不再能够满足需求。因此考虑到DNN模型相对于LR模型更有更好的泛化能力,出现了使用DNN(DeepNeuralNetworks,深度神经网络)模型作为反馈预估模型。在相关技术中,在对DNN模型进行训练时,利用样本视频对应的用户行为日志中的全部特征数据进行训练。但是,由于数据量大,且DNN模型训练本身相对LR模型要慢,因此模型训练效率较低,并且盲目地利用特征数据进行训练还会导致模型的准确性较低。
技术实现思路
本公开提供一种数据处理方法、装置、电子设备及存储介质方法、装置及系统,以至少解决相关技术中模型训练效率较低、模型的准确性较低的问题。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种数据处理方法,包括:获取待处理视频对应的多个用户行为日志,分别从每个用户行为日志中提取特征数据;所述特征数据包括特征类别,所述待处理视频为用于训练反馈预估模型的视频;针对每个特征类别,确定当前特征类别的有效度,以及确定当前特征类别的重要度;所述有效度用于表征所述当前特征类别与所述反馈预估模型预估的反馈参数的关联程度;所述重要度用于表征所述当前特征类别与所述反馈预估模型对应的曲线下面积AUC参数的关联程度;获取有效度满足预设的第一阈值条件且重要度满足预设的第二阈值条件的特征类别,将获取的特征类别作为所述待处理视频的代表特征类别;所述代表特征类别作为在利用所述待处理视频训练反馈预估模型时所使用的特征类别。可选地,所述确定当前特征类别的有效度步骤包括:计算所述当前特征类别的覆盖率,将所述覆盖率作为所述当前特征类别的有效度;所述覆盖率用于表征所述当前特征类别在所述多个用户行为日志中出现的概率;所述有效度满足预设的第一阈值条件具体为所述覆盖率大于预设的覆盖率阈值。可选地,所述计算所述当前特征类别的覆盖率步骤包括:获取所述当前特征类别在所述多个用户行为日志中出现的次数,以及所述多个用户行为日志的数量;依据所述当前特征类别在所述多个用户行为日志中出现的次数和所述多个用户行为日志的数量,计算所述当前特征类别的覆盖率。可选地,所述确定当前特征类别的有效度步骤包括:获取所述当前特征类别对应的反馈率曲线,并获取所述反馈率曲线中预设区间的区分度,将所述区分度作为所述当前特征类别的有效度;所述反馈率用于表征所述当前特征类别在所述多个用户行为日志中出现并且被反馈的概率;所述区分度用于表征所述区间中最大反馈率与最小反馈率的差值;所述有效度满足预设的第一阈值条件具体为所述区分度大于预设的区分度阈值。可选地,所述特征数据还包括所述特征类别的特征值;所述获取所述当前特征类别对应的反馈率曲线步骤包括:如果所述当前特征类别的特征值个数小于预设的数量阈值,则分别获取所述当前特征类别的每个特征值对应的反馈率;如果所述当前特征类别的特征值个数大于或等于所述数量阈值,则将所述当前特征类别的特征值划分为多个集合,分别获取每个集合对应的反馈率;依据所述反馈率,生成所述当前特征类别对应的反馈率曲线。可选地,所述分别获取所述当前特征类别的每个特征值对应的反馈率步骤包括:针对所述当前特征类别的每个特征值,获取当前特征值在所述多个用户行为日志中出现的次数,以及当前特征值在所述多个用户行为日志中的反馈次数;依据所述出现的次数和所述反馈次数,确定所述当前特征值对应的反馈率。可选地,所述分别获取每个集合对应的反馈率步骤包括:针对每个集合,获取当前集合中包含的特征值在所述多个用户行为日志中出现的总次数,以及当前集合中包含的特征值在所述多个用户行为日志中的总反馈次数;依据所述出现的总次数和所述总反馈次数,确定所述当前集合对应的反馈率。可选地,所述特征数据还包括所述特征类别的特征值;所述确定当前特征类别的重要度步骤包括:利用所述特征数据对初始深度神经网络模型进行训练;利用训练后的深度神经网络模型对所述待处理视频进行预估,在预估过程中随机替换所述当前特征类别的特征值,获得预估反馈参数;利用所述待处理视频的真实反馈参数和所述预估反馈参数,确定所述替换后的当前特征类别对应的曲线下面积AUC参数,将所述AUC参数作为所述当前特征类别的重要度;所述重要度满足预设的第二阈值条件具体为所述AUC参数小于预设的AUC阈值。可选地,所述特征数据还包括所述特征类别的特征值;在所述将获取的特征类别作为所述待处理视频的代表特征类别步骤之后,还包括:利用所述代表特征类别和所述代表特征类别的特征值对初始深度神经网络模型进行训练,训练完成后得到所述反馈预估模型;在利用所述反馈预估模型对展示的视频进行反馈预估后,对所述展示的视频对应的特征数据进行监控。根据本公开实施例的第二方面,提供一种数据处理装置,包括:提取模块,被配置为执行获取待处理视频对应的多个用户行为日志,分别从每个用户行为日志中提取特征数据;所述特征数据包括特征类别,所述待处理视频为用于训练反馈预估模型的视频;确定模块,被配置为执行针对每个特征类别,确定当前特征类别的有效度,以及确定当前特征类别的重要度;所述有效度用于表征所述当前特征类别与所述反馈预估模型预估的反馈参数的关联程度;所述重要度用于表征所述当前特征类别与所述反馈预估模型对应的曲线下面积AUC参数的关联程度;处理模块,被配置为执行获取有效度满足预设的第一阈值条件且重要度满足预设的第二阈值条件的特征类别,将获取的特征类别作为所述待处理视频的代表特征类别;所述代表特征类别作为在利用所述待处理视频训练反馈预估模型时所使用的特征类别。可选地,所述确定模块包括:计算子模块,被配置为执行计算所述当前特征类别的覆盖率,将所述覆盖率作为所述当前特征类别的有效度;所述覆盖率用于表征所述当前特征类别在所述多个用户行为日志中出现的概率;所述有效度满足预设的第一阈值条件具体为所述覆盖率大于预设的覆盖率阈值。可选地,所述计算子模块包括:参数获取单元,被配置为执行获取本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取待处理视频对应的多个用户行为日志,分别从每个用户行为日志中提取特征数据;所述特征数据包括特征类别,所述待处理视频为用于训练反馈预估模型的视频;/n针对每个特征类别,确定当前特征类别的有效度,以及确定当前特征类别的重要度;所述有效度用于表征所述当前特征类别与所述反馈预估模型预估的反馈参数的关联程度;所述重要度用于表征所述当前特征类别与所述反馈预估模型对应的曲线下面积AUC参数的关联程度;/n获取有效度满足预设的第一阈值条件且重要度满足预设的第二阈值条件的特征类别,将获取的特征类别作为所述待处理视频的代表特征类别;所述代表特征类别作为在利用所述待处理视频训练所述反馈预估模型时所使用的特征类别。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取待处理视频对应的多个用户行为日志,分别从每个用户行为日志中提取特征数据;所述特征数据包括特征类别,所述待处理视频为用于训练反馈预估模型的视频;
针对每个特征类别,确定当前特征类别的有效度,以及确定当前特征类别的重要度;所述有效度用于表征所述当前特征类别与所述反馈预估模型预估的反馈参数的关联程度;所述重要度用于表征所述当前特征类别与所述反馈预估模型对应的曲线下面积AUC参数的关联程度;
获取有效度满足预设的第一阈值条件且重要度满足预设的第二阈值条件的特征类别,将获取的特征类别作为所述待处理视频的代表特征类别;所述代表特征类别作为在利用所述待处理视频训练所述反馈预估模型时所使用的特征类别。


2.根据权利要求1所述的数据处理方法,其特征在于,所述确定当前特征类别的有效度步骤包括:
计算所述当前特征类别的覆盖率,将所述覆盖率作为所述当前特征类别的有效度;所述覆盖率用于表征所述当前特征类别在所述多个用户行为日志中出现的概率;
所述有效度满足预设的第一阈值条件具体为所述覆盖率大于预设的覆盖率阈值。


3.根据权利要求2所述的数据处理方法,其特征在于,所述计算所述当前特征类别的覆盖率步骤包括:
获取所述当前特征类别在所述多个用户行为日志中出现的次数,以及所述多个用户行为日志的数量;
依据所述当前特征类别在所述多个用户行为日志中出现的次数和所述多个用户行为日志的数量,计算所述当前特征类别的覆盖率。


4.根据权利要求1所述的数据处理方法,其特征在于,所述确定当前特征类别的有效度步骤包括:获取所述当前特征类别对应的反馈率曲线,并获取所述反馈率曲线中预设区间的区分度,将所述区分度作为所述当前特征类别的有效度;所述反馈率用于表征所述当前特征类别在所述多个用户行为日志中出现并且被反馈的概率;所述区分度用于表征所述区间中最大反馈率与最小反馈率的差值;
所述有效度满足预设的第一阈值条件具体为所述区分度大于预设的区分度阈值。


5.根据权利要求4所述的数据处理方法,其特征在于,所述特征数据还包括所述特征类别的特征值;所述获取所述当前特征类别对应的反馈率曲线步骤包括:
如果所述当前特征类别的特征值个数小于预设的数量阈值,则分别获取所述当前特征类别的每个...

【专利技术属性】
技术研发人员:袁德东
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1