数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：27773583 阅读：17 留言：0更新日期：2021-03-23 13:01

本公开关于一种数据处理方法、装置、电子设备及存储介质。其中方法包括：获取待处理视频对应的多个用户行为日志，分别从每个用户行为日志中提取特征数据；所述特征数据包括特征类别；针对每个特征类别，确定当前特征类别的有效度，以及确定当前特征类别的重要度；获取有效度满足预设的第一阈值条件且重要度满足预设的第二阈值条件的特征类别，将获取的特征类别作为所述待处理视频的代表特征类别；所述代表特征类别作为在利用所述待处理视频训练反馈预估模型时所使用的特征类别。本公开一方面代表特征类别相对于全部特征数据的数据量更小，因此能够提高模型训练的效率；另一方面代表特征类别在模型训练中的作用更大，因此利用代表特征类别进行训练能够提高模型的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质
本公开涉及互联网
，尤其涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
随着互联网技术的飞速发展，用户越来越依赖于通过网络获取各种信息。各商家为了推广商品，通常通过互联网进行视频(如广告视频)投放。当用户请求时向用户推荐商家投放的视频。在视频推荐场景下，通过反馈预估模型预估各种反馈信息的技术是非常重要的。在用户的一次请求中，可以通过反馈预估模型预估各视频的点击率、转化率等反馈信息，视频投放引擎根据这些反馈信息选择合适的视频推荐给用户。LR(LogisticRegression，逻辑回归)模型可以作为一种反馈预估模型。但是随着用户数量的迅速增加，用户行为日志的数据存在一个非常明显的特性：场景稀疏，数据海量。场景稀疏即用户在不同场景下的行为是稀疏的，例如一个用户只会对海量的商品视频库中很小一部分视频产生行为，那这些行为记录就是稀疏的。数据海量即用户的行为数据是海量的，例如用户的每一次滑动、点击都会产生一次记录，这就导致每天记录的数据量非常高。针对这种情况LR模型已经不再能够满足需求。因此考虑到DNN模型相对于LR模型更有更好的泛化能力，出现了使用DNN(DeepNeuralNetworks，深度神经网络)模型作为反馈预估模型。在相关技术中，在对DNN模型进行训练时，利用样本视频对应的用户行为日志中的全部特征数据进行训练。但是，由于数据量大，且DNN模型训练本身相对LR模型要慢，因此模型训练效率较低，并且盲目地利用特征数据进行训练还会导致模型...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：/n获取待处理视频对应的多个用户行为日志，分别从每个用户行为日志中提取特征数据；所述特征数据包括特征类别，所述待处理视频为用于训练反馈预估模型的视频；/n针对每个特征类别，确定当前特征类别的有效度，以及确定当前特征类别的重要度；所述有效度用于表征所述当前特征类别与所述反馈预估模型预估的反馈参数的关联程度；所述重要度用于表征所述当前特征类别与所述反馈预估模型对应的曲线下面积AUC参数的关联程度；/n获取有效度满足预设的第一阈值条件且重要度满足预设的第二阈值条件的特征类别，将获取的特征类别作为所述待处理视频的代表特征类别；所述代表特征类别作为在利用所述待处理视频训练所述反馈预估模型时所使用的特征类别。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：
获取待处理视频对应的多个用户行为日志，分别从每个用户行为日志中提取特征数据；所述特征数据包括特征类别，所述待处理视频为用于训练反馈预估模型的视频；
针对每个特征类别，确定当前特征类别的有效度，以及确定当前特征类别的重要度；所述有效度用于表征所述当前特征类别与所述反馈预估模型预估的反馈参数的关联程度；所述重要度用于表征所述当前特征类别与所述反馈预估模型对应的曲线下面积AUC参数的关联程度；
获取有效度满足预设的第一阈值条件且重要度满足预设的第二阈值条件的特征类别，将获取的特征类别作为所述待处理视频的代表特征类别；所述代表特征类别作为在利用所述待处理视频训练所述反馈预估模型时所使用的特征类别。

2.根据权利要求1所述的数据处理方法，其特征在于，所述确定当前特征类别的有效度步骤包括：
计算所述当前特征类别的覆盖率，将所述覆盖率作为所述当前特征类别的有效度；所述覆盖率用于表征所述当前特征类别在所述多个用户行为日志中出现的概率；
所述有效度满足预设的第一阈值条件具体为所述覆盖率大于预设的覆盖率阈值。

3.根据权利要求2所述的数据处理方法，其特征在于，所述计算所述当前特征类别的覆盖率步骤包括：
获取所述当前特征类别在所述多个用户行为日志中出现的次数，以及所述多个用户行为日志的数量；
依据所述当前特征类别在所述多个用户行为日志中出现的次数和所述多个用户行为日志的数量，计算所述当前特征类别的覆盖率。

4.根据权利要求1所述的数据处理方法，其特征在于，所述确定当前特征类别的有效度步骤包括：获取所述当前特征类别对应的反馈率曲线，并获取所述反馈率曲线中预设区间的区分度，将所述区分度作为所述当前特征类别的有效度；所述反馈率用于表征所述当前特征类别在所述多个用户行为日志中出现并且被反馈的概率；所述区分度用于表征所述区间中最大反馈率与最小反馈率的差值；
所述有效度满足预设的第一阈值条件具体为所述区分度大于预设的区分度阈值。

5.根据权利要求4所述的数据处理方法，其特征在于，所述特征数据还包括所述特征类别的特征值；所述获取所述当前特征类别对应的反馈率曲线步骤包括：
如果所述当前特征类别的特征值个数小于预设的数量阈值，则分别获取所述当前特征类别的每个...

【专利技术属性】
技术研发人员：袁德东，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人