用于视频推送的点击率预估模型训练方法和系统技术方案

技术编号:33416380 阅读:9 留言:0更新日期:2022-05-19 00:10
本申请提供了一种用于视频推送的点击率预估模型训练方法,包括获取多组训练数据;其中,每组训练数据包括多个视频特征数据和多个用户特征数据;获取每组训练数据的多个组合特征数据;根据所述每组训练数据以及所述每组训练数据的多个组合特征数据,获取与所述每组训练数据对应的特征向量;及根据所述每组训练数据对应的特征向量对待训练模型进行训练,以得到用于视频推送的点击率预估模型。本申请所述的方法可以训练得到高准确度的用于视频推送的点击率预估模型。的点击率预估模型。的点击率预估模型。

【技术实现步骤摘要】
用于视频推送的点击率预估模型训练方法和系统


[0001]本申请实施例涉及计算机
,尤其涉及一种用于视频推送的点击率预估模型训练方法、系统、设备及计算机可读存储介质。

技术介绍

[0002]随着互联网的发展,人们开始借助网络平台进行生活娱乐和各类交易等。如何筛选和推送差异化数据(如,商品或服务数据)给各个用户,成为各方关注的问题。随着机器学习的发展,人们开始借助机器学习进行数据的筛选和推送。例如,通过点击率预估模型预测各个视频的用户点击率,并将合适的视频推送给合适的用户。
[0003]如何训练模型以得到用于视频推送的高准确度的点击率预估模型,成为当前要解决的问题之一。

技术实现思路

[0004]本申请实施例的目的是提供一种用于视频推送的点击率预估模型训练方法、系统、计算机设备及计算机可读存储介质,用于解决如何训练机器学习模型以得到用于视频推送的高准确度的点击率预估模型的技术问题。
[0005]本申请实施例的一个方面提供了一种用于视频推送的点击率预估模型训练方法,所述方法包括:获取多组训练数据;其中,每组训练数据包括多个视频特征数据和多个用户特征数据;获取每组训练数据的多个组合特征数据;其中,所述多个组合特征数据包括多个第一组合特征数据,每个第一组合特征数据为该组训练数据中的其中一个视频特征数据和其中一个用户特征数据组合得到;根据所述每组训练数据以及所述每组训练数据的多个组合特征数据,获取与所述每组训练数据对应的特征向量;及根据所述每组训练数据对应的特征向量对待训练模型进行训练,以得到用于视频推送的点击率预估模型。
[0006]可选的,所述多个视频特征数据包括多个视频类型特征数据;获取每组训练数据的多个组合特征数据,包括:将第i组训练数据中的各个用户特征数据分别与第i组训练数据中的多个视频类型特征数据中的至少一个进行交叉组合,以得到与所述第i组训练数据对应的多个组合特征数据;其中,所述第i组训练数据为所述多组训练数据中的任意一组训练数据。
[0007]可选的,所述视频为推广视频,所述每组训练数据包括推广资源位,且所述多个视频特征数据包括多个视频类型特征数据;获取每组训练数据的多个组合特征数据,包括:将第i组训练数据中的各个用户特征数据分别与第i组训练数据中的多个视频类型特征数据中的至少一个进行交叉组合,以得到与所述第i组训练数据对应的多个第一组合特征数据;其中,所述第i组训练数据为所述多组训练数据中的任意一组训练数据;将所述第i组训练数据中的推广资源位与第i组训练数据中的多个视频类型特征数据中的至少一个进行交叉组合,以得到与所述第i组训练数据对应的第二组合特征数据;及根据所述第i组训练数据对应的多个第一组合特征数据和所述第i组训练数据对应的第二组合特征数据,得到与所
述第i组训练数据对应的多个组合特征数据。
[0008]可选的,所述多个视频特征数据包括所述多个视频类型特征数据和多个视频数值特征数据;根据所述每组训练数据以及所述每组训练数据的多个组合特征数据,获取与所述每组训练数据对应的特征向量,包括:根据所述第i组训练数据中的多个视频数值特征数据和根据所述第i组训练数据得到的所述多个组合特征数据,获取与所述第i组训练数据对应的第i个特征向量。
[0009]可选的,根据所述第i组训练数据中的多个视频数值特征数据和根据所述第i组训练数据得到的所述多个组合特征数据,获取与所述第i组训练数据对应的第i个特征向量,包括:对所述多个视频数值特征数据分别进行等距分桶的离散化处理,以得到相应的多个离散化数值;对每个离散化数值和每个组合特征数据分别进行哈希编码,以得到多个哈希编码值;及根据所述多个哈希编码值,构建所述第i个特征向量。
[0010]可选的,所述多个视频类型特征数据至少包括以下多项:视频标签、分区和视频上传者标识;以及所述多个视频数值特征数据包括视频播放时长和视频播放次数。
[0011]可选的,根据所述每组训练数据对应的特征向量对待训练模型进行训练,包括:引入L1正则项或L2正则项训练所述待训练模型;及在训练过程中,去除L1正则项或L2正则项未选择的非重要特征。
[0012]本申请实施例的一个方面又提供了一种用于视频推送的点击率预估模型训练系统,包括:第一获取模块,用于获取多组训练数据;其中,每组训练数据包括多个视频特征数据和多个用户特征数据;第二获取模块,用于获取每组训练数据的多个组合特征数据;其中,所述多个组合特征数据包括多个第一组合特征数据,每个第一组合特征数据为该组训练数据中的其中一个视频特征数据和其中一个用户特征数据组合得到;第三获取模块,用于根据所述每组训练数据以及所述每组训练数据的多个组合特征数据,获取与所述每组训练数据对应的特征向量;及训练模块,用于根据所述每组训练数据对应的特征向量对待训练模型进行训练,以得到用于视频推送的点击率预估模型。
[0013]本申请实施例的一个方面又提供了一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时用于实现上述用于视频推送的点击率预估模型训练方法的步骤。
[0014]本申请实施例的一个方面又提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行上述用于视频推送的点击率预估模型训练方法的步骤。
[0015]本申请实施例提供的用于视频推送的点击率预估模型训练方法、系统、设备及计算机可读存储介质,可以根据挖掘到的用户特征数据和视频特征数据进行交叉以得到更多组合特征数据并用于模型训练中,从而可以训练得到高准确度的用于视频推送的点击率预估模型。
附图说明
[0016]图1示意性示出了根据本申请实施例的环境应用示意图;
[0017]图2示意性示出了一个示例性的训练框架;
[0018]图3示意性示出了根据本申请实施例一的用于视频推送的点击率预估模型训练方
法的流程图;
[0019]图4为图3中步骤S302的子步骤流程图;
[0020]图5为示例的特征交叉组合方案;
[0021]图6为图3中步骤S302的另一子步骤流程图;
[0022]图7为示例的另一特征交叉组合方案;
[0023]图8为图3中步骤S304的子步骤流程图;
[0024]图9为示例的特征交叉组合的数值化特征;
[0025]图10为图8中步骤S800的子步骤流程图;
[0026]图11为图3中步骤S306的子步骤流程图;
[0027]图12示意性示出了根据本申请实施例二的用于视频推送的点击率预估模型训练方法的框图;以及
[0028]图13示意性示出了根据本申请实施例三的适于实现用于视频推送的点击率预估模型训练方法的计算机设备的硬件架构示意图。
具体实施方式
[0029]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于视频推送的点击率预估模型训练方法,其特征在于,所述方法包括:获取多组训练数据;其中,每组训练数据包括多个视频特征数据和多个用户特征数据;获取每组训练数据的多个组合特征数据;其中,所述多个组合特征数据包括多个第一组合特征数据,每个第一组合特征数据为该组训练数据中的其中一个视频特征数据和其中一个用户特征数据组合得到;根据所述每组训练数据以及所述每组训练数据的多个组合特征数据,获取与所述每组训练数据对应的特征向量;及根据所述每组训练数据对应的特征向量对待训练模型进行训练,以得到用于视频推送的点击率预估模型。2.根据权利要求1所述的用于视频推送的点击率预估模型训练方法,其特征在于,所述多个视频特征数据包括多个视频类型特征数据;获取每组训练数据的多个组合特征数据,包括:将第i组训练数据中的各个用户特征数据分别与第i组训练数据中的多个视频类型特征数据中的至少一个进行交叉组合,以得到与所述第i组训练数据对应的多个组合特征数据;其中,所述第i组训练数据为所述多组训练数据中的任意一组训练数据。3.根据权利要求1所述的用于视频推送的点击率预估模型训练方法,其特征在于,所述视频为推广视频,所述每组训练数据包括推广资源位,且所述多个视频特征数据包括多个视频类型特征数据;获取每组训练数据的多个组合特征数据,包括:将第i组训练数据中的各个用户特征数据分别与第i组训练数据中的多个视频类型特征数据中的至少一个进行交叉组合,以得到与所述第i组训练数据对应的多个第一组合特征数据;其中,所述第i组训练数据为所述多组训练数据中的任意一组训练数据;将所述第i组训练数据中的推广资源位与第i组训练数据中的多个视频类型特征数据中的至少一个进行交叉组合,以得到与所述第i组训练数据对应的第二组合特征数据;及根据所述第i组训练数据对应的多个第一组合特征数据和所述第i组训练数据对应的第二组合特征数据,得到与所述第i组训练数据对应的多个组合特征数据。4.根据权利要求2或3所述的用于视频推送的点击率预估模型训练方法,其特征在于,所述多个视频特征数据包括所述多个视频类型特征数据和多个视频数值特征数据;根据所述每组训练数据以及所述每组训练数据的多个组合特征数据,获取与所述每组训练数据对应的特征向量,包括:根据所述第i组训练数据中的多个视频数值特征数据和根据所述第i组训练数据得到的所述多个组合特征数据,获...

【专利技术属性】
技术研发人员:刘彦君
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1