时长预测模型训练方法、推荐方法、装置、设备及介质制造方法及图纸

技术编号:27685694 阅读:21 留言:0更新日期:2021-03-17 03:54
本申请涉及一种时长预测模型训练方法、推荐方法、装置、设备及介质,方法包括:构建时长预测模型;获取多媒体数据样本库,多媒体数据样本库包括:历史多媒体样本数据,和基于历史多媒体样本数据的标签关联多媒体样本数据;从多媒体数据样本库中抽取预设量的多媒体数据样本,生成多个多媒体数据样本组合;分别对每个多媒体数据样本组合执行以下训练过程:将多媒体数据样本组合输入至时长预测模型,通过时长预测模型,输出多媒体数据样本组合的预测播放时长;计算预测播放时长与验证值的一致率;若一致率大于预设阈值,时长预测模型训练完成。本申请用以解决现有的由于推荐视频内容单一,导致用户观感疲劳,观看时长下降的问题。

【技术实现步骤摘要】
时长预测模型训练方法、推荐方法、装置、设备及介质
本申请涉及计算机
,尤其涉及一种时长预测模型训练方法、推荐方法、装置、设备及介质。
技术介绍
现有的视频类应用程序的首页推荐位是承接用户个性化推荐流量的最大入口,视频类应用程序通过首页推荐位推荐用户感兴趣的视频,用于提高用户的观看时长。现有的推荐位显示的视频,是通过打分模型(pointwise模型)对用户可能感兴趣的视频进行打分,根据分值进行视频推荐。然而,在这个过程中,用户可能感兴趣的视频大多为用户历史观看过的视频,并且用户历史观看过的视频打分较高,因此,导致推荐位显示的大多为用户历史观看过的视频。这种推荐情况下,由于推荐的视频大多为用户历史观看过的视频,推荐内筒单一,导致用户观感疲劳,反而致使推荐位推荐的视频没有提高用户的观看时长。
技术实现思路
本申请提供了一种时长预测模型训练方法、推荐方法、装置、设备及介质,用以解决现有的由于推荐视频内容单一,导致用户观感疲劳,观看时长下降的问题。第一方面,本申请提供了一种时长预测模型的训练方法,包括:构建时长预测模型;获取多媒体数据样本库,所述多媒体数据样本库包括:历史多媒体样本数据,和基于所述历史多媒体样本数据的标签关联多媒体样本数据;从所述多媒体数据样本库中抽取预设量的多媒体数据样本,生成多个多媒体数据样本组合;分别对每个所述多媒体数据样本组合执行以下训练过程:将所述多媒体数据样本组合输入至所述时长预测模型,通过所述时长预测模型,输出所述多媒体数据样本组合的预测播放时长;计算所述预测播放时长与验证值的一致率;若所述一致率大于预设阈值,所述时长预测模型训练完成。可选地,所述多媒体数据样本组合中,所述历史多媒体样本数据的数量占比依次递增。第二方面本申请提供了一种推荐方法,应用于服务器,所述方法包括:获取目标账户的多媒体数据库,所述多媒体数据库包括:与所述目标账户关联的历史多媒体数据,和基于所述历史多媒体数据的标签关联多媒体数据;从所述多媒体数据库中抽取预设量的多媒体数据,生成多个多媒体数据组合;将多个所述多媒体数据组合分别输入至时长预测模型,获得每个所述多媒体数据组合的预测播放时长;根据所述预测播放时长,确定目标多媒体数据内容组合;生成所述目标多媒体数据内容组合的推荐信息,将所述推荐信息发送至所述目标账户对应的客户端设备,以使所述客户端设备显示所述推荐信息。可选地,从所述多媒体数据库中抽取预设量的多媒体数据,生成多个多媒体数据组合,包括:构建第一数据池和第二数据池,所述第一数据池用于存储所述历史多媒体数据,所述第二数据池用于存储所述标签关联多媒体数据;从所述第一数据池中,抽取第一子数量个所述历史多媒体数据,和,从所述第二数据池中,抽取第二子数量个所述标签关联多媒体数据,生成多个所述多媒体数据组合;其中,所述第一子数量与所述第二子数量之和等于所述预设量。可选地,所述多媒体数据组合中,抽取的所述历史多媒体数据的所述第一子数量的占比依次递增。可选地,构建第一数据池和第二数据池之后,还包括:将所述多媒体数据库输入至打分模型,通过所述打分模型分别输出所述历史多媒体数据和所述标签关联多媒体数据对应的分值;根据所述分值,确定每个所述历史多媒体数据和每个所述标签关联多媒体数据的播放概率;根据所述播放概率,从所述多媒体数据库中抽取第一数量的所述历史多媒体数据,存储在所述第一数据池,以及,从所述多媒体数据库中抽取第二数量的所述标签关联多媒体数据,存储在所述第二数据池;其中,所述第一数量的上限大于或等于所述预设量,所述标签关联多媒体数据的第二数量的上限大于或等于所述预设量。可选地,将所述多媒体数据库输入至打分模型之前,还包括:从所述多媒体数据库中,滤除播放占比小于第一预设比值的所述历史多媒体数据,获得第一滤除多媒体数据;所述播放占比为:一条所述历史多媒体数据的已播放时长与未播放时长的比例;滤除第二预设时间段内,所述第一滤除多媒体数据中具有连续关系且播放占比大于第二预设比值的所述历史多媒体数据,获得第二滤除多媒体数据,将所述第二滤除多媒体数据作为所述多媒体数据库。可选地,根据所述预测播放时长,确定目标多媒体数据内容组合,包括:获取所述预测播放时长最长的所述多媒体数据组合;根据所述预测播放时长最长的多媒体数据组合,确定所述目标多媒体数据内容组合。第三方面,本申请提供了一种时长预测模型的训练装置,包括:构建模块,用于构建时长预测模型;获取模块,用于获取多媒体数据样本库,所述多媒体数据样本库包括:历史多媒体样本数据,和基于所述历史多媒体样本数据的标签关联多媒体样本数据;生成模块,用于从所述多媒体数据样本库中抽取预设量的多媒体数据样本,生成多个多媒体数据样本组合;训练模块,用于分别对每个所述多媒体数据样本组合执行以下训练过程:将所述多媒体数据样本组合输入至所述时长预测模型,通过所述时长预测模型,输出所述多媒体数据样本组合的预测播放时长;计算模块,用于计算所述预测播放时长与验证值的一致率;调整模块,用于若所述一致率大于预设阈值,所述时长预测模型训练完成。第四方面,本申请提供了一种推荐装置,包括:获取模块,用于获取目标账户的多媒体数据库,所述多媒体数据库包括:与所述目标账户关联的历史多媒体数据,和基于所述历史多媒体数据的标签关联多媒体数据;生成模块,用于从所述多媒体数据库中抽取预设量的多媒体数据,生成多个多媒体数据组合;预测模块,用于将多个所述多媒体数据组合分别输入至时长预测模型,获得每个所述多媒体数据组合的预测播放时长;确定模块,用于根据所述预测播放时长,确定目标多媒体数据内容组合;推荐模块,用于生成所述目标多媒体数据内容组合的推荐信息,将所述推荐信息发送至所述目标账户对应的客户端设备,以使所述客户端设备显示所述推荐信息。第五方面,本申请提供了一种电子设备,包括:处理器、通信组件、存储器和通信总线,其中,处理器、通信组件和存储器通过通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的时长预测模型的训练方法,和/或,实现第二方面所述的推荐方法。第六方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现实现第一方面所述的时长预测模型的训练方法,和/或,第二方面所述的推荐方法。本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,构建时长预测模型;获取多媒体数据样本库,该多媒体数据样本库包括:历史多媒体样本数据,和基于历史多媒体样本数据的标签关联多媒体样本数据,通过多媒体数据样本库可得,该时长预测模型既能满足用户的追剧诉求,又能满足用户的兴趣发现。进本文档来自技高网...

【技术保护点】
1.一种时长预测模型的训练方法,其特征在于,包括:/n构建时长预测模型;/n获取多媒体数据样本库,所述多媒体数据样本库包括:历史多媒体样本数据,和基于所述历史多媒体样本数据的标签关联多媒体样本数据;/n从所述多媒体数据样本库中抽取预设量的多媒体数据样本,生成多个多媒体数据样本组合;/n分别对每个所述多媒体数据样本组合执行以下训练过程:将所述多媒体数据样本组合输入至所述时长预测模型,通过所述时长预测模型,输出所述多媒体数据样本组合的预测播放时长;/n计算所述预测播放时长与验证值的一致率;/n若所述一致率大于预设阈值,所述时长预测模型训练完成。/n

【技术特征摘要】
1.一种时长预测模型的训练方法,其特征在于,包括:
构建时长预测模型;
获取多媒体数据样本库,所述多媒体数据样本库包括:历史多媒体样本数据,和基于所述历史多媒体样本数据的标签关联多媒体样本数据;
从所述多媒体数据样本库中抽取预设量的多媒体数据样本,生成多个多媒体数据样本组合;
分别对每个所述多媒体数据样本组合执行以下训练过程:将所述多媒体数据样本组合输入至所述时长预测模型,通过所述时长预测模型,输出所述多媒体数据样本组合的预测播放时长;
计算所述预测播放时长与验证值的一致率;
若所述一致率大于预设阈值,所述时长预测模型训练完成。


2.根据权利要求1所述的时长预测模型的训练方法,其特征在于,所述多媒体数据样本组合中,所述历史多媒体样本数据的数量占比依次递增。


3.一种推荐方法,其特征在于,应用于服务器,所述方法包括:
获取目标账户的多媒体数据库,所述多媒体数据库包括:与所述目标账户关联的历史多媒体数据,和基于所述历史多媒体数据的标签关联多媒体数据;
从所述多媒体数据库中抽取预设量的多媒体数据,生成多个多媒体数据组合;
将多个所述多媒体数据组合分别输入至时长预测模型,获得每个所述多媒体数据组合的预测播放时长;
根据所述预测播放时长,确定目标多媒体数据内容组合;
生成所述目标多媒体数据内容组合的推荐信息,将所述推荐信息发送至所述目标账户对应的客户端设备,以使所述客户端设备显示所述推荐信息。


4.根据权利要求3所述的推荐方法,其特征在于,从所述多媒体数据库中抽取预设量的多媒体数据,生成多个多媒体数据组合,包括:
构建第一数据池和第二数据池,所述第一数据池用于存储所述历史多媒体数据,所述第二数据池用于存储所述标签关联多媒体数据;
从所述第一数据池中,抽取第一子数量个所述历史多媒体数据,和,从所述第二数据池中,抽取第二子数量个所述标签关联多媒体数据,生成多个所述多媒体数据组合;
其中,所述第一子数量与所述第二子数量之和等于所述预设量。


5.根据权利要求4所述的推荐方法,其特征在于,所述多媒体数据组合中,抽取的所述历史多媒体数据的所述第一子数量的占比依次递增。


6.根据权利要求5所述的推荐方法,其特征在于,构建第一数据池和第二数据池之后,还包括:
将所述多媒体数据库输入至打分模型,通过所述打分模型分别输出所述历史多媒体数据和所述标签关联多媒体数据对应的分值;
根据所述分值,确定每个所述历史多媒体数据和每个所述标签关联多媒体数据的播放概率;
根据所述播放概率,从所述多媒体数据库中抽取第一数量的所述历史多媒体数据,存储在所述第一数据池,以及,从所述多媒体数据库中抽取第二数量的所述标签关联多媒体数据,存储在所述第二数据池;
其中,所述第一数量的上限大于或等于所述预设量,所述标签关联多媒体数据的第二数量的上限大于或等于所述预设量。


7.根据...

【专利技术属性】
技术研发人员:孙逸
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1