【技术实现步骤摘要】
一种推荐模型训练方法及装置
[0001]本公开涉及计算机
,尤其涉及大数据和深度学习
技术介绍
[0002]视频流推荐系统中的排序模块通常针对点击率、完播率、互动数目等多目标建模优化,多目标的融合成为多目标建模后重要的一环,融合不同目标进而对视频资源进行打分排序,直接决定最终的推荐结果。
技术实现思路
[0003]本公开提供了一种推荐模型训练方法及装置。
[0004]根据本公开的一方面,提供了一种推荐模型训练方法,包括:
[0005]获取多目标融合推荐模型,所述多目标融合推荐模型包含多个待调整的模型参数;
[0006]将当前的模型参数确定为验证参数,在所述验证参数的基础上,叠加多组不同的参数扰动,得到多组探索参数;
[0007]获取每组探索参数对应的用户反馈数据和推荐视频场景数据,并获取所述验证参数对应的用户反馈数据和推荐视频场景数据;
[0008]针对每组探索参数,根据该组探索参数对应的用户反馈数据和所述验证参数对应的用户反馈数据计算用户反馈奖励值,并 ...
【技术保护点】
【技术特征摘要】
1.一种推荐模型训练方法,包括:获取多目标融合推荐模型,所述多目标融合推荐模型包含多个待调整的模型参数;将当前的模型参数确定为验证参数,在所述验证参数的基础上,叠加多组不同的参数扰动,得到多组探索参数;获取每组探索参数对应的用户反馈数据和推荐视频场景数据,并获取所述验证参数对应的用户反馈数据和推荐视频场景数据;针对每组探索参数,根据该组探索参数对应的用户反馈数据和所述验证参数对应的用户反馈数据计算用户反馈奖励值,并根据该组探索参数对应的推荐视频场景数据和所述验证参数对应的推荐视频场景数据计算视频推荐场景奖励值;针对每组探索参数,基于该组探索参数对应的用户反馈奖励值和视频推荐场景奖励值计算总奖励值;根据所述总奖励值确定优选探索参数,并根据所述优选探索参数对应的参数扰动调整所述模型参数。2.根据权利要求1所述的方法,其中,所述根据该组探索参数对应的用户反馈数据和所述验证参数对应的用户反馈数据计算用户反馈奖励值的步骤,包括:获取该组探索参数对应的探索组用户针对预设多种类型视频入口下的推荐视频的第一用户反馈数据;获取所述验证参数对应的验证组用户针对预设多种类型视频入口下的推荐视频的第二用户反馈数据;确定每种类型视频入口下所述第一用户反馈数据和所述第二用户反馈数据的反馈数据差值,并基于所述反馈数据差值计算该类型视频入口下的用户反馈奖励值;叠加不同类型视频入口下的用户反馈奖励值,得到该组探索参数对应的用户反馈奖励值。3.根据权利要求1或2所述的方法,其中,所述用户反馈数据包括:用户针对推荐视频的浏览时长、浏览数目和/或互动数目。4.根据权利要求1所述的方法,其中,所述根据该组探索参数对应的推荐视频场景数据和所述验证参数对应的推荐视频场景数据计算视频推荐场景奖励值的步骤,包括:获取该组探索参数对应的探索组用户的预设多种类型视频入口下的第一推荐视频场景数据;获取所述验证参数对应的验证组用户的预设多种类型视频入口下的第二推荐视频场景数据;确定每种类型视频入口下所述第一推荐视频场景数据和所述第二推荐视频场景数据的视频场景数据差值,并基于所述视频场景数据差值计算该类型视频入口下的视频推荐场景奖励值;叠加不同类型视频入口下的视频推荐场景奖励值,得到该组探索参数对应的视频推荐场景奖励值。5.根据权利要求1或4所述的方法,其中,所述推荐视频场景数据包括:推荐视频的视频类型比例、视频物理时长、视频垂类比例和/或作者生态比例。6.根据权利要求5所述的方法,还包括:分别设定视频类型比例、视频物理时长、视频垂
类比例和/或作者生态比例的目标期望范围,并分别设定视频类型比例、视频物理时长、视频垂类比例和/或作者生态比例的奖励权重;在获取该组探索参数对应的探索组用户的预设多种类型视频入口下的第一推荐视频场景数据之后,还包括:针对每种类型视频入口下的第一推荐视频场景数据,根据视频类型比例、视频物理时长、视频垂类比例和/或作者生态比例与预先设定的目标期望范围的偏差关系,分别确定视频类型比例、视频物理时长、视频垂类比例和/或作者生态比例的奖励权重;其中,若视频类型比例、视频物理时长、视频垂类比例和/或作者生态比例在预先设定的目标期望范围之内,确定视频类型比例、视频物理时长、视频垂类比例和/或作者生态比例的奖励权重为正值;若视频类型比例、视频物理时长、视频垂类比例和/或作者生态比例不在预先设定的目标期望范围之内,分别确定视频类型比例、视频物理时长、视频垂类比例和/或作者生态比例与预设设定的目标期望范围的偏差值;确定视频类型比例、视频物理时长、视频垂类比例和/或作者生态比例的奖励权重为负值,且奖励权重的绝对值与所述偏差值正相关。7.根据权利要求6所述的方法,其中,所述确定每种类型视频入口下所述第一推荐视频场景数据和所述第二推荐视频场景数据的视频场景数据差值,并基于所述视频场景数据差值计算该类型视频入口下的视频推荐场景奖励值的步骤,包括:确定每种类型视频入口下所述第一推荐视频场景数据和所述第二推荐视频场景数据的视频场景数据差值;基于所述视频场景数据差值,以及所述第一推荐视频场景数据中视频类型比例、视频物理时长、视频垂类比例和/或作者生态比例的奖励权重,计算该类型视频入口下的视频推荐场景奖励值。8.根据权利要求6
‑
7任一项所述的方法,其中,不同类型视频入口下设定的视频类型比例和/或视频物理时长的目标期望范围不同。9.一种视频推荐方法,包括:确定目标用户和候选视频;根据所述目标用户和每一候选视频,确定融合因子和融合特征;将所述融合因子和融合特征输入预先训练的多目标融合推荐模型,得到每一候选视频的推荐分数;基于所述推荐分数为所述目标用户推荐候选视频。10.一种推荐模型训练装置,包括:第一获取模块,用于获取多目标融合推荐模型,所述多目标融合推荐模型包含多个待调整的模型参数;扰动模块,用于将当前的模型参数确定为验证参数,在所述验证参数的基础上,叠加多组不同的参数扰动,得到多组探索...
【专利技术属性】
技术研发人员:贺甜甜,胡元元,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。