【技术实现步骤摘要】
多媒体资源推荐模型的训练方法、装置、设备及存储介质
[0001]本公开涉及计算机
,特别涉及一种多媒体资源推荐模型的训练方法、装置、设备及存储介质。
技术介绍
[0002]随着互联网技术的发展,大多数应用程序能通过多媒体资源推荐系统为用户推荐各种类型的多媒体资源,如视频、音频、新闻资讯、物品等,来满足用户的不同兴趣。为了追求用户的对多媒体资源推荐系统的长期满意度,可以将离线强化学习引入到多媒体资源推荐系统中。离线强化学习的核心思想是利用历史数据(用户与多媒体资源的历史交互记录)对多媒体资源推荐模型进行训练。然而,由于历史数据中多媒体资源的类型繁多,不同类型的多媒体资源的数量分布不均匀,因此对于数量较少的某个类型的多媒体资源,多媒体资源推荐模型的预测结果具有不确定性。其中,不确定性是指不确定用户是否对多媒体资源推荐模型推荐的多媒体资源感兴趣。那么如何解决多媒体资源推荐模型对历史数据中数量较少的多媒体资源的预测结果的不确定性的问题,是推荐领域的研究重点。
[0003]相关技术中,通常在离线强化学习中引入保守的推荐策 ...
【技术保护点】
【技术特征摘要】
1.一种多媒体资源推荐模型的训练方法,其特征在于,所述方法包括:获取集成预测模型,所述集成预测模型基于历史数据训练得到,所述历史数据包括多个样本对象的对象特征、多个样本多媒体资源的多媒体资源特征以及所述多个样本对象与所述多个样本多媒体资源的历史交互行为,所述集成预测模型用于预测对象与多媒体资源的交互行为;基于所述集成预测模型,对目标对象的对象特征和目标多媒体资源的多媒体资源特征进行预测,得到所述目标对象对所述目标多媒体资源的第一反馈值和所述第一反馈值的第一惩罚度,所述目标对象为所述多个样本对象中的任一对象,所述目标多媒体资源为所述多个样本多媒体资源中多媒体资源推荐模型向所述目标对象推荐的样本多媒体资源,所述第一反馈值用于指示所述目标对象与所述目标多媒体资源的预测交互行为,所述第一惩罚度用于指示所述第一反馈值的离散程度,所述多媒体资源推荐模型用于预测向对象推荐的多媒体资源;基于所述第一惩罚度和所述第一反馈值的第二惩罚度,对所述第一反馈值进行调整,所述第二惩罚度用于指示在所述多个样本多媒体资源中所述目标多媒体资源出现的随机程度;基于调整后的所述第一反馈值、所述目标对象的对象特征以及所述目标多媒体资源的多媒体资源特征,训练所述多媒体资源推荐模型。2.根据权利要求1所述的多媒体资源推荐模型的训练方法,其特征在于,所述集成预测模型包括多个高斯概率模型,所述高斯概率模型用于预测对象对多媒体资源的反馈值的分布情况;所述基于所述集成预测模型,对目标对象的对象特征和目标多媒体资源的多媒体资源特征进行预测,得到所述目标对象对所述目标多媒体资源的第一反馈值和所述第一反馈值的第一惩罚度,包括:对于任一高斯概率模型,基于所述高斯概率模型,对所述目标对象的对象特征和所述目标多媒体资源的多媒体资源特征进行预测,得到所述目标对象对所述目标多媒体资源的第二反馈值的均值和方差,所述第二反馈值用于指示所述目标对象对所述目标多媒体资源的初始交互行为;将所述第二反馈值的多个均值的平均值确定为所述第一反馈值;将所述第二反馈值的多个方差的最大值确定为所述第一惩罚度。3.根据权利要求2所述的多媒体资源推荐模型的训练方法,其特征在于,所述方法还包括:对于任一高斯概率模型,基于所述高斯概率模型,对所述多个样本对象的对象特征和所述多个样本多媒体资源的多媒体资源特征进行预测,得到所述多个样本对象对所述多个样本多媒体资源的第三反馈值的均值和方差,所述第三反馈值用于指示所述样本对象与所述样本多媒体资源的预测交互行为;基于所述多个样本对象与所述多个样本多媒体资源的历史交互行为、所述第三反馈值的均值以及所述第三反馈值的方差,确定所述高斯概率模型的训练损失,所述训练损失用于指示所述历史交互行为与所述预测交互行为之间的差异;基于所述训练损失,更新所述高斯概率模型的模型参数。
4.根据权利要求1所述的多媒体资源推荐模型的训练方法,其特征在于,所述方法还包括:基于所述目标对象的对象标识,从所述历史数据中确定与所述对象标识关联的样本多媒体资源;基于所述样本多媒体资源和所述目标多媒体资源,确定所述多媒体资源推荐模型的相对熵,所述相对熵用于指示所述目标多媒体资源和所述样本多媒体资源之间的差异;基于所述相对熵,确定所述第二惩罚度,所述相对熵与所述第二惩罚度正相关。5.根据权利要求4所述的多媒体资源推荐模型的训练方法,其特...
【专利技术属性】
技术研发人员:高崇铭,黄科鑫,陈佳伟,张元,李彪,江鹏,张众,王诗琦,何向南,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。