【技术实现步骤摘要】
信息推荐模型的训练方法、信息推荐方法和装置
[0001]本公开涉及人工智能
,尤其涉及深度学习、信息推荐、进化策略
,尤其涉及一种信息推荐模型的训练方法、信息推荐方法、装置、电子设备、存储介质和计算机程序产品。
技术介绍
[0002]目前,随着人工智能技术的不断发展,信息推荐模型在产品推荐、网页导航等领域得到了广泛应用,具有效率高、自动化程度高等优点。比如,可将用户数据输入信息推荐模型中,由信息推荐模型输出推荐信息。然而,相关技术中,信息推荐模型的训练存在训练效率低的问题。
技术实现思路
[0003]本公开提供了一种信息推荐模型的训练方法、信息推荐方法、装置、电子设备、存储介质和计算机程序产品。
[0004]根据本公开的一方面,提供了一种信息推荐模型的训练方法,包括:在本轮训练过程中,获取信息推荐模型的n组候选网络参数,其中,n为正整数;基于所述信息推荐模型在之前至少一轮训练过程中的历史训练数据,对每组候选网络参数的奖励进行估计,得到每组候选网络参数的估计奖励;基于每组候选网络参数的估计奖 ...
【技术保护点】
【技术特征摘要】
1.一种信息推荐模型的训练方法,包括:在本轮训练过程中,获取信息推荐模型的n组候选网络参数,其中,n为正整数;基于所述信息推荐模型在之前至少一轮训练过程中的历史训练数据,对每组候选网络参数的奖励进行估计,得到每组候选网络参数的估计奖励;基于每组候选网络参数的估计奖励,从n组候选网络参数中筛选出m组目标网络参数,其中,m为正整数;基于m组目标网络参数,对所述信息推荐模型进行训练。2.根据权利要求1所述的方法,其中,所述获取信息推荐模型的n组候选网络参数,包括:获取所述信息推荐模型的第一组网络参数,其中,所述第一组网络参数是基于上一轮训练过程确定的;对所述第一组网络参数进行加噪处理,得到n组候选网络参数。3.根据权利要求1所述的方法,其中,所述历史训练数据包括s组训练数据,第k组训练数据包括第k组历史网络参数、所述第k组历史网络参数的历史奖励,其中,s为正整数,1≤k≤s,k为正整数;其中,所述基于所述信息推荐模型在之前至少一轮训练过程中的历史训练数据,对每组候选网络参数的奖励进行估计,得到每组候选网络参数的估计奖励,包括:基于所述第k组历史网络参数、所述第k组历史网络参数的历史奖励和第i组候选网络参数,对所述第i组候选网络参数的奖励进行估计,得到所述第i组候选网络参数的第k个估计奖励,其中,1≤i≤n,i为正整数。4.根据权利要求3所述的方法,其中,所述基于所述第k组历史网络参数、所述第k组历史网络参数的历史奖励和第i组候选网络参数,对所述第i组候选网络参数的奖励进行估计,得到所述第i组候选网络参数的第k个估计奖励,包括:获取所述第k组历史网络参数和所述第i组候选网络参数之间的第一协方差;获取所述第k组历史网络参数和所述第k组历史网络参数之间的第二协方差;基于所述第一协方差、所述第二协方差和所述第k组历史网络参数的历史奖励,得到所述第i组候选网络参数的第k个估计奖励。5.根据权利要求1所述的方法,其中,所述基于每组候选网络参数的估计奖励,从n组候选网络参数中筛选出m组目标网络参数,包括:基于第i组候选网络参数的多个估计奖励,得到所述第i组候选网络参数的估计奖励的上限值,其中,1≤i≤n,i为正整数;对n组候选网络参数按照所述估计奖励的上限值进行降序排序;将排序前m个的m组候选网络参数确定为m组目标网络参数。6.根据权利要求5所述的方法,其中,所述基于第i组候选网络参数的多个估计奖励,得到所述第i组候选网络参数的估计奖励的上限值,包括:获取所述第i组候选网络参数的多个估计奖励的平均值;获取所述第i组候选网络参数的多个估计奖励的第一数量,以及n组候选网络参数的多个估计奖励的第二数量;基于所述平均值、所述第一数量和所述第二数量,得到所述第i组候选网络参数的估计
奖励的上限值。7.根据权利要求1
‑
6中任一项所述的方法,其中,所述基于m组目标网络参数,对所述信息推荐模型进行训练,包括:获取所述信息推荐模型在本轮训练过程中的样本用户的样本用户数据;基于第j组目标网络参数对所述信息推荐模型进行更新,并利用更新后的信息推荐模型基于所述样本用户数据,得到所述样本用户对应的推荐信息,其中,1≤j≤m,j为正整数;基于m组目标网络参数对应的推荐信息的反馈奖励,采用进化策略对m组目标网络参数进行更新,生成本轮训练过程确定的第二组网络参数。8.一种信息推荐方法,包括:获取用户的用户数据;将所述用户数据输入信息推荐模型,由所述信息推荐模型输出所述用户对应的推荐信息,其中,所述信息推荐模型采用如权利要求1
‑
7中任一项所述的信息推荐模型的训练方法得到。9.一种信息推荐模型的训练装置,包括:获取模块,用于在本轮训练过程中,获取信息推荐模型的n组候选网络参数,其中,...
【专利技术属性】
技术研发人员:邓罗丹,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。