【技术实现步骤摘要】
一种模型训练方法、装置、设备及存储介质
[0001]本说明书涉及计算机
,尤其涉及一种模型训练方法、装置、设备及存储介质。
技术介绍
[0002]用户通过终端浏览业务平台的信息时,业务平台会将包含有广告以及各推荐信息的推荐列表展示给用户,即,将广告和各推荐信息以混排方式向用户展示。提升广告以及各推荐信息排序的合理性有助于提高推荐系统的推荐效果。
[0003]现有技术中,用于排序广告以及各推荐信息的信息推荐模型通常以用户的历史行为为基础分析用户的偏好,将符合用户偏好的广告和推荐信息排序靠前,以达到提高推荐效果的目的。
[0004]然而,为满足用户的不同需求,现有的业务平台中往往会为用户提供多种不同业务类型的展示页面,这就导致某些业务类型的展示页面的访问量较少,获取到的用户的历史行为也较少,不足以支持训练出符合用户偏好的该业务类型的信息推荐模型,导致推荐效果的降低。
技术实现思路
[0005]本说明书提供一种模型训练方法及装置,以部分的解决现有技术存在的上述问题。
[0006]本说明 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取指定业务类型的历史页面包含的历史推荐信息作为第一训练样本;根据所述第一训练样本,确定所述第一训练样本用于训练目标业务类型对应的信息推荐模型的适配度;根据所述适配度以及所述第一训练样本,确定目标训练样本;根据用户针对所述指定业务类型的历史页面包含的所述目标训练样本的操作结果,确定所述目标训练样本的实际推荐效果表征值;将所述目标训练样本输入到待训练的目标业务类型对应的信息推荐模型中,得到所述待训练的目标业务类型对应的信息推荐模型输出的所述目标训练样本的第一预测推荐效果表征值,以所述目标训练样本的第一预测推荐效果表征值与实际推荐效果表征值之间差异的最小化为训练目标,训练所述待训练的目标业务类型对应的信息推荐模型。2.如权利要求1所述的方法,其特征在于,根据所述第一训练样本,确定所述第一训练样本用于训练目标业务类型对应的信息推荐模型的适配度,具体包括:针对每个第一训练样本,分别确定该第一训练样本的指定奖励分布以及该第一训练样本的目标奖励分布;所述指定奖励分布用于表征所述用户针对所述指定业务类型的若干历史页面中包含的第一训练样本的操作结果;所述目标奖励分布用于表征所述用户针对所述目标业务类型的若干历史页面中包含的第一训练样本的操作结果;根据该第一训练样本的目标奖励分布以及该第一训练样本的指定奖励分布,确定该第一训练样本用于训练目标业务类型对应的信息推荐模型的适配度。3.如权利要求2所述的方法,其特征在于,针对每个第一训练样本,确定该第一训练样本的指定奖励分布,具体包括:将该第一训练样本作为输入,输入所述指定业务类型对应的若干预先训练的奖励确定模型,得到所述指定业务类型对应的各预先训练的奖励确定模型输出的该第一训练样本的指定奖励;根据所述指定业务类型对应的各预先训练的奖励确定模型输出的该第一训练样本的指定奖励,确定该第一训练样本的指定奖励分布。4.如权利要求2所述的方法,其特征在于,针对每个第一训练样本,确定该第一训练样本的目标奖励分布,具体包括:将该第一训练样本作为输入,输入所述目标业务类型对应的若干预先训练的奖励确定模型,得到所述目标业务类型对应的各预先训练的奖励确定模型输出的该第一训练样本的目标奖励;根据所述目标业务类型对应的各预先训练的奖励确定模型输出的该第一训练样本的目标奖励,确定该第一训练样本的目标奖励分布。5.如权利要求1所述的方法,其特征在于,根据所述适配度以及所述第一训练样本,确定目标训练样本,具体包括:获取目标业务类型的历史页面包含的历史推荐信息作为第二训练样本;将所述第二训练样本以及所述适配度高于预设适配度阈值的各第...
【专利技术属性】
技术研发人员:王泽,廖国钢,石晓文,吴晓旭,王永康,王兴星,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。