信息推荐方法、装置、计算机可读存储介质及电子设备制造方法及图纸

技术编号:34609194 阅读:14 留言:0更新日期:2022-08-20 09:14
本申请实施例涉及信息推荐方法、装置、计算机可读存储介质及电子设备,本发明专利技术实施例中,概率预估模型是通过联合学习训练方法训练得到的第一模型和第二模型中的任意一个模型,在联合学习的过程中,对存在噪声的两种训练标签进行了相互修正,最终得到噪声最小化的伪标签,以及基于该伪标签训练得到的第一模型和第二模型。以此,基于联合学习训练方法训练得到的概率预估模型,可以针对待展示信息预测得到更加准确的预测结果,从而更加准确地得到用户针对待推荐信息执行预设操作的概率。基于该预测结果确定待推荐信息,使得待推荐信息更加准确,提高用户对待推荐信息执行预设操作的概率。率。率。

【技术实现步骤摘要】
信息推荐方法、装置、计算机可读存储介质及电子设备


[0001]本申请实施例涉及数据处理
,具体而言,涉及信息推荐方法、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]随着互联网领域的发展,用户可以通过各种平台完成各种各样的业务。目前,大多数平台会向用户推送候选信息,以向用户推荐与用户相关性高的内容,提高用户在相应平台上的驻留时间以及用户的平台体验。
[0003]通常采用的信息推荐方法为:基于用户的历史行为数据,对机器学习模型进行训练,并利用训练得到的模型,对候选信息进行评分,最终确定推荐信息。其中,在机器学习模型的训练过程中,将推荐成功的信息(即用户执行了预设操作的数据)作为正样本,标记评分为1,推荐失败的信息(即用户没有执行预设操作的数据)作为负样本,标记评分为0。然而,实际上推荐失败的信息并不一定与用户完全不相关,也就不能认为该信息的评分一定为0,可见,这种样本的标记方式,会引入大量噪声,从而影响机器学习模型的准确性,进而影响推荐信息的准确性,最终导致推荐失败,浪费推荐资源,影响用户体验。
[0004]由此可见,目前亟需一种更加准确的信息推荐方法。

技术实现思路

[0005]本申请实施例提供的信息推荐方法、装置、计算机可读存储介质及电子设备,旨在提供一种更加准确的信息推荐方法。
[0006]本申请实施例第一方面提供一种信息推荐方法,所述方法包括:
[0007]获取多个待展示信息;
[0008]将所述多个待展示信息分别输入概率预估模型,得到用户针对所述多个待展示信息分别做出预设操作的概率;
[0009]根据用户针对所述多个待展示信息分别做出预设操作的概率,从所述多个待展示信息中确定待推荐信息;
[0010]向所述用户的用户终端推送所述待推荐信息;
[0011]其中,所述概率预估模型为联合学习的第一模型和第二模型中的任一模型,所述第一模型基于为训练样本预先标注的第一类标签进行有监督训练,所述第二模型基于为所述训练样本预先标注的第二类标签进行有监督训练,所述第一类标签的取值为:根据用户对训练样本做出所述预设操作而预先标注的第一值,或,根据用户未对训练样本做出所述预设操作而预先标注的第二值,所述第二类标签的取值为:预先标注的用户对训练样本做出所述预设操作的概率;在联合学习的过程中,根据所述第一模型和所述第二模型各自输出的预测结果,修正为所述训练样本预先标注的标签。
[0012]可选地,在联合学习的过程中,根据所述第一模型和所述第二模型各自输出的预测结果,修正为所述训练样本预先标注的标签,包括:
[0013]根据所述第一模型对预先标注有第一类标签的训练样本的预测结果,确定第一损失值;
[0014]根据所述第一模型对预先标注有第二类标签的所述训练样本的预测结果,确定第二损失值;
[0015]在所述第一损失值与所述第二损失值之间的差值大于预设阈值的情况下,修正为所述训练样本预先标注的标签。
[0016]可选地,在所述第一损失值与所述第二损失值之间的差值大于预设阈值的情况下,修正为所述训练样本预先标注的标签,包括:
[0017]在所述第一损失值小于所述第二损失值的情况下,将为所述训练样本预先标注的标签修正为所述第一类标签;
[0018]在所述第二损失值小于所述第一损失值的情况下,将为所述训练样本预先标注的标签修正为所述第二类标签。
[0019]可选地,在联合学习的过程中,针对所有训练样本,所述第一模型输出预测结果对应的损失值与所述第二模型输出的预测结果对应的损失值之间的差值,均不大于所述预设阈值的情况下,停止修正为所述训练样本预先标注的标签,结束训练,得到所述概率预估模型。
[0020]可选地,所述方法还包括:
[0021]将未被执行所述预设操作的待标注样本输入预先训练的标注模型,得到针对所述待标注样本的第二类标签的取值,所述标注模型的输出表征用户对所述待标注样本做出所述预设操作的概率;
[0022]根据所述针对所述待标注样本的第二类标签的取值,为所述待标注样本标注第二类标签,得到具有第二类标注的训练样本。
[0023]本申请实施例第二方面提供一种信息推荐装置,所述装置包括:
[0024]待展示信息获取模块,用于获取多个待展示信息;
[0025]第一输入模块,用于将所述多个待展示信息分别输入概率预估模型,得到用户针对所述多个待展示信息分别做出预设操作的概率;
[0026]待推荐信息确定模块,用于根据用户针对所述多个待展示信息分别做出预设操作的概率,从所述多个待展示信息中确定待推荐信息;
[0027]推送模块,用于向所述用户的用户终端推送所述待推荐信息;
[0028]其中,所述概率预估模型为联合学习的第一模型和第二模型中的任一模型,所述第一模型基于为训练样本预先标注的第一类标签进行有监督训练,所述第二模型基于为所述训练样本预先标注的第二类标签进行有监督训练,所述第一类标签的取值为:根据用户对训练样本做出所述预设操作而预先标注的第一值,或,根据用户未对训练样本做出所述预设操作而预先标注的第二值,所述第二类标签的取值为:预先标注的用户对训练样本做出所述预设操作的概率;在联合学习的过程中,根据所述第一模型和所述第二模型各自输出的预测结果,修正为所述训练样本预先标注的标签。
[0029]可选地,在联合学习的过程中,根据所述第一模型和所述第二模型各自输出的预测结果,修正为所述训练样本预先标注的标签,包括:
[0030]根据所述第一模型对预先标注有第一类标签的训练样本的预测结果,确定第一损
失值;
[0031]根据所述第一模型对预先标注有第二类标签的所述训练样本的预测结果,确定第二损失值;
[0032]在所述第一损失值与所述第二损失值之间的差值大于预设阈值的情况下,修正为所述训练样本预先标注的标签。
[0033]可选地,在所述第一损失值与所述第二损失值之间的差值大于预设阈值的情况下,修正为所述训练样本预先标注的标签,包括:
[0034]在所述第一损失值小于所述第二损失值的情况下,将为所述训练样本预先标注的标签修正为所述第一类标签;
[0035]在所述第二损失值小于所述第一损失值的情况下,将为所述训练样本预先标注的标签修正为所述第二类标签。
[0036]可选地,在联合学习的过程中,针对所有训练样本,所述第一模型输出预测结果对应的损失值与所述第二模型输出的预测结果对应的损失值之间的差值,均不大于所述预设阈值的情况下,停止修正为所述训练样本预先标注的标签,结束训练,得到所述概率预估模型。
[0037]可选地,所述装置还包括:
[0038]第二输入模块,用于将未被执行所述预设操作的待标注样本输入预先训练的标注模型,得到针对所述待标注样本的第二类标签的取值,所述标注模型的输出表征用户对所述待标注样本做出所述预设操作的概率;
[0039]标注模块,用于根据所述针本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息推荐方法,其特征在于,所述方法包括:获取多个待展示信息;将所述多个待展示信息分别输入概率预估模型,得到用户针对所述多个待展示信息分别做出预设操作的概率;根据用户针对所述多个待展示信息分别做出预设操作的概率,从所述多个待展示信息中确定待推荐信息;向所述用户的用户终端推送所述待推荐信息;其中,所述概率预估模型为联合学习的第一模型和第二模型中的任一模型,所述第一模型基于为训练样本预先标注的第一类标签进行有监督训练,所述第二模型基于为所述训练样本预先标注的第二类标签进行有监督训练,所述第一类标签的取值为:根据用户对训练样本做出所述预设操作而预先标注的第一值,或,根据用户未对训练样本做出所述预设操作而预先标注的第二值,所述第二类标签的取值为:预先标注的用户对训练样本做出所述预设操作的概率;在联合学习的过程中,根据所述第一模型和所述第二模型各自输出的预测结果,修正为所述训练样本预先标注的标签。2.根据权利要求1所述的信息推荐方法,其特征在于,在联合学习的过程中,根据所述第一模型和所述第二模型各自输出的预测结果,修正为所述训练样本预先标注的标签,包括:根据所述第一模型对预先标注有第一类标签的训练样本的预测结果,确定第一损失值;根据所述第一模型对预先标注有第二类标签的所述训练样本的预测结果,确定第二损失值;在所述第一损失值与所述第二损失值之间的差值大于预设阈值的情况下,修正为所述训练样本预先标注的标签。3.根据权利要求2所述的信息推荐方法,其特征在于,在所述第一损失值与所述第二损失值之间的差值大于预设阈值的情况下,修正为所述训练样本预先标注的标签,包括:在所述第一损失值小于所述第二损失值的情况下,将为所述训练样本预先标注的标签修正为所述第一类标签;在所述第二损失值小于所述第一损失值的情况下,将为所述训练样本预先标注的标签修正为所述第二类标签。4.根据权利要求2或3所述的信息推荐方法,其特征在于,在联合学习的过程中,针对所有训练样本,所述第一模型输出预测结果对应的损失值与所述第二模型输出的预测结果对应的损失值之间的差值,均不大于所述预设阈值的情况下,停止修正为所述训练样本预先标注的标签,结束训练,得到所述概率预估模型。5.根据权利要求1所述的信息推荐方法,其特征在于,所述方法还包括:将未被执行所述预设操作的待标注样本输入预先训练的标注模型,得到针对所述待标注样本的第二类标签的取值,所述标注模型的输出表征用户对所述待标注样本做出所述预设操作的概率;根据所述针对所述...

【专利技术属性】
技术研发人员:许婧文彭冲范将科程兵
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1