基于知识蒸馏的推荐模型配置方法、装置、设备、介质制造方法及图纸

技术编号:34342412 阅读:13 留言:0更新日期:2022-07-31 04:09
本发明专利技术属于人工智能领域,提供了一种基于知识蒸馏的推荐模型配置方法、装置、设备、介质,方法包括:根据教师模型确定的教师推荐分数确定用户样本的正样本集和负样本集;将正样本集和负样本集输入至学生模型得到学生推荐分数;根据学生推荐分数、正样本集和负样本集构建各个用户样本所对应的第一损失函数;调整正物品样本的位置,并确定位置互换后的曝光度损失值;根据曝光度损失值和正样本集构建第二损失函数;根据第二损失函数和第一损失函数确定目标损失函数,并配置至学生模型。根据本实施例的技术方案,能够根据正物品样本位置调整后确定的曝光度损失值构建第二损失函数,减少曝光度对排序靠后的物品样本的影响,提高推荐模型的准确性。模型的准确性。模型的准确性。

【技术实现步骤摘要】
基于知识蒸馏的推荐模型配置方法、装置、设备、介质


[0001]本专利技术属于人工智能
,尤其涉及一种基于知识蒸馏的推荐模型配置方法、装置、设备、介质。

技术介绍

[0002]目前,人工智能技术逐渐应用到各种推荐模型,能够利用用户数据生成个性化推荐列表,在商业网站和信息分发应用中得到广泛应用。但是终端的展示区域有限,在推荐列表的推荐物品较多的情况下,并不能确保各个推荐物品都在展示区域显示。在推荐列表中,位置相近的推荐物品在推荐分数上相近,但是展示区域的推荐物品会更容易被用户看到,从而产生与用户之间的交互数据。推荐模型通常采用知识蒸馏机制,通过教师模型对学生模型进行训练,在获取到推荐物品与用户之间的交互数据之后,教师模型会根据用户行为数据进一步更新推荐分数,非展示区域的推荐物品由于缺少交互数据,曝光度的缺失会导致推荐分数续降低,而学生模型通常以推荐列表作为正样本,导致训练出的学生模型过于偏向展示区域的推荐物品,影响推荐模型的准确性。

技术实现思路

[0003]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0004]本专利技术实施例提供了一种基于知识蒸馏的推荐模型配置方法、装置、设备、介质,能够减少曝光度差异对推荐模型的影响,提高推荐模型的准确性。
[0005]第一方面,本专利技术实施例提供了一种基于知识蒸馏的推荐模型配置方法,包括:将多个用户样本和预先标注好的多个物品样本输入至教师模型进行推荐预测,得到各个所述用户样本的教师评分集,所述教师评分集包括针对各个所述物品样本的教师推荐分数;根据预设规则和所述教师评分集,从全部的所述物品样本中确定各个所述用户样本的正样本集和负样本集,所述正样本集的正物品样本和所述负样本集的负物品样本按照所述教师推荐分数从高到低的顺序排列;将各个所述用户样本的所述正样本集和所述负样本集输入至学生模型进行推荐预测,得到各个所述用户样本的学生评分集,所述学生评分集包括针对各个所述物品样本的学生推荐分数;根据所述学生评分集、所述正样本集和所述负样本集构建各个所述用户样本所对应的第一损失函数;将所述正样本集的所述正物品样本进行两两位置互换,根据所述学生推荐分数确定位置互换后的各个所述正物品样本的曝光度损失值;根据全部的所述正物品样本的所述曝光度损失值和所述正样本集构建第二损失函数;
根据所述第二损失函数和所述第一损失函数确定各个所述用户样本的目标损失函数,并根据全部的所述目标损失函数配置所述学生模型。
[0006]在一些实施例中,所述将所述正样本集的所述正物品样本进行两两位置互换,根据所述学生推荐分数确定位置互换后的各个所述正物品样本的曝光度损失值,包括:根据每个所述正物品样本的位置信息和所述学生推荐分数确定各个所述正物品样本的曝光度值;从所述正样本集中确定用于进行位置互换的第一正物品样本和第二正物品样本;获取所述第一正物品样本的第一曝光度值和预设的第一效用函数;获取所述第二正物品样本的第二曝光度值和预设的第二效用函数;根据所述第一曝光度值、所述第一效用函数、所述第二曝光度值和所述第二效用函数确定所述第一正物品样本和所述第二正物品样本确定所述曝光度损失值。
[0007]在一些实施例中,所述根据全部的所述正物品样本的所述曝光度损失值和所述正样本集构建第二损失函数,包括:确定所述用户样本的曝光度损失和,所述曝光度损失和为所述用户样本所对应的全部所述正物品样本的所述曝光度损失值之和;将全部的所述用户样本的曝光度损失和的均值确定为曝光度参考值;根据所述正样本集和所述曝光度参考值构建所述第二损失函数。
[0008]在一些实施例中,所述根据所述第一曝光度值、所述第一效用函数、所述第二曝光度值和所述第二效用函数确定所述第一正物品样本和所述第二正物品样本确定所述曝光度损失值,包括:根据所述第一效用函数确定所述第一正物品样本的第一物品相关值,通过所述第一物品相关值与所述第二曝光度值得到第一替换曝光度值;根据所述第二效用函数确定所述第二正物品样本的第二物品相关值,通过所述第二物品相关值与所述第一曝光度值得到第二替换曝光度值;根据所述第一替换曝光度值和所述第二替换曝光度值确定所述曝光度损失值。
[0009]在一些实施例中,所述根据预设规则和所述教师评分集,从全部的所述物品样本中确定各个所述用户样本的正样本集和负样本集,包括:根据所述用户样本的所述教师评分集,将所述物品样本按照所述教师推荐得分由高到低进行排序,得到物品排序集;根据预设的第一数量从所述物品排序集中确定多个所述正物品样本,得到所述正样本集;从所述物品排序集中确定所述正样本集的余集,根据预设的第二数量从所述余集中确定多个所述负物品样本,得到所述负样本集。
[0010]在一些实施例中,所述根据预设的第一数量从所述物品排序集中确定多个所述正物品样本,包括:根据预设的第三数量,按照所述教师推荐得分由高到低的顺序从所述物品排序集中获取多个候选物品样本,得到候选物品集;将标注信息中携带有正样本标注的所述候选物品样本确定为所述正物品样本;确定已被确定为所述正物品样本的第四数量,当所述第四数量小于所述第一数
量,根据所述第一数量和所述第四数量的差值从所述候选物品集剩余的所述候选物品样本中获取所述正物品样本。
[0011]在一些实施例中,所述第一损失函数的函数类型至少包括如下之一:耦合损失函数;二分类损失函数;成对损失函数。
[0012]第二方面,本专利技术实施例还提供了一种基于知识蒸馏的推荐模型配置装置,包括:第一预测单元,用于将多个用户样本和预先标注好的多个物品样本输入至教师模型进行推荐预测,得到各个所述用户样本的教师评分集,所述教师评分集包括针对各个所述物品样本的教师推荐分数;样本获取单元,用于根据预设规则和所述教师评分集,从全部的所述物品样本中确定各个所述用户样本的正样本集和负样本集,所述正样本集的正物品样本和所述负样本集的负物品样本按照所述教师推荐分数从高到低的顺序排列;第二预测单元,用于将各个所述用户样本的所述正样本集和所述负样本集输入至学生模型进行推荐预测,得到各个所述用户样本的学生评分集,所述学生评分集包括针对各个所述物品样本的学生推荐分数;第一函数构建单元,用于根据所述学生评分集、所述正样本集和所述负样本集构建各个所述用户样本所对应的第一损失函数;损失计算单元,用于将所述正样本集的所述正物品样本进行两两位置互换,根据所述学生推荐分数确定位置互换后的各个所述正物品样本的曝光度损失值;第二函数构建单元,用于根据全部的所述正物品样本的所述曝光度损失值和所述正样本集构建第二损失函数;模型更新单元,用于根据所述第二损失函数和所述第一损失函数确定各个所述用户样本的目标损失函数,并根据全部的所述目标损失函数配置所述学生模型。
[0013]第三方面,本专利技术实施例提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于知识蒸馏的推荐模型配置方法。
[0014]第四方面,本专利技术实施例提供了一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏的推荐模型配置方法,其特征在于,包括:将多个用户样本和预先标注好的多个物品样本输入至教师模型进行推荐预测,得到各个所述用户样本的教师评分集,所述教师评分集包括针对各个所述物品样本的教师推荐分数;根据预设规则和所述教师评分集,从全部的所述物品样本中确定各个所述用户样本的正样本集和负样本集,所述正样本集的正物品样本和所述负样本集的负物品样本按照所述教师推荐分数从高到低的顺序排列;将各个所述用户样本的所述正样本集和所述负样本集输入至学生模型进行推荐预测,得到各个所述用户样本的学生评分集,所述学生评分集包括针对各个所述物品样本的学生推荐分数;根据所述学生评分集、所述正样本集和所述负样本集构建各个所述用户样本所对应的第一损失函数;将所述正样本集的所述正物品样本进行两两位置互换,根据所述学生推荐分数确定位置互换后的各个所述正物品样本的曝光度损失值;根据全部的所述正物品样本的所述曝光度损失值和所述正样本集构建第二损失函数;根据所述第二损失函数和所述第一损失函数确定各个所述用户样本的目标损失函数,并根据全部的所述目标损失函数配置所述学生模型。2.根据权利要求1所述的基于知识蒸馏的推荐模型配置方法,其特征在于,所述将所述正样本集的所述正物品样本进行两两位置互换,根据所述学生推荐分数确定位置互换后的各个所述正物品样本的曝光度损失值,包括:根据每个所述正物品样本的位置信息和所述学生推荐分数确定各个所述正物品样本的曝光度值;从所述正样本集中确定用于进行位置互换的第一正物品样本和第二正物品样本;获取所述第一正物品样本的第一曝光度值和预设的第一效用函数;获取所述第二正物品样本的第二曝光度值和预设的第二效用函数;根据所述第一曝光度值、所述第一效用函数、所述第二曝光度值和所述第二效用函数确定所述第一正物品样本和所述第二正物品样本确定所述曝光度损失值。3.根据权利要求2所述的基于知识蒸馏的推荐模型配置方法,其特征在于,所述根据全部的所述正物品样本的所述曝光度损失值和所述正样本集构建第二损失函数,包括:确定所述用户样本的曝光度损失和,所述曝光度损失和为所述用户样本所对应的全部所述正物品样本的所述曝光度损失值之和;将全部的所述用户样本的曝光度损失和的均值确定为曝光度参考值;根据所述正样本集和所述曝光度参考值构建所述第二损失函数。4.根据权利要求2所述的基于知识蒸馏的推荐模型配置方法,其特征在于,所述根据所述第一曝光度值、所述第一效用函数、所述第二曝光度值和所述第二效用函数确定所述第一正物品样本和所述第二正物品样本确定所述曝光度损失值,包括:根据所述第一效用函数确定所述第一正物品样本的第一物品相关值,通过所述第一物品相关值与所述第二曝光度值得到第一替换曝光度值;根据所述第二效用函数确定所述第二正物品样本的第二物品相关值,通过所述第二物
品相关值与所述第一曝光度值得到第二替换曝光度值;根据所述第一替换曝光度值和所述第二替换曝光度值确定所述曝光度损失值。5.根据权利要求1所述的基于知识蒸馏的推荐...

【专利技术属性】
技术研发人员:司世景王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1