一种面向推荐系统的负采样方法、装置和电子设备制造方法及图纸

技术编号:27612753 阅读:18 留言:0更新日期:2021-03-10 10:39
本发明专利技术公开了一种面向推荐系统的负采样方法、装置和电子设备。该方法包括:对每个正样本对,从表示该正样本对中的用户的节点出发,在推荐系统的二部图的遍历路径上采样第一数量的负样本,生成负样本遍历集合;基于自对比近似法,从所述负样本遍历集合中获取第二数量的负样本,生成负样本候选集合;计算所述负样本候选集合中各负样本的采样权重,以及所述负样本候选集合中各负样本与所述正样本对中的正样本的相似性;根据所述采样权重和相似性对所述负样本候选集合进行负采样,得到与所述正样本对应的第三数量的负样本,并构建对应的负样本对集合。实际应用表明,相较于对比方法,采用本发明专利技术的方案,推荐性能得到了极大提高。推荐性能得到了极大提高。推荐性能得到了极大提高。

【技术实现步骤摘要】
一种面向推荐系统的负采样方法、装置和电子设备


[0001]本专利技术涉及采样
,尤其涉及一种面向推荐系统的负采样方法、装置和电子设备。

技术介绍

[0002]目前,在众多场景中都应用了推荐系统,例如电商商品推荐、学者推荐、广告推荐、网页推荐等。大规模推荐系统中样本数目众多,无法运行每一个正负样本对。负采样技术是许多推荐方法中的一个重要环节,可用于加速模型训练,减小计算复杂度,使得这些推荐方法可以应用于超大规模的推荐系统。因此在推荐系统中非常有必要应用负采样技术。然而采集哪些样本作为负样本,对向量表示的质量有重要影响,从而影响到下游任务的有效性。
[0003]图是一种由节点及边构成的数据结构,广泛地应用于人类的生产生活中。推荐系统可以表示为一个二部图G=(U,V,E),其中U代表一种类型的节点集合,例如电商用户、学者、短视频观众等,V代表另一种类型的节点集合,例如商品、学术文章、短视频等,E表示这两种类型节点之间的连边,表示两者之间是否有交互关系的存在。
[0004]负采样作为图表示学习中的关键技术,具有不可或缺的作用。负采样按照一定的概率分布P
n
采样K个样本去替代所有的N个训练样本去计算softmax,从而将计算复杂度为O(N)的softmax函数转化为计算复杂度为O(K)的sigmoid函数。这样,在训练时,对于每一个训练样本,无需更新所有权重,只需更新一小部分的权重,这对于加速大规模图表示学习的训练速度具有积极作用。然而,负样本的选择也影响着图表示学习的性能。
[0005]目前,在负采样中给定一个正样本对,选择负样本对大多有以下几种方法:Word2Vec将负采样分布设置为词频的3/4,也就是说在负采样时更倾向于选择高频词,而低频词选中的概率较小。BPR提出均匀随机负采样策略,这种采样策略是静态的、全局的,没有考虑到每个节点的个性化。DNS根据当前模型动态地选择负样本,通过选择当前模型预测最高分来选择负样本。IRGAN利用GAN去自适应地选择与正样本对中的第一信息对应的负样本。然而,这些策略都是启发式的,仅用于选择“hard”的负样本,从而影响了推荐系统的推荐性能。

技术实现思路

[0006]本专利技术一方面提供了一种面向推荐系统的负采样方法,包括:
[0007]对每个正样本对,从表示该正样本对中的用户的节点出发,在推荐系统的二部图的遍历路径上采样第一数量的负样本,生成负样本遍历集合;
[0008]基于自对比近似法,从所述负样本遍历集合中获取第二数量的负样本,生成负样本候选集合;
[0009]计算所述负样本候选集合中各负样本的采样权重,以及所述负样本候选集合中各负样本与所述正样本对中的正样本的相似性;
[0010]根据所述采样权重和相似性对所述负样本候选集合进行负采样,得到与所述正样
本对应的第三数量的负样本,并构建对应的负样本对集合。
[0011]优选地,按照下述方式生成所述推荐系统二部图的遍历路径:
[0012]对于每一步遍历,按照ω的概率采用深度优先搜索(DFS)遍历,按照1-ω的概率采用广度优先搜索(BFS)遍历。
[0013]优选地,正样本为曝光且被所述用户点击的样本,负样本为曝光但未被所述用户点击的样本或未曝光的样本。
[0014]优选地,所述基于自对比近似法,从所述负样本遍历集合中获取第二数量的负样本,包括:
[0015]利用如下公式计算所述负样本遍历集合中每个负样本v
n
的概率
[0016][0017]其中,E为给定的用于学习节点的向量表示的编码器,θ为编码器要学习的参数,u为表示用户的节点,v
j
为所述负样本遍历集合中的负样本,C
(M)
为负样本遍历集合,0<α<1;
[0018]根据概率,选取第二数量的负样本。
[0019]优选地,所述计算所述负样本候选集合中各负样本的采样权重包括:
[0020]计算所述负样本候选集合中曝光但未被所述用户点击的样本数量,以该数量的值作为曝光但未被所述用户点击的样本的采样权重;
[0021]将所述负样本候选集合中未曝光的样本的采样权重设为预设值。
[0022]优选地,按照如下方法计算所述负样本候选集合中各负样本v
n
与正样本的相似性:
[0023][0024]其中,q(v
n
|v)为负样本候选集合中各负样本与正样本的相似性,v为所述正样本对中的正样本,v
j
为所述负样本候选集合中的负样本,C
(L)
为负样本候选集合,σ表示sigmoid函数
[0025]优选地,所述根据所述采样权重和相似性对所述负样本候选集合进行负采样,包括:
[0026]对所述负样本候选集合中的各负样本v
n
,根据β(v
n
)
·
p(v
n
|u)
·
q(v
n
|v)的计算结果选取第三数量的负样本;
[0027]其中,β(v
n
)为所述负样本候选集合中的各负样本的采样权重,p(v
n
|u)为所述负样本候选集合中的各负样本的概率,q(v
n
|v)为所述负样本候选集合中的各负样本与正样本的相似性。
[0028]本专利技术第二方面提供了一种面向推荐系统的负采样装置,包括:
[0029]负样本遍历集合生成模块,用于对每个正样本对,从表示该正样本对中的用户的节点出发,在推荐系统的二部图的遍历路径上采样第一数量的负样本,生成负样本遍历集合;
[0030]负样本候选集合生成模块,用于基于自对比近似法,从所述负样本遍历集合中获
取第二数量的负样本,生成负样本候选集合;
[0031]计算模块,用于计算所述负样本候选集合中各负样本的采样权重,以及所述负样本候选集合中各负样本与所述正样本对中的正样本的相似性;
[0032]负样本获取模块,用于根据所述采样权重和相似性对所述负样本候选集合进行负采样,得到与所述正样本对应的第三数量的负样本,并构建对应的负样本对集合。
[0033]本专利技术第三方面提供了一种存储器,存储有多条指令,所述指令用于实现上述的方法。
[0034]本专利技术还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行上述的方法。
[0035]本专利技术的有益效果是:本专利技术提供的面向推荐系统的负采样方法、装置和电子设备,首先通过在推荐系统的二部图的遍历路径上采样第一数量的负样本,生成负样本遍历集合;然后基于自对比近似法,从所述负样本遍历集合中获取第二数量的负样本,生成负样本候选集合;最后根据负样本候选集合中各负样本的采样权重以及负样本与所述正样本对中的正样本的相似性对负样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向推荐系统的负采样方法,其特征在于,包括:对每个正样本对,从表示该正样本对中的用户的节点出发,在推荐系统的二部图的遍历路径上采样第一数量的负样本,生成负样本遍历集合;基于自对比近似法,从所述负样本遍历集合中获取第二数量的负样本,生成负样本候选集合;计算所述负样本候选集合中各负样本的采样权重,以及所述负样本候选集合中各负样本与所述正样本对中的正样本的相似性;根据所述采样权重和相似性对所述负样本候选集合进行负采样,得到与所述正样本对应的第三数量的负样本,并构建对应的负样本对集合。2.如权利要求1所述的面向推荐系统的负采样方法,其特征在于,按照下述方式生成所述推荐系统的二部图的遍历路径:对于每一步遍历,按照ω的概率采用深度优先搜索(DFS)遍历,按照1-ω的概率采用广度优先搜索(BFS)遍历。3.如权利要求1所述的面向推荐系统的负采样方法,其特征在于,正样本为曝光且被所述用户点击的样本,负样本为曝光但未被所述用户点击的样本或未曝光的样本。4.如权利要求3所述的面向推荐系统的负采样方法,其特征在于,所述基于自对比近似法,从所述负样本遍历集合中获取第二数量的负样本,包括:利用如下公式计算所述负样本遍历集合中每个负样本v
n
的概率其中,E为给定的用于学习节点的向量表示的编码器,θ为编码器要学习的参数,u为表示用户的节点,v
j
为所述负样本遍历集合中的负样本,C
(M)
为负样本遍历集合,0<α<1;根据概率,选取第二数量的负样本。5.如权利要求4所述的面向推荐系统的负采样方法,其特征在于,所述计算所述负样本候选集合中各负样本的采样权重包括:计算所述负样本候选集合中曝光但未被所述用户点击的样本数量,以该数量的值作为曝光但未被所述用户点击的样本的采样权重;将所述负样本候选集合中未曝光的样本的采样权重设为预设值。6.如权利要求5所述的面向推荐系统的负采样方法,其特征在于,按照如下方法计算所述负样本候选集合中各负样本v
n
与正样本的相似性:其中,q(v
n<...

【专利技术属性】
技术研发人员:杨珍丁铭邵洲刘德兵张鹏唐杰
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1