一种粗排序的方法及装置制造方法及图纸

技术编号:30101206 阅读:16 留言:0更新日期:2021-09-18 09:06
本申请公开了一种粗排序的方法及装置,该方法包括:获取用户的历史条目集合,并根据所述历史条目集合确定所述用户的多种兴趣点信息;获取候选条目集合,并确定所述候选条目集合中各候选条目分别与所述多种兴趣点信息的相关度分数;从所述相关度分数中确定各候选条目的最终相关度分数;根据各候选条目的最终相关度分数,从所述候选条目集合中选取用于进行精排序的目标候选条目。使得选出的目标候选条目与当前用户的历史使用习惯相匹配,用户个性化程度高,提高了粗排阶段筛选目标候选条目的质量和准确度。质量和准确度。质量和准确度。

【技术实现步骤摘要】
一种粗排序的方法及装置


[0001]本申请实施例涉及数据处理
,尤其涉及一种粗排序的方法及装置。

技术介绍

[0002]在搜索、推荐、广告等需要进行大规模排序的场景中,漏斗式的级联排序架构得到了非常广泛的应用,级联排序架构按顺序一般包含召回、粗排、精排、重排序等模块,每个模块的候选条目数目依次减少。
[0003]粗排位于召回和精排之间,需要从上万个候选条目中挑出几百到一千个候选条目送入精排,设计时需要平衡耗时和准确度两方面的因素。一方面,由于耗时要求,粗排模型设计往往比精排简单,相较精排准确度较低;另一方面粗排使用的训练数据是最终由精排选出的曝光数据,而推理预测是面向比训练数据更广泛的数据,造成严重的选择偏见;并且曝光未点击的样本本身属于粗排模型返回的正样本,又将它们作为负样本,导致模型难以学习。这些因素造成了粗排模型预估的不准确性,影响推荐效果。

技术实现思路

[0004]本申请提供一种粗排序的方法及装置,以解决现有技术中在粗排阶段粗排模型预估准确性不高的问题。
[0005]第一方面,本申请实施例提供了一种粗排序的方法,所述方法包括:
[0006]获取用户的历史条目集合,并根据所述历史条目集合确定所述用户的多种兴趣点信息;
[0007]获取候选条目集合,并确定所述候选条目集合中各候选条目分别与所述多种兴趣点信息的相关度分数;
[0008]从所述相关度分数中确定各候选条目的最终相关度分数;
[0009]根据各候选条目的最终相关度分数,从所述候选条目集合中选取用于进行精排序的目标候选条目。
[0010]第二方面,本申请实施例还提供了一种粗排序的装置,所述装置包括:
[0011]历史条目获取模块,用于获取用户的历史条目集合;
[0012]兴趣点信息确定模块,用于根据所述历史条目集合确定所述用户的多种兴趣点信息;
[0013]相关度分数确定模块,用于获取候选条目集合,并确定所述候选条目集合中各候选条目分别与所述多种兴趣点信息的相关度分数;
[0014]最终相关度分数确定模块,用于从所述相关度分数中确定各候选条目的最终相关度分数;
[0015]目标候选条目确定模块,用于根据各候选条目的最终相关度分数,从所述候选条目集合中选取用于进行精排序的目标候选条目。
[0016]第三方面,本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在存
储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面的方法。
[0017]第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面的方法。
[0018]本申请具有如下有益效果:
[0019]在本实施例中,在推荐系统的粗排序阶段考虑了用户的历史条目,并从历史条目集合中有效提取出当前用户的多种兴趣点信息,然后可以计算候选条目集合中各候选条目分别与各种兴趣点信息的相关度分数,并基于上述相关度分数确定各候选条目的最终相关度分数,然后各候选条目的最终相关度分数从候选条目集合中选取用于进行精排序的目标候选条目,使得选出的目标候选条目与当前用户的历史使用习惯相匹配,用户个性化程度高,提高了粗排阶段筛选目标候选条目的质量和准确度,很好地提升了粗排阶段决策目标候选条目的个性化能力,进而提升了推荐系统的推荐效果,从而达到提升用户黏性和产品留存的目的。
[0020]另外,本实施例可以快速提取出与历史条目相关的兴趣点信息,然后基于该兴趣点信息与候选条目的相关性可以获得各候选条目的最终相关性分数,能够满足粗排阶段对于上万级别的候选条目进行打分的需求,提高了打分效率,进而提升了筛选目标候选条目的效率。
附图说明
[0021]图1是本申请实施例一提供的一种粗排序的方法实施例的流程图;
[0022]图2是本申请实施例一提供的一种粗排序框架示意图;
[0023]图3是本申请实施例二提供的一种粗排序的装置实施例的结构框图;
[0024]图4是本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
[0025]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
[0026]实施例一
[0027]图1为本申请实施例一提供的一种粗排序的方法实施例的流程图,本实施例可以应用于推荐系统中,适用于包括新闻、资讯、短视频、音乐、广告等产品的实时个性化推荐场景。
[0028]本实施例可以包括如下步骤:
[0029]步骤110,获取用户的历史条目集合,并根据所述历史条目集合确定所述用户的多种兴趣点信息。
[0030]该步骤中,用户是指当前需要进行个性化推荐的目标账户,其来源可以是系统中所有注册账户中的任一账户,也可以是当前发起请求的账户,或者是根据实际业务需求确定的目标账户,本实施例对此不作限制。
[0031]在一种例子中,历史条目集合中可以包括当前用户在过去一段时间内产生行为的
条目数据(item),例如,将过去一段时间内用户点击过的条目数据放入历史条目集合中。在实现时,可以通过获取当前用户的日志数据,并从日志数据中提取出当前用户的历史条目集合。其中,该条目数据可以包括条目id。
[0032]本实施例可以从用户的历史条目集合中提取出用户的多种兴趣点的兴趣点信息。在一种实施例中,可以依赖于深度学习网络来从用户的历史条目集合中提取兴趣点信息,则步骤110进一步可以包括如下步骤:
[0033]步骤110

1,生成各历史条目的历史条目向量。
[0034]在实现时,系统中可以包括一个向量层(Embedding层),用于将各个条目数据(如条目id)映射为固定维度的稠密向量,即条目向量。该Embedding层的实现可以是一个Embedding模型,例如,可以将每个历史条目的条目id输入至该Embedding模型中,以由该Embedding模型输出当前历史条目id对应的历史条目向量,各历史条目向量用于作为兴趣网络的输入。
[0035]所有历史条目的历史条目向量可以组成历史条目向量集合,即[v1,v2,

,v
n
],v
i
∈R
d
,其中,d表示稠密向量的维度,n表示历史条目的数目。
[0036]步骤110

2,将各历史条目向量输入至预先训练的兴趣网络中,并获得所述兴趣网络输出的多种兴趣点信息。
[0037]其中,该兴趣网络可以为采用深度学习算法(如BP算法)训练得到的深度学习网络,其作用是提取各历史条目的一个或多个兴趣点信息。
[0038]在一种实施例中,兴趣网络可以为MLP网络(多层全连接神经网络),其至少可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种粗排序的方法,其特征在于,所述方法包括:获取用户的历史条目集合,并根据所述历史条目集合确定所述用户的多种兴趣点信息;获取候选条目集合,并确定所述候选条目集合中各候选条目分别与所述多种兴趣点信息的相关度分数;从所述相关度分数中确定各候选条目的最终相关度分数;根据各候选条目的最终相关度分数,从所述候选条目集合中选取用于进行精排序的目标候选条目。2.根据权利要求1所述的方法,其特征在于,所述根据所述历史条目集合确定所述用户的多种兴趣点信息,包括:生成各历史条目的历史条目向量;将各历史条目向量输入至预先训练的兴趣网络中,并获得所述兴趣网络输出的多种兴趣点信息。3.根据权利要求2所述的方法,其特征在于,所述兴趣网络包括第一全连接网络以及第二全连接网络,所述兴趣点信息包括初始兴趣点向量、最终兴趣点向量及兴趣点权重;所述将各历史条目向量输入至预先训练的兴趣网络中,并获得所述兴趣网络输出的多种兴趣点信息,包括:将各历史条目向量分别输入至预先训练的第一全连接网络以及第二全连接网络中,并获得所述第一全连接网络输出的各历史条目向量对应的一个或多个兴趣点的兴趣点权重,以及所述第二全连接网络输出的各历史条目向量对应的一个或多个兴趣点的初始兴趣点向量;根据各历史条目向量对应的一个或多个兴趣点的初始兴趣点向量以及对应的兴趣点权重,确定各兴趣点的最终兴趣点向量。4.根据权利要求3所述的方法,其特征在于,所述根据各历史条目向量对应的一个或多个兴趣点的初始兴趣点向量以及对应的兴趣点权重,确定各兴趣点的最终兴趣点向量,包括:针对每个历史条目向量,将该历史条目向量的各兴趣点权重进行归一化处理;计算各个兴趣点的初始兴趣点向量以及对应的归一化后的兴趣点权重的乘积,获得各个兴趣点的中间兴趣点向量;对所有历史条目中相同的兴趣点的中间兴趣点向量进行汇总,得到各兴趣点的最终兴趣点向量。5.根据权利要求1

【专利技术属性】
技术研发人员:曹成龙杨晚鹏谭怒涛
申请(专利权)人:百果园技术新加坡有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1