具有树交互特征的实体级搜索模型制造技术

技术编号:23533782 阅读:30 留言:0更新日期:2020-03-20 08:00
在示例实施例中,梯度提升决策树用于生成树交互特征,该树交互特征对搜索结果的特征的一组决策规则进行编码,并且因此允许特征交互。接着,这些树交互特征可以用作GLMix模型的特征,实质上将非线性注入GLMix模型。

Entity level search model with tree interaction

【技术实现步骤摘要】
具有树交互特征的实体级搜索模型
本公开一般地涉及用于机器学习模型的计算机技术。更加具体地,本公开涉及具有树交互特征的实体级搜索模型。
技术介绍
互联网的兴起引发了两种现象:社交网络的出现的增加,其中,其对应的成员简档对大量人群是可见的,以及求职者和雇主两者对用于工作搜索的社交网络的使用的增加。雇主或者至少是试图联系求职者和雇主的招聘者常常在社交网络上进行搜索以识别具有资格的候选者,所述资格使这些候选者成为其试图填补的任何空缺的职位的良好候选者。接着,雇主或招聘者可以联系这些候选者,以看他们是否有兴趣申请该空缺的职位。附图说明作为示例而非限制,在附图的图中示出了本技术的一些实施例。图1是示出了根据示例实施例的客户端-服务器系统的框图。图2是示出了与本公开的一些实施例一致的社交网络服务的功能性组件的框图,所述功能性组件包括在本文中称为搜索引擎的数据处理模块,其在生成和提供搜索查询的搜索结果时使用。图3是更加详细地示出了图2的应用服务器模块的框图。图4是更加详细地示出了根据示例实施例的候选者排名引擎的框图。图5是示出了根据示例实施例的、具有非线性树交互特征的GLMix模型的管线的框图。图6是示出了根据示例实施例的用于训练GLMix模型的架构的框图。图7是示出了根据示例实施例的梯度提升树的示例的图。图8是示出了根据示例实施例的、在批量同步并行(BSP)范例下对并行化块坐标下降的第k次迭代的框图。图9是示出了根据示例实施例的用于对搜索结果进行排名的方法的流程图。图10是示出了根据示例实施例的显示搜索结果的图形用户界面的屏幕的屏幕捕获。图11是示出了代表性软件架构的框图,该代表性软件架构可以与在本文中所描述的各种硬件架构相结合地使用。图12是示出了根据一些示例实施例的、能够从机器可读介质(例如,机器可读存储介质)读取指令并且执行在本文中所讨论的方法中的任何一个或多个方法的机器的组件的框图。具体实施方式概述本公开描述了单独地提供各种功能的方法、系统、和计算机程序产品等。在以下描述中,出于解释的目的,阐述了许多具体细节以便提供对本公开的不同实施例的各个方面的透彻理解。然而,对本领域的熟练技术人员将显而易见的是,可以在没有所有这些具体细节的情况下实践本公开。社交网络服务在管理在线候选者搜索中遇到的技术问题是:随着经由社交网络服务共享的信息的源数量和容量以前所未有的速度增长,确定如何以最小延迟来提供最合适和最相关的信息变得极具挑战性。这包括例如确定如何优于其他候选者来推荐某些候选者。候选者搜索和其他结果的个性化也是期望的。例如,当招聘者针对“软件工程师”之类的查询执行搜索时,取决于有关招聘者的技能、背景、经验、位置、和其他因素,招聘者将与结果进行交互(例如,通过发送介绍性电子邮件)的几率可能完全不同。还可以在没有用户执行的显式搜索的情况下呈现结果,具体地是以推荐的形式。推荐系统是自动化的计算机程序,其在不同的上下文中将项目向用户进行匹配。为了大规模实现准确的推荐,使用机器学习模型以从用户反馈数据来估计用户偏好。这样的模型是使用从与对象或结果的过去的用户交互所获得的大量高频数据来构造的。历史上,用于响应于查询来对候选者进行排名或者执行其他推荐的模型大量利用从查询和职位发布中提取的基于文本和实体的特征来导出全局排名或推荐。这样的模型的一个示例是广义线性模型(GLM)。GLM是线性回归的一般化,其考虑了具有不是正态分布的误差分布模型的回应变量。GLM通过允许线性模型经由链接函数与回应变量相关并且通过允许每个度量的方差的大小是其经预测的值的函数来将线性回归一般化。GLM可以使用以下预测公式:其中,该公式预测用户i对项目j的回应,xij是特征向量,w是系数向量,是回应的期望,并且g()是链接函数。应当注意的是,在候选者搜索的情况下,所讨论的项目可以是候选者搜索结果,例如对每个候选者当前工作和经历的简要总结。然而,类似的技术可以被应用于其他类型的项目,例如诸如文章、通知、和工作搜索结果等之类的馈送项目。然而,在数据是丰富的场景中,在用户或项目级具有更细粒度的模型将潜在地产生更加准确的预测,这是由于可以更好地捕获用户对项目的个人偏好以及项目对用户的具体吸引力。在预测/推荐系统中更好地捕获用户对项目的个人偏好以及项目对用户的具体吸引力的一种方法将是除了全局回归系数之外还在GLM设置中引入ID级回归系数。这样的解决方案被称为广义线性混合模型(GLMix)。然而,尽管是个性化的,但GLMix模型不允许非线性特征交互。在示例实施例中,使用梯度提升决策树来生成树交互特征,其编码一组决策规则并因此允许特征交互。接着,这些树交互特征可以被用作GLMix模型的特征,以实质上将非线性注入GLMix模型。GLMix模型是对广义线性模型的改进,其中,除了对整体训练数据构建的全局模型之外,还添加了引入针对实体的个性化的实体级模型。对于招聘者的候选者搜索,针对由(r,c,re,ca,co)表示的请求ID、上下文ID、招聘者ID、候选者ID、和合同ID的给定组合的GLMix全局加上关于招聘者(per-recruiter)的加上关于合同(per-contract)的模型,可以表述如下:g(P(r,c,re,ca,co))=βglobal*fall+βre*fall+βco*fall其中,g()是logit函数,P(r,c,re,ca,co)是在给定招聘者re的搜索查询的情况下,候选者ca接受进行通信的电子邮件邀请的概率,其与查询请求r、上下文c、和合同co相关联。应当注意的是,在招聘者字段,合同表示特定雇主与招聘者之间的为空缺的职位查找一个或多个候选者的协议。·右手侧的第一项是全局模型分数,其中,βglobal作为全局模型系数向量,右手侧的第二项是关于招聘者的模型分数,其中,βre作为招聘者re的关于招聘者的模型系数向量,并且右手侧的第三项是关于合同的模型分数,其中,βco作为合同co的关于合同的模型系数向量。·特征集fall由fall=fltrUfxgbUfint构成,其中,fltr是等级2(L2)的学习排名(Learning-To-Rank,LTR)特征的集合,fxgb表示来自预先训练的梯度提升树模型的分数,并且fint表示来自预先训练的梯度提升树模型的树交互特征。作为示例,job_seeker_score(工作_寻求者_分数)是LTR特征中的一个,并且模型可以在一个树中的一个内部节点内生成规则(例如,job_seeker_score>0.7),并且由该模型的树中的叶节点中的一个叶节点所表示的树交互分数是编码到单个规则集合中的多个规则的组合。两个特征集fxgb和fint是基于用于对同一训练集进行评分的预先训练的梯度提升树模型来生成的,该梯度提升树模型考虑特征之间的交互,并且得出非线性树交互特征和最终分数。令训练集为本文档来自技高网...

【技术保护点】
1.一种系统,包括:/n一个或多个处理器;/n具有存储在其上的指令的计算机可读介质,其中,所述指令当由所述一个或多个处理器执行时,使得所述系统进行以下操作:/n响应于在线搜索而获得多个搜索结果;/n为所述多个搜索结果中的每个搜索结果生成第一多个特征;/n为所述多个搜索结果中的每个搜索结果生成第二多个特征;/n将所述第二多个特征馈送到梯度提升决策树中,所述梯度提升决策树包括n个等级的节点,每个节点经由边连接到至少一个其他节点,每个边针对所述第二多个特征中的一个特征来编码不同决策,所述梯度提升决策树编码n-1个决策,产生经编码的叶节点,所述经编码的叶节点描述了针对所述多个搜索结果中的每个搜索结果在所述梯度提升决策树中的所述第二多个特征之间的交互;/n将针对所述多个搜索结果中的每个搜索结果的所述第一多个特征和所述经编码的叶节点馈送到由机器学习算法训练的广义线性混合效应(GLMix)模型中,以为所述多个搜索结果中的每个搜索结果提供相关性分数;/n基于对应的相关性分数来对所述多个搜索结果进行排名;以及/n在图形用户界面中以反映排名的顺序来显示所述搜索结果中的一个或多个搜索结果。/n

【技术特征摘要】
20180823 US 16/110,4341.一种系统,包括:
一个或多个处理器;
具有存储在其上的指令的计算机可读介质,其中,所述指令当由所述一个或多个处理器执行时,使得所述系统进行以下操作:
响应于在线搜索而获得多个搜索结果;
为所述多个搜索结果中的每个搜索结果生成第一多个特征;
为所述多个搜索结果中的每个搜索结果生成第二多个特征;
将所述第二多个特征馈送到梯度提升决策树中,所述梯度提升决策树包括n个等级的节点,每个节点经由边连接到至少一个其他节点,每个边针对所述第二多个特征中的一个特征来编码不同决策,所述梯度提升决策树编码n-1个决策,产生经编码的叶节点,所述经编码的叶节点描述了针对所述多个搜索结果中的每个搜索结果在所述梯度提升决策树中的所述第二多个特征之间的交互;
将针对所述多个搜索结果中的每个搜索结果的所述第一多个特征和所述经编码的叶节点馈送到由机器学习算法训练的广义线性混合效应(GLMix)模型中,以为所述多个搜索结果中的每个搜索结果提供相关性分数;
基于对应的相关性分数来对所述多个搜索结果进行排名;以及
在图形用户界面中以反映排名的顺序来显示所述搜索结果中的一个或多个搜索结果。


2.根据权利要求1所述的系统,其中,所述GLMix模型包括多个模型,所述多个模型包括全局模型和一个或多个随机效应模型。


3.根据权利要求1所述的系统,其中,所述多个搜索结果是社交网络服务中的候选者。


4.根据权利要求3所述的系统,其中,所述第一多个特征是至少部分地从所述候选者的社交网络服务简档生成的。


5.根据权利要求3所述的系统,其中,所述第二多个特征是至少部分地基于与执行得出所述多个搜索结果的搜索的招聘者有关的信息生成的。


6.根据权利要求3所述的系统,其中,所述GLMix模型是通过以下操作训练的:将包括与对应的社交网络服务成员是否接受来自招聘者的通信有关的信息的丰富的训练数据馈送到机器学习算法中,所述丰富的训练数据是通过将训练数据与通过将所述训练数据馈送到所述梯度提升决策树中而产生的经编码的特征进行组合来形成的。


7.根据权利要求1所述的系统,其中,所述GLMix模型是在批量同步并行范例下使用并行化块坐标下降来实现的。


8.一种计算机实现的方法,包括:
响应于在线搜索而获得多个搜索结果;
为所述多个搜索结果中的每个搜索结果生成第一多个特征;
为所述多个搜索结果中的每个搜索结果生成第二多个特征;
将所述第二多个特征馈送到梯度提升决策树中,所述梯度提升决策树包括n个等级的节点,每个节点经由边连接到至少一个其他节点,每个边针对所述第二多个特征中的一个特征来编码不同决策,所述梯度提升决策树编码n-1个决策,产生经编码的叶节点,所述经编码的叶节点描述了针对所述多个搜索结果中的每个搜索结果在所述梯度提升决策树中的所述第二多个特征之间的交互;
将针对所述多个搜索结果中的每个搜索结果的所述第一多个特征和所述经编码的叶节点馈送到由机器学习算法训练的广义线性混合效应(GLMix)模型中,以为所述多个搜索结果中的每个搜索结果提供相关性分数;
基于对应的相关性分数来对所述多个搜索结果进行排名;以及
在图形用户界面中以反映排名的顺序来显示所述搜索结果中的...

【专利技术属性】
技术研发人员:C·厄兹恰拉尔S·C·盖伊克B·施米茨P·夏尔马E·E·布坎南
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1