用于机器学习模型的并行化坐标下降法制造技术

技术编号:21548868 阅读:26 留言:0更新日期:2019-07-06 22:01
执行机器学习模型训练过程的迭代直到发生收敛为止。使用第一机器学习算法来训练固定效应机器学习模型。通过将所训练的固定效应机器学习模型的结果与第一组目标结果进行比较来确定固定效应机器学习模型的训练残差。使用第二机器学习算法和固定效应机器学习模型的训练残差来训练第一随机效应机器学习模型。通过将所训练的第一随机效应机器学习模型的结果与第二组目标结果进行比较来确定第一随机效应机器学习模型的训练残差。在每次后续迭代中,对固定效应机器学习模型的训练使用在先前迭代中训练的最后机器学习模型的训练残差。

Parallel coordinate descent method for machine learning model

【技术实现步骤摘要】
用于机器学习模型的并行化坐标下降法相关申请的交叉引用本申请要求享有于2017年12月22日递交的、名称为“GENERALIZEDADDITIVEMIXEDEFFECTMACHINE-LEARNEDMODELSFORCOMPUTERIZEDPREDICTIONS”的美国临时专利申请No.62/610,076的权益,在此通过引用将其全部内容并入本文。
概括地说,本公开内容涉及在计算机网络上提供个性化预测时遇到的技术问题。更具体地说,本公开内容涉及使用用于机器学习模型的并行块坐标下降法。
技术介绍
互联网的出现引起了两个不同但相关的现象:社交网络服务的增加,其中其对应的成员简档对大量的人可见,以及使用这些社交网络服务来执行搜索或获得信息的增加。在社交网络服务上提供的常见搜索或推荐的示例是搜索在社交网络上发布的或由社交网络链接的职位。社交网络服务在管理在线职位搜索中遇到的技术问题在于:随着经由社交网络服务的职位机会的源数量和量以前所未有的速度增长,确定如何以最小延迟来提供最恰当且相关的职位结果变得极具挑战性。对职位搜索和其它结果的个性化也是优选的。例如,当用户搜索如“软件工程师”之类的查询时,取决于关于用户的技能、背景、经验、位置、以及其它因素,用户将与结果进行交互(例如通过申请潜在职位)的可能性会显著不同。例如,与专门研究硬件的人相比,熟练掌握用户界面的人将看到非常不同的一组职位结果。实际上,即使具有相同技能组和当前职位的人也会具有与相同结果进行交互的不同可能性。也可以在用户没有执行明确搜索的情况下呈现结果,特别是以推荐的形式。推荐系统是在不同上下文中将项目与用户进行匹配的自动化计算机程序。为了实现大规模的精确推荐,使用机器学习模型从用户反馈数据中估计用户偏好。使用从用户过去与对象或结果的交互获得的大量高频度数据来构造这种模型。历史上,响应于查询来对职位搜索结果进行排序或执行其它推荐的模型重度利用从查询和职位发布中提取的基于文本和实体的特征来推导出全局排序或推荐。这种模型的示例是广义线性模型(GLM)。GLM是对线性回归的广义化,其允许具有除了正态分布之外的误差分布模型的响应变量。GLM通过允许线性模型经由连结函数与响应变量相关并通过允许每次测量的方差大小是其预测值的函数来对线性回归进行广义化。GLM可以利用以下预测方程:其中该方程预测用户i对项目j的响应,并且xij是特征向量,w是系数向量,是响应的期望值,并且g()是连结函数。然而,在数据充裕的场景中,在用户或项目级具有更细粒度的模型将潜在地得到更精确的预测,因为可以更好地捕获用户对项目的个人偏好以及项目对用户的特定吸引力。附图说明在附图中通过示例而非限制示出了本文技术的一些实施例。图1是根据示例性实施例示出了客户端服务器系统的框图。图2是与本公开内容的一些实施例一致地示出了社交网络服务的功能组件的框图,包括在本文中被称为搜索引擎的数据处理模型,以用于生成并提供针对搜索查询的搜索结果。图3是根据示例性实施例更详细地示出了图2的应用服务器模块的框图。图4是根据示例性实施例更详细地示出了图3的职位发布结果排序引擎的框图。图5是根据示例性实施例示出了在批量同步并行(BSP)范式下的并行化块坐标下降法的第k次迭代的框图。图6是根据示例性实施例示出了用于训练广义加性混合效应模型的方法的流程图。图7是根据示例性实施例示出了用于使用广义加性混合效应模型的方法的流程图。图8是根据示例性实施例示出了用于并行化块坐标下降法的方法的流程图。图9是根据示例性实施例示出了软件架构的框图。图10是根据示例性实施例示出了具有计算机系统形式的机器的图形表示,在该机器内可以执行指令集以使得该机器执行本文所讨论的方法中的任何一种或多种方法。具体实施方式概述本公开内容描述了单独提供各种功能性的方法、系统和计算机程序产品等等。在以下描述中,出于解释的目的,阐述了众多具体细节以便提供对本公开内容的不同实施例的各个方面的透彻理解。然而,对于本领域技术人员将显而易见的是,可以在没有全部具体细节的情况下实践本公开内容。用于在预测/推荐系统中更好地捕获用户对项目的个人偏好以及项目对用户的特别吸引力的一种方法将是引入ID级回归系数以及GLM设置中的全局回归系数。这种解决方案被称为广义线性混合模型(GLMix)。然而,对于具有大量ID级系数的大数据集合,拟合GLMix模型会在计算上具有挑战性,特别是当解决方案缩放时。在示例性实施例中,可缩放性瓶颈通过在批量同步并行(BSP)范式下应用并行化块坐标下降法来克服。这将在下面更详细地描述。另外,在示例性实施例中,通过使用三个模型而不是单个GLMix模型来使预测/推荐甚至更加精确。具体而言,使用三个单独的模型并且随后组合这些模型,而不是具有针对用户和项目有不同系数的单个GLMix模型。这些模型中的每个模型具有不同的粒度和维度。全局模型可对用户属性(例如,来自成员简档或活动历史)与项目属性之间的相似性进行建模。每用户模型(per-usermodel)可以对用户属性和活动历史进行建模。每项目模型(per-itemmodel)可以对项目属性和活动历史进行建模。这种模型可以被称为广义加性混合效应(GAME)模型。在职位搜索结果排序或推荐的上下文中,这得到以下组件:·全局模型,该模型捕获成员如何申请职位的一般行为·特定于成员的模型,该模型具有特定于给定成员的参数(将从数据中学习),以捕获成员的偏离一般行为的个人行为;以及·特定于职位的模型,该模型具有特定于给定职位的参数(将从数据中学习),以捕获职位的偏离一般行为的独特行为。以下是对GAME模型如何实现这种个性化级别的描述。令ymjt表示用户m在上下文t中是否会申请职位j的二进制响应,其中该上下文通常包括显示职位的时间和位置。使用qm来表示用户m的特征向量,该特征向量包括从用户的公开简档提取的特征,例如,成员的职位名称、职位功能、教育历史、行业等等。使用sj来表示职位j的特征向量,该特征向量包括从职位发布提取的特征,例如,职位名称、期望的技能和经验等等。令xmjt表示(m,j,t)三元组的总特征向量,该总特征向量可以包括针对特征级主效应的qm和sj,针对成员和职位特征之间的交互的qm与sj之间的外积,以及上下文的特征。可以假定xmjt不包含成员ID或项目ID作为特征,因为ID将与常规特征不同地对待。用于使用逻辑回归来预测用户m申请职位j的概率的GAME模型是:g(E[ymjt])=x'mjtb+s'jαm+q'mβj其中是连结函数,b是全局系数向量(也被称为固定效应系数);并且αm和βj分别是特定于用户m和职位j的系数向量。αm和βj被称为随机效应系数,这些系数捕获用户m对不同项目特征的个人偏好以及职位j对不同成员特征的吸引力。对于过去具有对不同项目的许多响应的用户m,这能够精确地估计她的个人系数向量αm并提供个性化预测。另一方面,如果用户m没有太多过去的响应数据,则αm的后验均值将接近零,并且针对用户m的模型将回落到全局固定效应分量x'mjtb。同样的行为适用于每职位系数向量βj。图1是根据示例性实施例示出了客户端服务器系统100的框图。联网系统102经由网络104(例如,互联网或广域网(WAN))向一个或本文档来自技高网...

【技术保护点】
1.一种系统,包括:其上存储有指令的计算机可读介质,所述指令在由处理器执行时使得所述系统进行以下操作:执行对机器学习模型训练过程的一次或多次迭代,所述一次或多次迭代持续到满足收敛测试为止,每次迭代包括:使用第一机器学习算法来训练固定效应机器学习模型;通过将所训练的固定效应机器学习模型的结果与第一组目标结果进行比较来确定所述固定效应机器学习模型的训练残差;使用第二机器学习算法和所述固定效应机器学习模型的训练残差来训练第一随机效应机器学习模型;以及通过将所训练的第一随机效应机器学习模型的结果与第二组目标结果进行比较来确定所述第一随机效应机器学习模型的训练残差;并且其中,在每次后续迭代中,对所述固定效应机器学习模型的训练使用在先前迭代中训练的最后机器学习模型的训练残差。

【技术特征摘要】
2017.12.22 US 62/610,076;2018.01.24 US 15/879,3161.一种系统,包括:其上存储有指令的计算机可读介质,所述指令在由处理器执行时使得所述系统进行以下操作:执行对机器学习模型训练过程的一次或多次迭代,所述一次或多次迭代持续到满足收敛测试为止,每次迭代包括:使用第一机器学习算法来训练固定效应机器学习模型;通过将所训练的固定效应机器学习模型的结果与第一组目标结果进行比较来确定所述固定效应机器学习模型的训练残差;使用第二机器学习算法和所述固定效应机器学习模型的训练残差来训练第一随机效应机器学习模型;以及通过将所训练的第一随机效应机器学习模型的结果与第二组目标结果进行比较来确定所述第一随机效应机器学习模型的训练残差;并且其中,在每次后续迭代中,对所述固定效应机器学习模型的训练使用在先前迭代中训练的最后机器学习模型的训练残差。2.根据权利要求1所述的系统,其中,每次迭代还包括:使用第三机器学习算法和所述第一随机效应机器学习模型的训练残差来训练第二随机效应机器学习模型;以及通过将所训练的第二随机效应机器学习模型的结果与第三组目标结果进行比较来确定所述第二随机效应机器学习模型的训练残差。3.根据权利要求1所述的系统,其中,所述第一机器学习算法和所述第二机器学习算法是线性的。4.根据权利要求1所述的系统,其中,所述第一机器学习算法和所述第二机器学习算法是非线性的。5.根据权利要求1所述的系统,其中,所述第一机器学习算法和所述第二机器学习算法中的一种算法是线性的,并且所述第一机器学习算法和所述第二机器学习算法中的另一种算法是非线性的。6.根据权利要求1所述的系统,其中,经由对所述随机效应机器学习模型的训练而学习的随机效应系数不是跨集群中的多个计算节点来发送的。7.根据权利要求1所述的系统,其中,每次迭代使用批量同步并行(BSP)范式。8.一种方法,包括:执行对机器学习模型训练过程的一次或多次迭代,所述一次或多次迭代持续到满足收敛测试为止,每次迭代包括:使用第一机器学习算法来训练固定效应机器学习模型;通过将所训练的固定效应机器学习模型的结果与第一组目标结果进行比较来确定所述固定效应机器学习模型的训练残差;使用第二机器学习算法和所述固定效应机器学习模型的训练残差来训练第一随机效应机器学习模型;以及通过将所训练的第一随机效应机器学习模型的结果与第二组目标结果进行比较来确定所述第一随机效应机器学习模型的训练残差;并且其中,在每次后续迭代中,对所述固定效应机器学习模型的训练使用在先前迭代中训练的最后机器学习模型的训练残差。9.根据权利要求8所述的方法,其中,每次迭代还包括:使...

【专利技术属性】
技术研发人员:BC·陈D·阿加瓦尔A·舍尔科夫尼科夫J·弗莱明马一鸣
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1