当前位置: 首页 > 专利查询>邻客音公司专利>正文

用于优化用于学习排序的非凸函数的新探索制造技术

技术编号:12842336 阅读:47 留言:0更新日期:2016-02-11 10:53
公开了用于优化用于学习排序的非凸函数的技术。与一些实施例一致,搜索模块可为一组搜索特征设置次序。该组搜索特征可由排序模型使用,以确定搜索查询中的项目的相关性。此外,搜索模块可向该组​​搜索特征中的第一搜索特征分配第一权重因子。此外,搜索模块可基于分配的第一权重因子而为该搜索查询计算平均倒数排序。此外,搜索模块可使用预设的递增向量而为该组搜索特征中的第二搜索特征确定第二权重因子,以为该搜索查询最大化平均倒数排序。随后,搜索模块可向该组搜索特征中的第二搜索特征分配第二权重因子。

【技术实现步骤摘要】

本文公开的主题一般涉及数据的处理。具体而言,本公开一般涉及用于在排序 (ranking)任务中训练模型的技术。此外,本公开涉及用于使能用于在搜索查询中优化搜索 结果排序的机器学习技术的方法、系统和计算机程序产品。
技术介绍
学习排序是指用于在排序任务中训练排序模型的机器学习技术。排序任务可包括 搜索请求(例如名称搜索)、信息检索、自然语言处理和数据挖掘。 另外,可训练排序模型,以应用用于排序搜索结果的机器学习。例如,学习排序可 在排序模型的结构中为搜索查询的搜索结果应用机器学习。 搜索结果可包括一列项目,该项目具有在每列中的项目之间指定的某种次序。该 次序可基于排序模型。排序模型基于算法确定相关的项目。算法在搜索查询中使用搜索特 征计算项目的相关性。搜索特征可由排序模型经由搜索算法使用和修改,以在搜索查询中 确定项目的相关性。【附图说明】 在附图的图中通过示例的方式而非限制地图示一些实施例。 图1是根据一些示例性实施例的图示适合于社交网络的网络环境的网络图。 图2是根据一些实施例的图示社交网络服务的各种模块的框图。 图3是根据一些示例性实施例的图示搜索算法的流程图。 图4-6是根据一些示例性实施例的图示在执行300的方法中的搜索模块的操作的 流程图。 图7是根据一些示例性实施例的图示机器的组件的框图,所述机器能够从机器可 读介质读取指令并执行本文所讨论的方法中的任何一个或多个。【具体实施方式】 示例性方法和系统针对用于通过使用搜索特征训练排序模型来改进搜索结果的 技术。更具体而言,本公开涉及用于使用搜索特征的机器学习技术的方法、系统和计算机程 序产品以用于优化排序搜索查询的搜索结果。 -些实施例可使用与社交网络服务相关联的搜索特征来优化搜索结果的排 序。使用机器学习技术,可确定每个搜索特征的权重因子以返回更特定于用户的搜索结 果。 示例仅仅例示可能的变化。除非另有明确说明,否则组件和功能是可选的,并且可 被组合或划分,并且操作可顺次变化或被组合或细分。在以下描述中,出于解释的目的,阐 述许多具体的细节,以提供示例性实施例的全面理解。然而,对本领域技术人员将明显的 是:可以没有这些具体细节地实施本主题。 学习排序 如先前所提及,学习排序可以在各种各样的应用(诸如信息检索、语言处理和数据挖 掘)中使用。典型的应用包括文档检索、网络(web)搜索、定义搜索、协同过滤、问答、关键短 语提取、文档摘要和机器翻译。 在网络搜索示例中,机器学习技术可基于搜索特征构造排序模型。另外,大量搜索 日志数据(例如通过数据点击)可被积累为训练数据。可从用于更精确地确定权重因子的搜 索日志数据中导出训练数据。因此,搜索日志数据(例如通过数据点击,PageRank得分)可 用作训练数据,以确定每个搜索特征的相关性。此外,使用训练数据,机器学习技术可为每 个搜索特征将权重因子合并到排序模型中,以便构造排序模型。 用于为名称搜索排序的逻辑回归 用于诸如名称搜索之类的搜索请求的当前实现方式可使用具有L2E则化的逻辑回 归,以防止对于训练数据过度拟合。L2正则化方法可用于模型选择,特别是通过调节到 具有极端参数值的模型而防止过度拟合。L 2正则化可被添加到学习算法,以通过最小化 E(X,Y) + a Ilwll而最小化损失函数,诸如E(X,Y)。w是模型的权重向量,I卜Il是平方L2 范数,而α是可被凭经验调整(例如通过交叉验证)的自由参数。当在线性回归中应用时, L2正则化也可以被称为权重衰变。 逻辑回归可将条件概率建模为:其中X和w是向量。 另外,给定二等训练数据(例如具有L2正则 化的逻辑回归的传统损失函数是 此外,具有L2E则化的逻辑回归的传统损失函数是凸函数。下面进一步描述的凸 函数可具有多个局部最小值和一个实际最小值。因此,由于多个局部最小值,传统的优化技 术可能错误地确定局部最小值是最优解。 凸函数 作为背景,在至少两维的向量空间中,如果函数图上的任何两点之间的线段位于图上 方,在间隔上定义的实值函数f(x)被认为是凸的。例如,对于任何实数X,公知的凸函数是 二次函数f (X) =X2。 具体而言,在其中它们由许多便利属性区分的优化问题的研究中,凸函数可以是 尤其重要的。如先前所提及,在开放集上的凸函数可具有多个局部最小值以及一个实际最 小值,这代表最优解。因此,由于多个局部最小值,传统的优化技术可能错误地确定局部最 小值是最优解。 因此,本文进一步描述的梯度下降技术可用于通过排除局部最小值而找到凸函数 的实际最小值。基于凸函数的实际最小值是正确的最优解的确定,梯度下降技术允许最优 解的精确确定。 梯度下降 作为背景,梯度下降是一阶优化算法。为了使用梯度下降找到函数的局部最小值,学习 算法可在当前点处采取与函数的负梯度(或近似负梯度)的成比例的步骤。 梯度下降基于观察:如果定义f (X)并且在点A的区域中可微,则在A处、在f的 负梯度方向上从A出发的情况下,f(x)最快地下降。由此得出结论,如果对于Y足够小, b = a 'y ▽輯,则f⑷彡f⑶。 心里有了这种观察,对于f的局部最小值,人们以猜想X0开始,并且考虑序列xO, xl,χ2· ··,使得^+1 = ,η 彡 0。 以上两个等式可生成f (X1)彡f (X2)彡f (X3)等等,这可能导致序列χη收敛到希望 的局部最小值。另外,当函数f(x)是凸时,所有的局部最小值还是全局最小值。因此,对于 凸函数,梯度下降可收敛到全局解。然而,在非凸函数中,这种名称搜索、梯度下降技术可能 不收敛到全局解。 平均倒数排序(MRR) 因此,对于学习排序,诸如梯度下降技术之类的经典损失函数可能不是表示排序问题 的最佳函数。具体而言,它可能是在机器学习中优化非凸函数的难题,因为传统的算法可能 陷入局部最小值。因此,性能或排序算法可由MRR指标来测量,以改善我们学习排序模型的 表现。MRR是非凸函数,这由正确结果的排序决定。 在逻辑回归的训练中,为了图示被点击的搜索结果可能简单地意味着:与相同搜 索中的其他结果相比,它是相对地最相关的。当已知搜索特征时,对于将被点击的正确结 果,这可能不暗示实际概率。因此,为了更好地表示排序问题,一些实施例可以代替使用平 均倒数排序(MRR)作为损失函数。 在名称搜索示例中使用MRR,搜索者正在寻找单个具体的人。本专利技术的实施例可使 用一组搜索特征来确定每个搜索结果。另外,一些实施例可用逻辑回归估计将被点击的结 果的概率。 为名称搜索优化MRR 在评估名称搜索中的排序结果时,MRR是重要的指标。MRR可以是用于判断算法的有效 性并比较不同机器学习的排序算法的性能的指标。因此,在一些实例中,学习排序问题可被 重新形成为关于MRR或其他类似指标的优化问题。 作为背景,MRR是用于评估任何过程的统计测量,该过程用列表产生对查询样本的 由正确性概率排列次序的一列可能响应。查询响应的倒数排序是第一正确答案的排序的乘 法逆。对于查询样本Q :平均倒数排序是结果的倒数排序的平均。 当MRR等于1.0时,对于所有搜索,系统实现最优排序。另外,给定MRR取决于结 果的次序,一些实施例可使用MRR优化非凸函数,以确定搜索结果的相关性。此外,本文档来自技高网...

【技术保护点】
一种用于排序搜索特征的计算机实现的方法,该方法包括:在处理器实现的搜索模块处,为一组搜索特征设置次序,该组搜索特征正由排序模型使用以确定搜索查询中项目的相关性;向该组​​搜索特征中的第一搜索特征分配第一权重因子;基于分配的第一权重因子,为该搜索查询计算平均倒数排序;使用预设的递增向量,为该组搜索特征中的第二搜索特征确定第二权重因子,以为该搜索查询最大化平均倒数排序;以及向该组搜索特征中的第二搜索特征分配第二权重因子。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:F肖SD辛哈SP肯杜里R多梅蒂
申请(专利权)人:邻客音公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1