预测搜索引擎排名信号值制造技术

技术编号:21637484 阅读:29 留言:0更新日期:2019-07-17 14:01
用于扩增搜索引擎索引的方法、系统和设备,包括被编码在计算机存储介质上的计算机程序,所述搜索引擎索引对来自资源集合的资源进行索引。在一个方面中,扩增对来自资源集合的资源进行索引的搜索引擎索引的方法包括以下所述动作:在所述资源集合中识别资源,所述资源在所述搜索引擎索引中被索引并且所述资源的搜索引擎排名信号的值不可用;使用机器学习模型处理来自所述资源的数据,所述机器学习模型被配置为:处理所述数据以预测所述资源的所述搜索引擎排名信号的值;以及通过将所述搜索引擎排名信号的预测值与所述搜索引擎索引中的所述资源相关联来更新所述搜索引擎索引。

Predicting Search Engine Ranking Signal Value

【技术实现步骤摘要】
【国外来华专利技术】预测搜索引擎排名信号值
本说明书通常涉及训练机器学习模型,该机器学习模型预测被索引在搜索系统的索引数据库中的资源的搜索引擎排名信号的值。
技术介绍
在线搜索引擎通常响应于接收到的搜索查询而对资源进行排名,以呈现识别响应于搜索查询的资源的搜索结果。搜索引擎通常按照由排名限定的顺序来呈现搜索结果。搜索引擎可以基于各种因素(即,基于各种搜索引擎排名信号)并且使用各种排名技术来对资源进行排名。
技术实现思路
本说明书描述了机器学习被集成到搜索引擎索引过程中的各种实施方式。描述了为在搜索系统的索引数据库中被索引的资源生成搜索引擎排名信号的值的技术。通常,本说明书中所描述的主题的一个创新方面可以体现在方法中,该方法扩增对来自第一资源集合的资源进行索引的第一搜索引擎索引。该方法包括:在第一资源集合中识别第一资源,该第一资源在第一搜索引擎索引中被索引并且该第一资源的搜索引擎排名信号的值不可用,其中,搜索引擎在响应于接收到的搜索查询而对资源进行排名时使用搜索引擎排名信号的值;使用机器学习模型处理来自第一资源的数据,该机器学习模型被配置为:处理数据以预测第一资源的搜索引擎排名信号的值;以及通过将搜索引擎排名信号的预测值与第一搜索引擎索引中的第一资源相关联来更新第一搜索引擎索引。来自第一资源的数据可以包括文本。该方面的其它实施例包括对应计算机系统、设备和记录在一个或多个计算机存储装置上的计算机程序,每个计算机系统、设备和计算机程序都被配置为执行方法的动作。一个或多个计算机的系统被配置为执行特定操作或动作意味着系统已经在其上安装了软件、固件、硬件或其组合,其在操作中使系统执行操作或动作。一个或多个计算机程序被配置为执行特定操作或动作意味着一个或多个程序包括在由数据处理设备执行时使设备执行操作或行动的指令。可选地,前述和其它实施例可以分别单独地或组合地包括以下特征中的一个或多个。具体地,一个实施例组合地包括所有以下特征。该方法进一步包括:从索引第二资源集合的第二搜索引擎索引识别多个第二资源,该第二资源中的每一个在第二搜索引擎索引中与第二资源的搜索引擎排名信号的相应值相关联;生成训练数据,该训练数据针对多个第二资源中的每一个包括:第二资源的数据(例如,文本),以及第二资源的搜索引擎排名信号的相应值;以及在训练数据上训练机器学习模型。第二资源集合是互联网资源的集合。第一资源集合与第二资源集合不同。第一资源集合是特定于实体的资源的集合。第一资源的搜索引擎排名信号的预测值包括用户将提交给搜索引擎以搜索第一资源的一个或多个搜索查询。机器学习模型包括:编码器神经网络,该编码器神经网络被配置为处理第一资源的数据(例如,文本)以生成第一资源的编码表示;以及第一解码器神经网络,该第一解码器神经网络被配置为使用第一资源的编码表示生成搜索引擎排名信号的预测值。搜索引擎在响应于接收到的搜索查询而对资源进行排名时也使用的第二搜索引擎排名信号的值对于第一资源也不可用,以及其中,该方法进一步包括:使用第二解码器神经网络处理第一资源的编码表示,该第二解码器神经网络被配置为使用第一资源的编码表示生成第二搜索引擎排名信号的预测值。通常,本说明书中所描述的主题的另一创新方面可以体现在方法中,该方法扩增对来自第一资源集合的资源进行索引的第一搜索引擎索引。该方法包括:从索引第一资源集合的第一搜索引擎索引识别多个第一资源,该第一资源中的每一个在第一搜索引擎索引中与第一资源的搜索引擎排名信号的相应值相关联;生成训练数据,该训练数据针对多个第一资源中的每一个包括:第一资源的数据(例如,文本),以及第一资源的搜索引擎排名信号的相应值;在训练数据上训练机器学习模型,其中,机器学习模型被配置为:接收资源的数据(例如,文本),以及处理资源的数据(例如,文本)以生成资源的搜索引擎排名信号的预测值。该方面的其它实施例包括对应计算机系统、设备和记录在一个或多个计算机存储装置上的计算机程序,每个计算机系统、设备和计算机程序都被配置为执行方法的动作。一个或多个计算机的系统被配置为执行特定操作或动作意味着系统已经在其上安装了软件、固件、硬件或其组合,其在操作中使系统执行操作或动作。一个或多个计算机程序被配置为执行特定操作或动作意味着一个或多个程序包括在由数据处理设备执行时使设备执行操作或行动的指令。可选地,前述和其它实施例可以分别单独地或组合地包括以下特征中的一个或多个。具体地,一个实施例组合地包括所有以下特征。该方法进一步包括:在第二资源集合中识别第二资源,该第二资源在第二搜索引擎索引中被索引并且该第二资源的搜索引擎排名信号的值不可用,其中,搜索引擎在响应于接收到的搜索查询而对资源进行排名时使用搜索引擎排名信号的值;使用训练后的机器学习模型处理来自第二资源的数据(例如,文本),训练后的机器学习模型被配置为:处理数据(例如,文本)以预测第二资源的搜索引擎排名信号的值;以及通过将搜索引擎排名信号的预测值与第二搜索引擎索引中的第二资源相关联来更新第二搜索引擎索引。第一资源集合是互联网资源的集合。第二资源集合与第一资源集合不同。第二资源集合是特定于实体的资源的集合。第二资源的搜索引擎排名信号的预测值包括用户将提交给搜索引擎以搜索第二资源的一个或多个搜索查询。机器学习模型包括:编码器神经网络,该编码器神经网络被配置为处理第二资源的数据(例如,文本)以生成第二资源的编码表示;以及第二解码器神经网络,该第二解码器神经网络被配置为使用第二资源的编码表示生成搜索引擎排名信号的预测值。搜索引擎在响应于接收到的搜索查询而对资源进行排名时也使用的第一搜索引擎排名信号的值对于第二资源也不可用,以及其中,该方法进一步包括:使用第一解码器神经网络处理所述第二资源的所述编码表示,所述第一解码器神经网络被配置为使用所述第二资源的所述编码表示生成所述第一搜索引擎排名信号的预测值。本说明书中所描述的主题可以实施在特定实施例中,以便实现以下优点中的一个或多个。传统的搜索系统使用与资源相关联的搜索引擎排名信号的值来响应于搜索查询对资源进行排名。这些传统的搜索系统通常需要知道搜索引擎排名信号的值以便有效地对资源进行排名,使得难以对搜索引擎排名信号的值不可用的资源进行排名。与传统的搜索系统不同,在本说明书中所描述的搜索系统包括机器学习模型,以为搜索引擎排名信号的值不可用的资源生成搜索引擎排名信号的值。搜索系统可以利用所生成的资源的搜索引擎排名信号的值来更新索引资源的搜索引擎索引,然后搜索引擎可以在对资源进行排名时使用所生成的值。因此,可以提高搜索引擎索引的完整性,进而提高搜索引擎的准确性和效率。在下面的附图和描述中陈述了本说明书的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将通过说明书、附图和权利要求书而变得显而易见。附图说明图1是示例搜索系统的框图。图2是用于预测资源的搜索引擎排名信号的值的示例过程的流程图。图3是用于训练机器学习模型的示例过程的流程图。图4是用于预测查询的示例过程的流程图。图5是用于训练机器学习模型的示例过程的流程图。在各个附图中,类似的附图标记和名称指示类似的元件。具体实施方式图1示出了示例搜索系统114。搜索系统114是可以实施下面描述的系统、组件和技术的信息检索系统的示例。用户102可以通本文档来自技高网...

【技术保护点】
1.一种扩增第一搜索引擎索引的计算机实现的方法,所述第一搜索引擎索引对来自第一资源集合的资源进行索引,所述方法包括:在所述第一资源集合中识别第一资源,所述第一资源在所述第一搜索引擎索引中被索引并且所述第一资源的搜索引擎排名信号的值不可用,其中,搜索引擎在响应于接收到的搜索查询而对资源进行排名时使用所述搜索引擎排名信号的值;使用机器学习模型处理来自所述第一资源的数据,所述机器学习模型被配置为:处理所述数据以预测所述第一资源的所述搜索引擎排名信号的值;以及通过将所述搜索引擎排名信号的预测值与所述第一搜索引擎索引中的所述第一资源相关联来更新所述第一搜索引擎索引。

【技术特征摘要】
【国外来华专利技术】2016.12.05 US 15/369,8491.一种扩增第一搜索引擎索引的计算机实现的方法,所述第一搜索引擎索引对来自第一资源集合的资源进行索引,所述方法包括:在所述第一资源集合中识别第一资源,所述第一资源在所述第一搜索引擎索引中被索引并且所述第一资源的搜索引擎排名信号的值不可用,其中,搜索引擎在响应于接收到的搜索查询而对资源进行排名时使用所述搜索引擎排名信号的值;使用机器学习模型处理来自所述第一资源的数据,所述机器学习模型被配置为:处理所述数据以预测所述第一资源的所述搜索引擎排名信号的值;以及通过将所述搜索引擎排名信号的预测值与所述第一搜索引擎索引中的所述第一资源相关联来更新所述第一搜索引擎索引。2.根据权利要求1所述的方法,进一步包括:从索引第二资源集合的第二搜索引擎索引识别多个第二资源,所述第二资源中的每一个在所述第二搜索引擎索引中与所述第二资源的所述搜索引擎排名信号的相应值相关联;生成训练数据,所述训练数据针对所述多个第二资源中的每一个包括:与所述第二资源相关的数据,以及所述第二资源的所述搜索引擎排名信号的所述相应值;以及在所述训练数据上训练所述机器学习模型。3.根据权利要求2所述的方法,其中,所述第二资源集合是互联网资源的集合。4.根据权利要求3所述的方法,其中,所述第一资源集合与所述第二资源集合不同。5.根据权利要求4所述的方法,其中,所述第一资源集合是特定于实体的资源的集合。6.根据前述权利要求中的任一项所述的方法,其中,所述第一资源的所述搜索引擎排名信号的预测值包括用户将提交给所述搜索引擎以搜索所述第一资源的一个或多个搜索查询。7.根据前述权利要求中的任一项所述的方法,其中,所述机器学习模型包括:编码器神经网络,所述编码器神经网络被配置为处理来自所述第一资源的所述数据以生成所述第一资源的编码表示;以及第一解码器神经网络,所述第一解码器神经网络被配置为使用所述第一资源的所述编码表示生成所述搜索引擎排名信号的预测值。8.根据权利要求7所述的方法,其中,所述搜索引擎在响应于接收到的搜索查询而对资源进行排名时也使用的第二搜索引擎排名信号的值对于所述第一资源也不可用,以及其中,所述方法进一步包括:使用第二解码器神经网络处理所述第一资源的所述编码表示,所述第二解码器神经网络被配置为使用所述第一资源的所述编码表示生成所述第二搜索引擎排名信号的预测值。9.一种扩增搜索引擎索引的计算机实现的方法,所述搜索引擎索引对来自资源集合的资源进行索引,所述方法包括:从索引第一资源集合的第一搜索引擎索引识别...

【专利技术属性】
技术研发人员:雅维耶·斯帕尼奥洛·阿里萨瓦拉加马尔特·努恩国·V·勒丹尼尔·杜克沃特马蒂亚斯·海勒尔
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1