通过使用深度模型来构建查询的答案制造技术

技术编号:33069223 阅读:19 留言:0更新日期:2022-04-15 10:01
本文描述了与构建查询的答案有关的各种技术,其中答案是列表形式。答案包括报头和列表元素。深度模型接收被搜索引擎认为与查询相关的网页的内容,并且在接收到查询时构建网页的答案。的答案。的答案。

【技术实现步骤摘要】
【国外来华专利技术】通过使用深度模型来构建查询的答案

技术介绍

[0001]计算机实现的搜索引擎被配置为接收查询并标识网页,该网页被搜索引擎视为包括与所接收的查询相关的内容。在操作中,传统搜索引擎从客户端计算设备接收查询,基于该查询在网页索引上进行搜索以标识与查询相关的多个网页,此后基于查询的特征和多个网页的特征对多个网页进行排名。然后,搜索引擎构建搜索引擎结果页面(SERP)并使SERP被传输到从其接收查询的客户端计算设备。SERP包括搜索结果的排名列表,其中搜索结果表示网页。
[0002]相对最近,搜索引擎已被配置为直接提供对基于事实的问题的答案;例如,当从客户端计算设备接收到查询“乔治华盛顿的生日”时,搜索引擎可以将查询的答案(1732年2月22日)作为SERP的一部分返回给客户端计算设备,其中SERP还包括搜索结果的排名列表。因而,提交查询的用户不需要选择SERP上的超链接来获取查询的答案。
[0003]另外,对于某些查询,传统的搜索引擎已经被配置为以列表形式返回答案。例如,当传统的搜索引擎接收到“世界上人口最多的国家”的查询时,搜索引擎可以返回包含若干列表元素的列表,其中该列表元素是世界所有国家当中人口最多的国家的标识。目前,通过离线构建列表,针对这些列表生成可搜索的列表索引,并且将列表存储在计算机可读存储装置中来,实现了这种类型的功能性。因此,当搜索引擎从客户端计算设备接收查询时,搜索引擎在列表索引上进行搜索以标识与查询相关的一个或多个列表,计算列表的得分(其中列表的得分表示该列表与查询有多相关),将得分当中的最高得分与预定义阈值进行比较,当最高得分高于预定义阈值时,在SERP中包含具有最高得分的列表,并且将SERP(具有所包括的列表)返回给客户端计算设备。
[0004]用于提供列表答案的传统方法存在若干问题。例如,构建和批准列表答案目前需要大量的人工劳动,因而目前列表答案仅适用于相对较少数量的查询。另外,列表答案可能会相对较快地变得陈旧。例如,查询“今年本垒打最多的运动员”的答案可能会经常变化。然而,使用上述的传统方法,搜索引擎离线生成这些列表,因而搜索引擎要么无法答案这种查询,要么可能提供该查询的陈旧答案。

技术实现思路

[0005]以下是在本文中更详细描述的主题的简要概述。此概述不旨在限制权利要求的范围。
[0006]本文描述了与计算系统有关的各种技术,该计算系统被配置为,响应于接收到查询,在运行时从计算系统可搜索的文档(例如,网页)中构建查询的答案。更具体地,并且在示例中,搜索引擎从客户端计算设备接收查询并且标识包括与查询密切相关的内容的多个网页。搜索引擎对这些网页进行排名以生成网页排名列表,并且在网页排名列表中取回前N(例如,前五)个网页。搜索引擎可以从搜索引擎所维护的缓存中和/或从分别托管网页的网络服务器中取回前N个网页。
[0007]为了减少构建查询的答案的延时,对于每个取回的网页,搜索引擎通过使用多网
页划分规则来生成若干网页表示。例如,第一网页划分规则可以要求第一网页表示由网页的所有报头和每个报头之后的第一句组成;第二网页划分规则可以要求第二网页表示由网页中的(多个)列表(由网页的HTML代码中的列表标签定义)和紧接在(多个)列表前后的句组成;第三网页划分规则可以要求网页表示由网页中的(多个)表、(多个)表的(多个)标题、和紧接有网页中(多个)表的(多个)句组成。因此,搜索引擎可以构建网页的若干不相同的表示,其中每个表示包括的内容少于网页内容的全部。
[0008]响应于构建网页的表示,搜索引擎并行处理网页的表示以查明网页的一个或多表示是否包括查询的答案。对于每个网页表示,搜索引擎在网页表示中划定片段的边界,其中示例性的片段包括句、短语(诸如独立但不是完整句的报头)、标题等。例如,搜索引擎可以在这些网页表示上利用自然语言处理(NLP)技术来划定片段的边界,可以采用基于规则的方法来划定片段的边界(例如,将分段符标识为注释片段边界,将周期标识为片段边界等)。
[0009]搜索引擎包括深度模型,并且网页表示片段被提供给深度模型(例如,依次)。深度模型被配置为,查明网页表示是否包括查询的答案,并在网页表示包括答案时输出该答案。综上所述,深度模型被配置为扫描网页的每个网页表示并确定该网页表示是否包括查询的答案。当网页表示包括查询的答案(以列表的形式)时,深度模型输出该答案的总得分,总得分指示答案正确解答查询的置信度。当答案的得分低于预定义阈值时,搜索引擎将丢弃该答案。可以查明,深度模型可以输出查询的多答案,每个答案的得分等于或高于预定义阈值。在这种情况下,搜索引擎选择得分最高的答案作为“最佳”答案,并将此类答案包含在SERP中。当深度模型没有输出得分等于或高于预定义阈值的答案时,搜索引擎无法在SERP中包括答案。
[0010]如前所指示,答案可以是列表的形式,其中该列表包括报头(即,描述了列表内容)和若干列表元素。在示例性实施例中,深度模型通过选择网页表示片段以作为相邻元素包括在列表中来构建列表,其中该片段在网页中彼此不相邻。
[0011]本文描述的搜索引擎提供了对传统搜索引擎的各种改进。与其中以列表形式离线构建答案的传统方法相反,本文描述的搜索引擎被配置为响应于接收到查询在运行时构建以列表形式的答案,由此确保答案不是陈旧的。另外,搜索引擎还被配置为构建以列表形式的答案,其中搜索引擎可以从网页的非相邻区域中选择该答案中的相邻元素。
[0012]以上概述呈现了简化的概述,以便提供对本文讨论的系统和/或方法的一些方面的基本理解。此概述不是本文讨论的系统和/或方法的广泛概述。其不旨在标识关键/紧要元素或划定这种系统和/或方法的范围。其唯一目的是以简化的形式呈现一些概念,作为稍后呈现的更详细描述的序言。
附图说明
[0013]图1是示例性系统的功能框图,该系统被配置为基于网页的内容来构建查询的答案。
[0014]图2是描绘了将网页划分成网页的若干不相同的表示的示意图。
[0015]图3是示例性构建器模块的功能框图,该构建器模块被配置为基于网页的内容来构建查询的答案。
[0016]图4是示例性句嵌入器系统的功能框图,该系统被配置为基于编码词序列来执行
句嵌入。
[0017]图5描绘了示例性的搜索引擎结果页面(SERP)。
[0018]图6图示了从网页中的表中提取片段。
[0019]图7是图示了示例性方法的流程图,该方法支持生成包括查询的答案的SERP。
[0020]图8是示例性的计算系统。
具体实施方式
[0021]现在参考附图来描述与在运行时构建查询的答案有关的各种技术,其中相同的附图标记自始至终被用来指代相同的元素。在以下描述中,出于解释目的,阐述了许多具体细节以便提供对一个或多个方面的透彻理解。然而,很明显,可以在没有这些具体细节的情况下实践这些(多个)方面。在其他情形中,众所周知的结构和设备以框图形式被示出以便于描述一个或多个方面。进一步,应当理解,被描述为由某些系统组件执行的功能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在至少一个处理器执行搜索引擎时由所述处理器执行的方法,所述方法包括:基于从客户端计算设备接收的查询来将网页标识为与所述查询相关,所述客户端计算设备与所述至少一个处理器网络通信;响应于标识所述网页,取回所述网页;从所述网页的内容构建答案,其中所述答案是列表形式,其中所述答案包括:第一元素,所述第一元素包括所述网页的第一文本;以及第二元素,所述第二元素包括所述网页的第二文本,其中所述第一文本和所述第二文本在所述答案中相邻,但在所述网页中被第三文本隔开;以及将所述答案传输到所述客户端计算设备,其中所述客户端计算设备被配置为通过与所述客户端计算设备相关联的输出接口向所述客户端计算设备的用户呈现所述答案。2.根据权利要求1所述的方法,还包括:响应于取回所述网页并且在构建所述答案之前,生成所述网页的第一表示和所述网页的第二表示,其中所述网页的所述第一表示与所述网页的所述第二表示彼此不同;将所述网页的所述第一表示提供给计算机实现的第一深度模型,所述计算机实现的第一深度模型被配置为基于被提供给所述计算机实现的第一深度模型的网页表示的文本来构建查询的答案;以及将所述网页的所述第二表示提供给计算机实现的第二深度模型,所述计算机实现的第二深度模型被配置为基于被提供给所述计算机实现的第二深度模型的网页表示的文本来构建查询的答案,其中所述答案由所述计算机实现的第一深度模型基于所述网页的所述第一表示来构建。3.根据权利要求2所述的方法,其中生成所述网页的所述第一表示和所述第二表示包括:在所述网页中划定第一片段和第二片段之间的边界,其中所述第一片段被包括在所述第一表示中并且所述第二片段被包括在所述第二表示中。4.根据权利要求2所述的方法,其中生成所述网页的所述第一表示和所述第二表示包括:在所述网页的HTML代码中标识列表标签,其中所述第一表示是基于在所述HTML代码中标识的列表标签而被生成的。5.根据权利要求2所述的方法,其中所述计算机实现的第二深度模型基于所述网页的所述第二表示来构建第二答案,其中所述第二答案不同于所述第一答案,所述方法还包括:计算所述答案的第一得分;计算所述第二答案的第二得分;以及基于相对于所述第二得分的所述第一得分来选择所述答案。6.根据权利要求2所述的方法,其中所述网页的所述第一表示包括第一片段和第二片段,其中所述第一片段是所述第一文本并且具有第一多个词,并且所述第二片段是所述第二文本并且具有第二多个词,并且进一步其中从所述网页的所述文本构建所述答案包括:将所述第一片段编码为第一向量,其中所述第一向量表示所述第一片段的语义含义;以及将所述第二片段编码为第二向量,其中所述第二向量表示所述第二片段的语义含义,
其中所述第一向量和所述第二向量具有相同的长度,并且进一步其中所述答案是基于所述第一向量和所述第二向量而被构建的。7.根据权利要求6所述的方法,其中从所述网页的所述文本构建所述答案还包括:提供所述第一向量和所述第二向量作为循环神经网络(RNN)的顺序输入;以及由所述RNN生成包括第三向量和第四向量的顺序输出,其中所述第三向量表示所述第一片段,并且所述第四向量表示所述第二片段,并且进一步其中所述答案是基于所述第三向量和所述第四向量而被构建的。8.根据权利要求7所述的方法,其中从所述网页的所述文本构建所述答案还包括:提供所述第三向量和所述第四向量作为第二RNN的顺序输入,其中所述第二RNN关注所述查询的编...

【专利技术属性】
技术研发人员:吴箫剑D
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1