相关段落检索系统技术方案

技术编号:20122826 阅读:26 留言:0更新日期:2019-01-16 12:56
一种新的架构被提供以支持web规模的精确信息检索系统。该架构提供算法以经由在搜索时捕捉查询和结果内容之间的术语关系的排名模型(例如,语义排名模型、聚合排名模型)来生成候选并选择排名靠前的N个结果。

Relevant Paragraph Retrieval System

A new architecture is provided to support web-scale accurate information retrieval system. The architecture provides algorithms to generate candidates and select top N results by capturing a ranking model (e.g., semantic ranking model, aggregated ranking model) that captures terminological relationships between queries and results content during search.

【技术实现步骤摘要】
【国外来华专利技术】相关段落检索系统
技术介绍
计算系统的用户使用查询来运行对电子对象的搜索。例如,用户在互联网、电子邮件系统、视频存档和其他数据库上运行搜索。随着存储的电子对象的数量增加,搜索电子对象的语料库并将相关结果返回给用户变得越来越具有挑战性。此外,用户越来越期望快速访问与查询相关的信息,而不必访问可由查询返回的各种电子对象。这对于使用移动设备提交的查询而言尤其如此。移动设备的小形状因子使得用户更难以筛选遍历响应于查询而被返回的电子对象。因为这个原因,有益的是提供一种其中对查询的回答被直接提供给用户而不需要用户实际访问电子对象以寻找答案的机制。本文中所公开的各方面正是就这些和其他一般考虑事项而作出的。而且,尽管可能讨论了相对具体的问题,但是应当理解,各示例不应被限于解决本
技术介绍
中或本公开中其他地方所标识的具体问题。概述提供本概述来以简化形式介绍概念的选集,这些概念将在以下详细描述部分中作进一步描述。本概述并不旨在标识出所要求保护的主题的所有关键特征或必要特征,亦非旨在帮助确定所要求保护的主题的范围。本技术的各方面涉及从用户查询返回结果。例如,用户可提供查询(诸如自然语言查询),从而在web浏览器、电子邮件搜索界面、或云搜索界面、文件系统搜索界面或任何其他类型的搜索界面中搜寻信息。本文中所描述的技术的各方面提供了用于从电子对象(诸如网页、文字处理文档、电子表格、视频等)的语料库中标识高度相关的段落并返回回答用户查询的最相关的(诸)段落的系统和方法。该段落可以直接从电子对象获得,或者可以从来自一个或多个电子对象的多个高排名的段落生成。其他信息可被返回,诸如电子对象中(诸)段落被从其获得的位置。这可以是URL链接、电子邮件链接或其他对象链接。各示例被实现为计算机进程、计算系统、或者诸如设备、计算机程序产品或计算机可读介质等制品。根据一方面,计算机程序产品是计算机系统可读并对包括用于执行计算机进程的指令的计算机程序进行编码的计算机存储介质。一个或多个方面的细节在附图和以下描述中被阐明。根据对以下详细描述的阅读和对相关联附图的审阅,其他特征和优点将是显而易见的。要理解的是下面的详细描述仅仅是解释性的,而不是对权利要求的限制。附图简述合并在本公开中并构成其一部分的附图解说了各个方面。在附图中:图1解说了用于从电子对象的语料库中检索相关段落的示例性联网计算环境。图2解说了用于提供段落的示例性方法。图3解说了用于基于查询返回相关段落的示例性段落检索系统。图4解说了相关段落和到示例性电子对象的链接的示例输出。图5解说了用于标识取决于查询的段落的示例性方法。图6解说了用于标识文档中的取决于查询的段落的方法。图7解说了用于基于语义转换模型对段落进行排名的示例性方法。图8解说了基于查询和样本目标电子对象来标识段落的特征而产生的示例输出。图9解说了将段落类型与查询类型进行匹配的示例性方法。图10解说了使用用于将段落类型与查询类型进行匹配的方法所生成的示例输出。图11解说了基于上下文含义将电子对象与查询进行匹配的示例性方法。图12提供了基于电子对象的信头将电子对象与查询进行匹配的示例。图13解说了对段落进行排名的聚合模型的示例性方法。图14是对段落应用聚合方法的示例。图15解说了将段落中的回答模式与针对查询的查询回答模式进行匹配的示例性方法。图16提供了使用将回答模式与查询进行匹配的方法所生成的结果的示例。图17是解说可用来实施本公开的各方面的计算设备的示例物理组件的框图。图18A和18B是可用来实施本公开的各方面的移动计算设备的简化框图。图19解说了如以上所描述的用于web规模段落检索的系统的架构的一个示例。详细描述以下将参考形成本公开的一部分并且示出各具体示例性方面的附图来更详尽地描述本公开的各个方面。然而,本公开的不同方面可以以许多不同的形式来实现,并且不应被解释成限于本文中所阐述的各方面;相反,提供这些方面以使得本公开将更为透彻和完整,并且这些方面会将各方面的范围完整地传达给本领域技术人员。各方面可以被实现为方法、系统或设备。相应地,这些方面可采用硬件实现的形式、全软件实现的形式或者结合软件和硬件方面的实现的形式。因此,以下详细描述不应被视为具有限制意义。现有的搜索系统检索电子对象或到电子对象的链接作为结果。例如,web搜索系统可响应于查询来检索到网页的URL链接,而文件系统搜索界面可检索一个或多个文件。一般而言,从现有搜索系统返回的结果不是提交了查询的用户正在查找的“精确信息”。例如,在网络搜索系统的情形中,用户必须点击被返回的URL链接之一以访问实际包含用户正在查找的信息的电子对象。在本公开中,术语“段落(passage)”被使用。段落是提供对用户的搜索意图的更直接履行的信息或内容的片段。例如,响应于互联网搜索查询,并非仅仅返回URL的列表,而是搜索一组URL的内容来标识和提取相关信息以回答该查询。从URL生成或提取的段落将被返回给用户。应当领会,尽管本公开通常涉及URL和返回基于文本的段落,但是本公开不限于此。段落不限于文本信息。在各个方面,段落可以是图像、视频、和/或不同信息的组合。附加地,本公开讨论了标识语义含义或词语、短语(例如,任何n元语法(n-gram))。作为具体示例,可以使用查询和段落之间的关键词和实体来解释语义含义。关键词是词语,可能有助于确定电子对象以及查询中的句子、短语和段落的意图和领域。实体类似于关键词,但是附加地是如在自然语言查询或段落的上下文中所使用的那样具有除文字定义之外的替代含义的词语或短语。例如,词语“超级碗”通常不会照字面意指优秀的体育场,但是正常情况下指的是国家橄榄球联盟的冠军赛。本专利技术技术的各方面包括对机器学习模型的使用。机器学习模型将使用一组训练数据来学习如何识别自然语言中的语义模式。训练数据将以针对特定任务训练模型的方式来被标记。例如,当标识句子中的关键词时,该模型将被训练以识别加利福尼亚特大号床(Californiaking)作为与床垫相关的一个实体,而不一定是加利福尼亚州的君主。本领域技术人员将领会,本文中所公开的技术可以采用各种不同类型的机器学习办法和模型,包括但不限于,决策树学习、关联规则学习、人工神经网络、深度学习、支持向量机、贝叶斯网络等。作为非限制性示例,用户可以向互联网搜索引擎提交以下查询:“加利福尼亚特大号床会不会适合特大号床床架?”响应于接收到该查询,传统搜索引擎将提供到被标识为与该查询相关的网页的链接的列表。作为基于关键词搜索提供最相关的链接的替换或补充,本文中所描述的技术的各方面返回诸如“标准特大号床床架尺寸为76英寸宽乘80英寸长。加利福尼亚特大号床尺寸为72英寸宽和85英寸长,因而比标准的特大号床垫长5英寸但要窄4英寸”之类的回答。因此,本文中所描述的技术可被应用于标识/生成向该查询和其他查询提供被更严密定制的回答的段落,从而使得用户可以比在传统搜索系统中更快地获得精确信息。本文中所公开的各方面涉及一种用于跨电子对象的整个网络(诸如互联网)查找相关段落的检索系统。附加地,公开了电子对象排名和段落排名算法和技术。由此,除了提供其他益处之外,本文中所公开的技术的各方面不仅提供对现有回答检索系统的覆盖范围的改进,而且还通过使用web排名算法和技术提本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:标识用于段落提取的电子对象的语料库;从每个所标识的电子对象中提取段落;接收查询;基于所接收的查询对所述电子对象的每一者中的所提取的段落进行排名,以产生每个电子对象的排名靠前的段落;聚合每个电子对象的所述排名靠前的段落,以形成经聚合的段落;对所述经聚合的段落进行排名以形成经排名的经聚合的段落;从所述经排名的段落中选择至少一个排名靠前的段落;返回所述至少一个排名靠前的段落。

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:标识用于段落提取的电子对象的语料库;从每个所标识的电子对象中提取段落;接收查询;基于所接收的查询对所述电子对象的每一者中的所提取的段落进行排名,以产生每个电子对象的排名靠前的段落;聚合每个电子对象的所述排名靠前的段落,以形成经聚合的段落;对所述经聚合的段落进行排名以形成经排名的经聚合的段落;从所述经排名的段落中选择至少一个排名靠前的段落;返回所述至少一个排名靠前的段落。2.根据权利要求1所述的计算机实现的方法,其特征在于,所述电子对象是电子邮件、网页、图像、音频文件、视频或文档之一。3.根据权利要求1所述的计算机实现的方法,其特征在于,对所述排名靠前的段落进行排名包括:解析所述查询以确定查询信息,其中所述查询信息包括以下各项中的至少一者:查询语义含义;查询关键词;以及查询实体;解析所述段落以确定段落信息,其中所述段落信息包括以下各项中的至少一者:段落语义含义;段落关键词;以及段落实体;以及利用各种语义特征生成机器学习段落排名模型,包括使用所述查询信息和所述段落信息的语义转换模型。4.根据权利要求1所述的计算机实现的方法,其特征在于,进一步包括提供到从中检索到所述段落的所述电子对象的链接。5.根据权利要求4所述的计算机实现的方法,其特征在于,所述段落和所述链接被提供给客户端设备。6.根据权利要求4所述的计算机实现的方法,其特征在于,所述查询被接收自所述客户端设备。7.根据权利要求1所述的计算机实现的方法,其特征在于,所述电子对象的语料库被储存在分布式网络中。8.一种计算机实现的方法,包括:接收查询;至少基于所述查询确定意图;响应于确定所述意图,使用搜索引擎执行搜索以生成搜索结果,其中所述搜索结果包括根据排名被排序的网页;分析来自所述经排名的搜索结果的至少一个子集的每一者的多个段落,以产生每个网页的多个排名靠前的结果;聚合所述经排名的搜索结果的所述子集的每个网页的所述排名靠前的结果;对经聚合的排名靠前的结果进行排名,以标识至少一个排名靠前的段落;提供所述至少一个排名靠前的段落。9.根据权利要求8所述的计算机实现的方法,其特征在于,对所述网页的至少一者的段落进行排名包括:使用机器学习模型分析所述查询以确定所述查...

【专利技术属性】
技术研发人员:J·白YS·刘J·O·彼得森M·杨Q·鲁
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1