A new architecture is provided to support web-scale accurate information retrieval system. The architecture provides algorithms to generate candidates and select top N results by capturing a ranking model (e.g., semantic ranking model, aggregated ranking model) that captures terminological relationships between queries and results content during search.
【技术实现步骤摘要】
【国外来华专利技术】相关段落检索系统
技术介绍
计算系统的用户使用查询来运行对电子对象的搜索。例如,用户在互联网、电子邮件系统、视频存档和其他数据库上运行搜索。随着存储的电子对象的数量增加,搜索电子对象的语料库并将相关结果返回给用户变得越来越具有挑战性。此外,用户越来越期望快速访问与查询相关的信息,而不必访问可由查询返回的各种电子对象。这对于使用移动设备提交的查询而言尤其如此。移动设备的小形状因子使得用户更难以筛选遍历响应于查询而被返回的电子对象。因为这个原因,有益的是提供一种其中对查询的回答被直接提供给用户而不需要用户实际访问电子对象以寻找答案的机制。本文中所公开的各方面正是就这些和其他一般考虑事项而作出的。而且,尽管可能讨论了相对具体的问题,但是应当理解,各示例不应被限于解决本
技术介绍
中或本公开中其他地方所标识的具体问题。概述提供本概述来以简化形式介绍概念的选集,这些概念将在以下详细描述部分中作进一步描述。本概述并不旨在标识出所要求保护的主题的所有关键特征或必要特征,亦非旨在帮助确定所要求保护的主题的范围。本技术的各方面涉及从用户查询返回结果。例如,用户可提供查询(诸如自然语言查询),从而在web浏览器、电子邮件搜索界面、或云搜索界面、文件系统搜索界面或任何其他类型的搜索界面中搜寻信息。本文中所描述的技术的各方面提供了用于从电子对象(诸如网页、文字处理文档、电子表格、视频等)的语料库中标识高度相关的段落并返回回答用户查询的最相关的(诸)段落的系统和方法。该段落可以直接从电子对象获得,或者可以从来自一个或多个电子对象的多个高排名的段落生成。其他信息可被返回,诸如电子对象中(诸)段 ...
【技术保护点】
1.一种计算机实现的方法,包括:标识用于段落提取的电子对象的语料库;从每个所标识的电子对象中提取段落;接收查询;基于所接收的查询对所述电子对象的每一者中的所提取的段落进行排名,以产生每个电子对象的排名靠前的段落;聚合每个电子对象的所述排名靠前的段落,以形成经聚合的段落;对所述经聚合的段落进行排名以形成经排名的经聚合的段落;从所述经排名的段落中选择至少一个排名靠前的段落;返回所述至少一个排名靠前的段落。
【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:标识用于段落提取的电子对象的语料库;从每个所标识的电子对象中提取段落;接收查询;基于所接收的查询对所述电子对象的每一者中的所提取的段落进行排名,以产生每个电子对象的排名靠前的段落;聚合每个电子对象的所述排名靠前的段落,以形成经聚合的段落;对所述经聚合的段落进行排名以形成经排名的经聚合的段落;从所述经排名的段落中选择至少一个排名靠前的段落;返回所述至少一个排名靠前的段落。2.根据权利要求1所述的计算机实现的方法,其特征在于,所述电子对象是电子邮件、网页、图像、音频文件、视频或文档之一。3.根据权利要求1所述的计算机实现的方法,其特征在于,对所述排名靠前的段落进行排名包括:解析所述查询以确定查询信息,其中所述查询信息包括以下各项中的至少一者:查询语义含义;查询关键词;以及查询实体;解析所述段落以确定段落信息,其中所述段落信息包括以下各项中的至少一者:段落语义含义;段落关键词;以及段落实体;以及利用各种语义特征生成机器学习段落排名模型,包括使用所述查询信息和所述段落信息的语义转换模型。4.根据权利要求1所述的计算机实现的方法,其特征在于,进一步包括提供到从中检索到所述段落的所述电子对象的链接。5.根据权利要求4所述的计算机实现的方法,其特征在于,所述段落和所述链接被提供给客户端设备。6.根据权利要求4所述的计算机实现的方法,其特征在于,所述查询被接收自所述客户端设备。7.根据权利要求1所述的计算机实现的方法,其特征在于,所述电子对象的语料库被储存在分布式网络中。8.一种计算机实现的方法,包括:接收查询;至少基于所述查询确定意图;响应于确定所述意图,使用搜索引擎执行搜索以生成搜索结果,其中所述搜索结果包括根据排名被排序的网页;分析来自所述经排名的搜索结果的至少一个子集的每一者的多个段落,以产生每个网页的多个排名靠前的结果;聚合所述经排名的搜索结果的所述子集的每个网页的所述排名靠前的结果;对经聚合的排名靠前的结果进行排名,以标识至少一个排名靠前的段落;提供所述至少一个排名靠前的段落。9.根据权利要求8所述的计算机实现的方法,其特征在于,对所述网页的至少一者的段落进行排名包括:使用机器学习模型分析所述查询以确定所述查...
【专利技术属性】
技术研发人员:J·白,YS·刘,J·O·彼得森,M·杨,Q·鲁,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。