当前位置: 首页 > 专利查询>微软公司专利>正文

基于实体的搜索和解析制造技术

技术编号:8626172 阅读:129 留言:0更新日期:2013-04-25 23:19
提供了用于通过利用实体类型表征来提供丰富搜索体验的系统、方法以及计算机可读存储媒体。搜索查询被接收并且实体类型针对所述查询被确定。针对所述查询的Web搜索然后针对确定为对于已确定的实体类型是权威的源的预定列表被执行。源特定搜索的结果基于所述实体类型而被过滤,提供了结果的经过滤的列表,所述结果各与确定为与所述查询相关联的所述实体类型的实体有关。所述经过滤的列表然后被与解析的实体的列表相比较以确定由不同的搜索到的源识别的等同实体,所述等同实体被组合成单个潜在的搜索结果。所述合并的搜索结果然后基于排名值被排序。所述结果的至少一部分然后可以被呈现给用户。

【技术实现步骤摘要】
基于实体的搜索和解析
技术介绍
给定搜索查询字符串,Web搜索引擎传统上返回超链接的列表,所述超链接在选择之后链接到被认为与输入搜索查询相关的Web上的页面。最近,搜索引擎结果页面通常经由垂直信息域名而常常还包括更丰富的内容。随着这个趋势继续,搜索将会聚到一点,其中,信息的索引和检索不仅相对于Web页面被执行,而且还相对于诸如(例如,来自应用市场的)应用、电影、电视节目、人、名人、事件、城市、饭店、剧场、公司等而被执行。为了浮现实体,搜索引擎必须爬取(crawl)多个非结构化Web页面和/或订阅关于特定实体类型的结构化提要,解析横跨这个多源数据的实体的实例,以及在用户的意图指的是所述实体和/或它的实体类型时浮现所述(归并的)实体的表示。执行如下操作的需要使得与索引和搜索实体相关联的并发症更加复杂,所述操作为:基于近似描述来检索实体;检索实体的广泛集合——其中的一些可能不通过查询字符串直接地描述;基于不流行的源中的实体的描述从流行的源中检索关于其的元数据;一般地组合横跨多个源的被索引的实体的特征和排名;对实体执行分面搜索;以及一般地通过将来自多个网页的信息整合成复合整体来执行整合搜索。对实体搜索问题的现有技术解决方法都可以被归类成两个方法中的一个,每个方法都遭受着各自的缺点。最初,专用于单一信息垂直的垂直引擎结果页面(VERP)常常根据包含基本实体属性的索引对单一类型的实体(例如,电影实体)的集进行搜索。这样的解决方法在提供了未出现在索引中的语义上相关的文本或模糊不清的描述的查询上会失效(例如,查询“moviewithasinkingboatstarringDiCaprio(DiCaprio主演的沉船的电影)”可能不返回电影“Titanic(泰坦尼克)”,或者查询“Batman(蝙蝠侠)”可能不返回电影“TheDarkKnight(黑暗骑士)”)。第二种通用的方法使用Web搜索,Web搜索具有利用了Web链接结构和锚文本的相关术语的大型索引的优点,其包括强大的意图分析,以及使用了自动拼写校正。此方法的缺点是如果被索引的页面未用实体进行解析,则由VERP提供的丰富的内容可能根本不会被浮现。而且,因为被索引的页面未针对彼此被解析,即使丰富的内容被检索,链接到相同基本实体的实例的大量结果可能被一起检索,消弱了结果的多样性。
技术实现思路

技术实现思路
被提供来以简化的形式介绍概念的选择,这些概念在下面的具体实施方式中被进一步描述。本
技术实现思路
既不打算识别所要求保护的主题的关键特征或必要特征,也不打算被用来帮助确定所要求保护的主题的范围。本专利技术的实施例涉及尤其用于整合垂直搜索的优点和Web搜索的优点以便利用实体类型表征来提供丰富的搜索体验的系统、方法以及计算机可读存储媒体。搜索查询被接收并且实体类型针对所述查询被确定。针对所述查询的Web搜索然后针对确定为对于已确定的实体类型是权威的源的预定列表被执行。虽然某个源对所述实体类型可能是权威的,但是它还可以包括针对其它实体类型的信息,以及同样地,识别与多个实体类型相关的结果。因此,源特定搜索的结果基于所述实体类型而被过滤,提供了结果的经过滤的列表,所述结果各与确定为与所述查询相关联的实体类型的实体有关。所述经过滤的列表然后被与解析的实体的列表相比较以确定由不同的搜索到的源所识别的等同实体,所述等同实体被组合成单个潜在的搜索结果。所述合并的搜索结果然后基于排名值被排序。被分配给合并的实体的所述排名值是从针对来自不同源的实体而提供的单独的排名值所计算的合计排名值。所述结果的至少一部分然后被呈现给用户。附图说明本专利技术作为例子被示出并且不限于附图,其中,相同的附图标记指示相似的单元,以及其中:图1是适合于在实施本专利技术的实施例中使用的示范性计算环境的方块图;图2是其中本专利技术的实施例可以被利用的示范性计算系统的方块图;图3是示出了根据本专利技术的实施例的、源特定搜索的结果的示范性屏幕显示的示意图;图4是示出了当实体搜索根据本专利技术的实施例被实施时,演示了为什么过滤有时被认为是必要的示范性屏幕显示的示意图;图5是示出了根据本专利技术的实施例所实施的实体搜索的示范性屏幕显示的示意图;图6是示出了根据本专利技术的实施例所实施的另一实体搜索的示范性屏幕显示的示意图;图7是图示了根据本专利技术的实施例所实施的整合搜索的结果的示范性呈现的屏幕显示的示意图;图8A和图8B是图示了根据本专利技术的实施例的、分面实体搜索的示范性呈现的屏幕显示的示意图;图9是示出了根据本专利技术的实施例的、用于基于实体类型确定Web搜索的目标并且解析其结果的示范性方法的流程图;以及图10是示出了根据本专利技术的实施例的、用于基于实体类型确定Web搜索的目标并且解析其结果的另一示范性方法的流程图。具体实施方式本专利技术的主题在本文中被具体地描述以满足法定的要求。然而,描述本身不打算限制本专利的范围。相反,本专利技术人已经设想到所要求保护的主题也可能结合其它当前或未来的技术以其它方式被体现,以包括不同的步骤或与在本文档中所描述的步骤类似的步骤的组合。此外,尽管术语“步骤”和/或“方块”可以在本文中被使用来暗示所利用的方法的不同的单元,但是所述术语不应该被解释为在本文中所公开的各种步骤之中或之间隐含任何特定的次序,除非和除了明确地描述了单独的步骤的次序时。在本文中所描述的技术的各种方面通常针对尤其用于整合垂直搜索的优点和Web搜索的优点以便利用实体类型表征来提供丰富的搜索体验的系统、方法以及计算机可读存储媒体。根据本专利技术的实施例,“实体”是某种真实世界对象或项目的描述。也就是说,实体是不同于Web文档的真实世界概念的表示。不是将Web文档与出现在搜索查询中的术语相匹配,本专利技术的实施例设法使实体或真实世界项目(有形的或无形的)与查询相匹配,从而使得更丰富的搜索体验可以被提供,如在下面更充分地描述的那样。共享共同属性的实体可以被分组成诸多实体类型。根据本专利技术的实施例,搜索查询被接收并且实体类型针对所述查询被确定。针对所述查询的Web搜索然后针对被认为对于已确定的实体类型是权威的源的预定列表被执行。虽然某个源对于所述实体类型可能是权威的,但是它还可以包括针对其它实体类型的信息,以及同样地,识别与多个实体类型相关的结果。因此,源特定搜索的结果基于所述实体类型而被过滤,提供了结果的经过滤的列表,所述结果各与确定为与所述查询相关联的实体类型的实体有关。所述经过滤的列表然后被与解析的实体的列表相比较以确定由不同的搜索到的源识别的等同实体,所述等同实体被组合成单个潜在的搜索结果。所述合并的搜索结果然后基于排名值被排序。被分配给合并的实体的所述排名值是从针对来自所述不同源的实体而提供的单独的排名值所计算的合计排名值。所述结果的至少一部分然后被呈现给用户。因此,本专利技术的一个实施例针对存储计算机可用指令的一个或多个计算机可读存储媒体,当所述计算机可用指令被一个或多个计算设备使用时,使所述一个或多个计算设备执行用于基于实体类型确定Web搜索的目标并且解析所述Web搜索的结果的方法。所述方法包括接收搜索查询并且针对已接收到的搜索查询确定至少一个实体类型。所述方法进一步包括针对已接收到的搜索查询执行Web搜索,所述Web搜索被限制于已经针对所述至少一个实体类型被识别的多个源。更进一步地本文档来自技高网
...
基于实体的搜索和解析

【技术保护点】
存储计算机可用指令的一个或多个计算机可读存储媒体,当所述计算机可用指令被一个或多个计算设备使用时,使所述一个或多个计算设备执行用于基于实体类型确定Web搜索的目标并且解析所述Web搜索的结果的方法(900),所述方法包括:接收(910)搜索查询;针对所述接收到的搜索查询确定(912)至少一个实体类型;针对所述接收到的搜索查询执行(914)Web搜索,所述Web搜索被限制于已经针对所述至少一个实体类型被识别的多个源;过滤(916)所述Web搜索的结果以便创建搜索结果的经过滤的列表,搜索结果的所述经过滤的列表中的每个搜索结果都与所述至少一个实体类型的实体有关;合并(918)由所述多个源中的不同源所识别的等同实体以便创建搜索结果的合并列表,搜索结果的所述合并列表中的每个搜索结果都与所述至少一个实体类型的不同实体有关;以及基于排名值对搜索结果的所述合并列表进行排序(920),其中,分配给搜索结果的所述合并列表中的搜索结果中的至少一个的排名值是合计排名值,所述合计排名值是从针对这样的实体而提供的单独的排名值所计算的,所述实体与来自所述多个源中的所述不同源的至少一部分的搜索结果中的所述至少一个相关联。...

【技术特征摘要】
2011.12.30 US 13/341,2841.一种用于基于实体类型确定Web搜索的目标并且解析所述Web搜索的结果的方法,所述方法包括:接收搜索查询;确定与所述接收到的搜索查询相关的至少一个实体类型,其中所述实体类型表示由至少一个实体和一个或多个其它实体共享的至少一个共同属性;识别多个权威源,所述权威源包括对于被确定为与所接收到的搜索查询相关的至少一个实体类型是权威的Web源;针对所接收到的搜索查询执行权威源中的每一个的Web搜索以便识别与所接收到的搜索查询相关的搜索结果;针对权威源中的每一个,基于被确定为与所接收的搜索查询相关的实体类型过滤从该源接收的搜索结果以便创建搜索结果的经过滤的列表,搜索结果的所述经过滤的列表中的每个搜索结果都与所接收到的搜索查询相关并且与和被确定为与所接收到的搜索查询相关的至少一个实体类型相关联的实体有关;跨经过滤的列表的每一个来合并等同实体以便生成等同实体的集合,每个等同实体的集合都与所接收到的搜索查询相关并且与和被确定为与所接收到的搜索查询相关的至少一个实体类型相关联的不同的实体有关;以及基于排名值对所述等同实体的集合进行排序,其中,分配给所述等同实体的集合的至少一个集合的排名值是合计排名值,所述合计排名值是从由权威源的至少一部分为与所述至少一个集合有关的所述实体提供的单独排名值计算的。2.根据权利要求1所述的方法,其中,过滤所述Web搜索的结果以便创建搜索结果的所述经过滤的列表包括至少部分地通过利用统一资源定位符模式来过滤所述Web搜索的所述结果。3.根据权利要求1所述的方法,其中,合并等同实体以便生成等同实体的集合包括将搜索结果的所述经过滤的列表与解析的实体列表相比较,以便确定由所述多个权威源中的不同权威源识别的所述等同实体。4.根据权利要求1所述的方法,其中,所述方法进一步包括呈现所述经排序的等同实体的集合的至少一部分。5.根据权利要求4所述的方法,其中,与所述经排序的等同实体的集合的所述被呈现的部分中的至少一个搜索结果相关联的信息是从所述多个权威源中的多个权威源导出的。6.根据权利要求5所述的方法,其中,从所述多个权威源中的所说的多个权威源的至少一个中导出的所述信息不与所述至少一个搜索结果相关联地被呈现。7.根据权利要求5所述的方法,其中,所述方法进一步包括呈现所述多个权威源中的所说的多个权威源的至少一部分的指示,与所述至少一个搜索结果相关联的所述信息是从其导出的。8.根据权利要求7所述的方法,其中,所述多个权威源中的所说的多个权威源的所述指示的至少一部分是可选择的。9.一种由包括至少一个处理器的一个或多个计算设备执行的用于基于实体类型确定Web搜索的目标并且解析所述Web搜索的结果的方法,所述方法包括:接收搜索查询;确定与所接收的搜索查询相关的至少一个实体类型,其中所述实体类型表示由至少一个实体和一个或多个其它实体共享的至少一个共同属性;识别多个Web权威源,所述权威源包括对于与所接收的搜索查询相关联的至少一个实体类型是权威的Web源,所述权威源包括与和所接收的搜索查询相关联的至少一个实体类型相关的订阅的结构化提要或爬取的Web源的子集中的一个或多个;使用所接收的搜索查询,搜索权威源中的每一个以便确定与所接收的搜索查询相关的搜索结果;针对权威源中的每一个,基于与所接收的搜索查询相关联的至少一个实体类型过滤搜索结果以便创建搜索结果的经过滤的列表,搜索结果的所述经过滤的列表中的每个搜索结果都与所接收到的搜索查询相关并且与和所述至少一个实体类型相关联的实体有关;使用所述一个或多个计算设备将搜索结果的所述经过滤的列表中的每一个与解析的实体列表相比较,以便跨搜索结果的所述经过滤的列表中的每一个确定等同实体;通过合并跨搜索结果的所述经过滤的列表中的每一个确定的所述等同实体来创建搜索结果的合并列表,搜索结果的所述合并列表中的每个搜索结果都与所接收到的搜索查询相关并且与和所接收到的搜索查询相关联的至少一个实体类型相关联的不同的实体有关;以及基于排名值对搜索结果的所述合并列表进行排序,其中,分配给搜索结果的所述合并列表中的搜索结果中的至少一...

【专利技术属性】
技术研发人员:AK钱德拉OJ达布罗夫斯基DJ格梅尔B鲁宾斯坦
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1