【技术实现步骤摘要】
基于实体的搜索和解析
技术介绍
给定搜索查询字符串,Web搜索引擎传统上返回超链接的列表,所述超链接在选择之后链接到被认为与输入搜索查询相关的Web上的页面。最近,搜索引擎结果页面通常经由垂直信息域名而常常还包括更丰富的内容。随着这个趋势继续,搜索将会聚到一点,其中,信息的索引和检索不仅相对于Web页面被执行,而且还相对于诸如(例如,来自应用市场的)应用、电影、电视节目、人、名人、事件、城市、饭店、剧场、公司等而被执行。为了浮现实体,搜索引擎必须爬取(crawl)多个非结构化Web页面和/或订阅关于特定实体类型的结构化提要,解析横跨这个多源数据的实体的实例,以及在用户的意图指的是所述实体和/或它的实体类型时浮现所述(归并的)实体的表示。执行如下操作的需要使得与索引和搜索实体相关联的并发症更加复杂,所述操作为:基于近似描述来检索实体;检索实体的广泛集合——其中的一些可能不通过查询字符串直接地描述;基于不流行的源中的实体的描述从流行的源中检索关于其的元数据;一般地组合横跨多个源的被索引的实体的特征和排名;对实体执行分面搜索;以及一般地通过将来自多个网页的信息整合成复合整体来执行整合搜索。对实体搜索问题的现有技术解决方法都可以被归类成两个方法中的一个,每个方法都遭受着各自的缺点。最初,专用于单一信息垂直的垂直引擎结果页面(VERP)常常根据包含基本实体属性的索引对单一类型的实体(例如,电影实体)的集进行搜索。这样的解决方法在提供了未出现在索引中的语义上相关的文本或模糊不清的描述的查询上会失效(例如,查询“moviewithasinkingboatstarringDiC ...
【技术保护点】
存储计算机可用指令的一个或多个计算机可读存储媒体,当所述计算机可用指令被一个或多个计算设备使用时,使所述一个或多个计算设备执行用于基于实体类型确定Web搜索的目标并且解析所述Web搜索的结果的方法(900),所述方法包括:接收(910)搜索查询;针对所述接收到的搜索查询确定(912)至少一个实体类型;针对所述接收到的搜索查询执行(914)Web搜索,所述Web搜索被限制于已经针对所述至少一个实体类型被识别的多个源;过滤(916)所述Web搜索的结果以便创建搜索结果的经过滤的列表,搜索结果的所述经过滤的列表中的每个搜索结果都与所述至少一个实体类型的实体有关;合并(918)由所述多个源中的不同源所识别的等同实体以便创建搜索结果的合并列表,搜索结果的所述合并列表中的每个搜索结果都与所述至少一个实体类型的不同实体有关;以及基于排名值对搜索结果的所述合并列表进行排序(920),其中,分配给搜索结果的所述合并列表中的搜索结果中的至少一个的排名值是合计排名值,所述合计排名值是从针对这样的实体而提供的单独的排名值所计算的,所述实体与来自所述多个源中的所述不同源的至少一部分的搜索结果中的所述至少一个相关 ...
【技术特征摘要】
2011.12.30 US 13/341,2841.一种用于基于实体类型确定Web搜索的目标并且解析所述Web搜索的结果的方法,所述方法包括:接收搜索查询;确定与所述接收到的搜索查询相关的至少一个实体类型,其中所述实体类型表示由至少一个实体和一个或多个其它实体共享的至少一个共同属性;识别多个权威源,所述权威源包括对于被确定为与所接收到的搜索查询相关的至少一个实体类型是权威的Web源;针对所接收到的搜索查询执行权威源中的每一个的Web搜索以便识别与所接收到的搜索查询相关的搜索结果;针对权威源中的每一个,基于被确定为与所接收的搜索查询相关的实体类型过滤从该源接收的搜索结果以便创建搜索结果的经过滤的列表,搜索结果的所述经过滤的列表中的每个搜索结果都与所接收到的搜索查询相关并且与和被确定为与所接收到的搜索查询相关的至少一个实体类型相关联的实体有关;跨经过滤的列表的每一个来合并等同实体以便生成等同实体的集合,每个等同实体的集合都与所接收到的搜索查询相关并且与和被确定为与所接收到的搜索查询相关的至少一个实体类型相关联的不同的实体有关;以及基于排名值对所述等同实体的集合进行排序,其中,分配给所述等同实体的集合的至少一个集合的排名值是合计排名值,所述合计排名值是从由权威源的至少一部分为与所述至少一个集合有关的所述实体提供的单独排名值计算的。2.根据权利要求1所述的方法,其中,过滤所述Web搜索的结果以便创建搜索结果的所述经过滤的列表包括至少部分地通过利用统一资源定位符模式来过滤所述Web搜索的所述结果。3.根据权利要求1所述的方法,其中,合并等同实体以便生成等同实体的集合包括将搜索结果的所述经过滤的列表与解析的实体列表相比较,以便确定由所述多个权威源中的不同权威源识别的所述等同实体。4.根据权利要求1所述的方法,其中,所述方法进一步包括呈现所述经排序的等同实体的集合的至少一部分。5.根据权利要求4所述的方法,其中,与所述经排序的等同实体的集合的所述被呈现的部分中的至少一个搜索结果相关联的信息是从所述多个权威源中的多个权威源导出的。6.根据权利要求5所述的方法,其中,从所述多个权威源中的所说的多个权威源的至少一个中导出的所述信息不与所述至少一个搜索结果相关联地被呈现。7.根据权利要求5所述的方法,其中,所述方法进一步包括呈现所述多个权威源中的所说的多个权威源的至少一部分的指示,与所述至少一个搜索结果相关联的所述信息是从其导出的。8.根据权利要求7所述的方法,其中,所述多个权威源中的所说的多个权威源的所述指示的至少一部分是可选择的。9.一种由包括至少一个处理器的一个或多个计算设备执行的用于基于实体类型确定Web搜索的目标并且解析所述Web搜索的结果的方法,所述方法包括:接收搜索查询;确定与所接收的搜索查询相关的至少一个实体类型,其中所述实体类型表示由至少一个实体和一个或多个其它实体共享的至少一个共同属性;识别多个Web权威源,所述权威源包括对于与所接收的搜索查询相关联的至少一个实体类型是权威的Web源,所述权威源包括与和所接收的搜索查询相关联的至少一个实体类型相关的订阅的结构化提要或爬取的Web源的子集中的一个或多个;使用所接收的搜索查询,搜索权威源中的每一个以便确定与所接收的搜索查询相关的搜索结果;针对权威源中的每一个,基于与所接收的搜索查询相关联的至少一个实体类型过滤搜索结果以便创建搜索结果的经过滤的列表,搜索结果的所述经过滤的列表中的每个搜索结果都与所接收到的搜索查询相关并且与和所述至少一个实体类型相关联的实体有关;使用所述一个或多个计算设备将搜索结果的所述经过滤的列表中的每一个与解析的实体列表相比较,以便跨搜索结果的所述经过滤的列表中的每一个确定等同实体;通过合并跨搜索结果的所述经过滤的列表中的每一个确定的所述等同实体来创建搜索结果的合并列表,搜索结果的所述合并列表中的每个搜索结果都与所接收到的搜索查询相关并且与和所接收到的搜索查询相关联的至少一个实体类型相关联的不同的实体有关;以及基于排名值对搜索结果的所述合并列表进行排序,其中,分配给搜索结果的所述合并列表中的搜索结果中的至少一...
【专利技术属性】
技术研发人员:AK钱德拉,OJ达布罗夫斯基,DJ格梅尔,B鲁宾斯坦,
申请(专利权)人:微软公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。