当前位置: 首页 > 专利查询>GOOGLE公司专利>正文

具有实体检测的查询改写制造技术

技术编号:2919638 阅读:235 留言:0更新日期:2012-04-11 18:40
一种系统,接收搜索查询,确定所接收的搜索查询是否包括实体名称,以及确定该实体名称是否与常用字或者短语相关联。当该实体名称与常用字或者短语相关联时,该系统生成到改写的查询的链接,基于所接收的搜索查询执行搜索以获得第一搜索结果,以及提供第一搜索结果和到该改写的查询的链接。当该实体名称与常用字或者短语不相关联时,该系统改写所接收的搜索查询以包括与该实体名称相关联的限制标识符,生成到所接收的搜索查询的链接,基于改写的搜索查询执行搜索以获得第二搜索结果,以及提供第二搜索结果和到所接收的搜索查询的链接。

【技术实现步骤摘要】
【国外来华专利技术】
根据本专利技术原理的系统和方法通常涉及信息检索,并且尤其涉及基于对搜索查询中某些实体名称的检测而改写该查询。
技术介绍
万维网(“web”)包含巨量的信息。搜索引擎通过分类网络文档来帮助用户定位这些信息的期望部分。通常,响应于用户的请求,搜索引擎返回到与该请求相关的文档的链接。搜索引擎可以基于由用户提供的搜索项(被称为搜索查询)来确定用户的兴趣。搜索引擎的目标是标识到基于该搜索查询的相关结果的链接。通常,搜索引擎通过将搜索查询中的项目(term)与预先存储的web文档的文集(corpus)进行匹配来实现它。包含用户搜索项的web文档被认为是“命中”,并且被返回到用户。一些搜索引擎通过在搜索查询中包括特殊字符或者项目而允许用户将搜索限制到诸如与相同网站相关联的文档之类的相关文档集合。然而,时常地,用户忘记了包括这些特殊字符/项目或者不知道它们。
技术实现思路
根据按照本专利技术原理的一个方面,一种方法可以包括接收搜索查询;确定所接收的搜索查询是否包括实体名称;以及确定该实体名称是否与常用字或者短语相关联。该方法还可以包括基于该实体名称是否被确定为与常用字或者短语相关联,来有选择地改写所接收的搜索查询;基于所接收的搜索查询或者改写的搜索查询来执行搜索,以获得搜索结果;以及给出该搜索结果。根据另一方面,一种系统可以包括用于接收搜索查询的装置;用于确定所接收的搜索查询是否包括实体名称的装置;以及用于确定该实体名称是否与常用字或者短语相关联的装置。该系统还可以包括用于当确定该实体名称与常用字或者短语相关联时、改写所接收的搜索查询的装置;用于基于改写的搜索查询执行搜索以获得搜索结果的装置;以及用于提供该搜索结果的装置。根据又一个方面,一种系统包括存储器;和连接到该存储器的处理器,用于接收搜索查询;确定所接收的搜索查询是否包括实体名称;以及当确定所接收的搜索查询包括实体名称时,有选择地改写所接收的搜索查询以获得改写的搜索查询。根据进一步的方面,一种方法可以包括确定一组实体名称;确定每个实体名称是否与常用字或者短语相关联;以及生成与常用字或者短语相关联的实体名称的表格。根据另一方面,一种方法可以包括接收搜索查询;确定所接收的搜索查询是否包括实体名称;以及确定该实体名称是否与常用字或者短语相关联。当该实体名称与常用字或者短语相关联时,该方法可以包括生成到改写的查询的链接;基于所接收的搜索查询执行搜索,以获得第一搜索结果;以及提供第一搜索结果和到该改写的查询的链接。当该实体名称与常用字或者短语不相关联时,该方法可以包括改写所接收的搜索查询,以包括与该实体名称相关联的限制标识符;生成到所接收的搜索查询的链接;基于改写的搜索查询执行搜索,以获得第二搜索结果;以及提供第二搜索结果和到所接收的搜索查询的链接。附图说明并入这个说明书中并且构成其一部分的附图,举例说明了本专利技术的实施例,而且它连同该描述一起来阐述本专利技术。在附图中,图1是其中可以实现根据本专利技术原理的系统和方法的示范性网络的图示; 图2是根据按照本专利技术原理的实现方式的、图1中的客户端和/或服务器的示范性图示;图3是根据按照本专利技术原理的实现方式的、图1中的服务器的一部分的示范性功能框图;图4是根据按照本专利技术原理的实现方式的、候选字符串列表的示范性图示;图5是根据按照本专利技术原理的实现方式的、生成候选字符串列表的示范性处理的流程图;图6是根据按照本专利技术原理的实现方式的、有选择地改写查询的示范性处理的流程图;图7和8是根据按照本专利技术的原理的实现方式的、在新闻环境中的自动查询改写示例的图示;以及图9-11是根据按照本专利技术原理的实现方式的、在新闻环境中的查询改写建议示例的图示。具体实施例方式下面对本专利技术的详细说明需要参考附图。在不同附图中的相同参考数字可以标识相同或者类似的单元。此外,以下的详细说明不用来限制本专利技术。概述根据本专利技术原理的系统和方法可以在检测到某些实体的名称时,改写搜索查询或者生成到改写的搜索查询的建议链接。此处使用的“实体”可以指任何可以被标记为与某些文档相关联的事物。实体的示例可以包括新闻来源、诸如在线商店之类的商店、产品类别、商标或者生产商、特定产品模型、状态(例如,新的、用过的、整修的等)、作者、艺术家、人、地点、和组织。一些实体名称是明确的并且唯一地标识特定实体。然而,大量的名称多少有一些是不明确或者通用的,这使得当将它们包括在用户搜索查询中时更加难以标识它们想要对应的实体。根据本专利技术原理的系统和方法提供了用于确定实体名称所对应的实体、并且基于该实体名称有选择地改写用户的搜索查询的机制。因此,可以将用户的搜索查询限制为对与用户在该搜索中想要的实体相关联的文档(一个或多个)的搜索。示范性网络配置图1是其中可以实现根据本专利技术原理的系统和方法的网络100的示范性图示。网络100可以包括经由网络150连接到多个服务器120-140的多个客户端110。网络150可以包括局域网(LAN)、广域网(WAN)、诸如公共交换电话网(PSTN)之类的电话网络、企业内部网、Internet、存储器设备、或者网络的组合。为了简化起见,已经示出了有两个客户端110和三个服务器120-140连接到网络150。实际上,可以有更多或更少的客户端和服务器。此外,在有些情况下,客户端可以执行服务器的功能,而服务器可以执行客户端的功能。客户端110可以包括客户端部件。部件可以被定义为诸如无线电话、个人计算机、个人数字助理(PDA)、膝上型或者其它类型的计算或者通讯设备之类的设备,在这些设备之一上运行的线程或者处理,和/或可由这些设备之一执行的对象。服务器120-140可以包括服务器部件,其以根据本专利技术原理的方式收集、处理、搜索、和/或维护文档。客户端110和服务器120-140可以经由有线、无线、和/或光学连接而连接到网络150。在根据本专利技术原理的实现方式中,服务器120可以包括可由客户端110使用的搜索引擎125。服务器120可以在文档(例如,网页)的文集上爬行(crawl),索引该文档,并且在所爬行文档的储存库(repository)中存储与这些文档相关联的信息。服务器130和140可以存储或者维护可由服务器120爬行的文档。虽然服务器120-140被示为是单独的实体,但是有可能让服务器120-140中的一个或者多个执行其它一个或者多个服务器120-140的一个或者多个功能。例如,服务器120-140中的两个或多个有可能被实现为单个服务器。还有可能将单个服务器120-140实现为两个或多个单独的(并且有可能是分布式的)设备。此处使用的术语“文档”被广泛地解释为包括任何机器可读的和机器可存储的工作成果。文档可以包括电子邮件、网站、文件、文件的组合、具有到其它文件的嵌入式链接的一个或者多个文件、新闻组发布(posting)、博客、网络广告等。在Internet的环境中,常见的文档是网页。网页经常包括文本信息,而且可以包括嵌入的信息(诸如元信息、图像、超链接等)和/或嵌入的指令(诸如Javascript(Java脚本)等)。此处使用的术语“链接”被广泛地解释为包括任何对文档的引用或者来自文档的引用。示范性客户端/服务器结构图2是根据按照本专利技术原理的实现方式、可以对应于客户端110和服务器12本文档来自技高网...

【技术保护点】
一种方法,包含:接收搜索查询;确定所接收的搜索查询是否包括实体名称;确定实体名称是否与常用字或者短语相关联;基于该实体名称是否被确定为与常用字或者短语相关联,来有选择地改写所接收的搜索查询;基于所接收 的搜索查询或者所改写的搜索查询执行搜索,以获得搜索结果;以及给出该搜索结果。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:周弘克里希纳巴拉特迈克尔施米特迈克尔科蒂斯马里萨梅尔
申请(专利权)人:GOOGLE公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1