当前位置: 首页 > 专利查询>微软公司专利>正文

宽松的过滤设置制造技术

技术编号:7161302 阅读:162 留言:0更新日期:2012-04-11 18:40
此处描述了搜索引擎查询中的关键字的子集。所述搜索引擎查询被解析成关键字。对照倒排索引来检查这些关键字以确定是否有任何网络文档包含关键字的子集。包含关键字的子集的文档在搜索结果列表中被列出并传送回给用户。

【技术实现步骤摘要】
【国外来华专利技术】宽松的过滤设置背景大多数现行的搜索引擎使用基于关键字的搜索以在万维网(web)上定位网页或在线信息。搜索引擎使用web爬行器来遍历在线网页并将网页的内容归类成倒排索引。倒排索引是一种索引数据结构,其存储了关键字到已被web爬行器定位了关键字的在线文档的映射关系。倒排索引中的条目包括关键字和含有感兴趣的关键字的文档的列表。当用户向搜索引擎发出诸如“dentists in Seattle Washington”(华盛顿州西雅图市内的牙医) 之类的查询时,搜索引擎能通过查找倒排索引来快速地检索出包含这四个关键字的在线文档的列表。大多数基于关键字的搜索引擎按如下假设操作用户仅意在寻找含有所有搜索项的文档。传统搜索引擎通过定位含有所提交的每一个关键字的文档来应答提交的查询。 这一般被称为“基于“与”的搜索”。然而当用户通过包含不必要的项来过度指定查询时, 未含有一个或多个额外项的相关文档不能被定位到。在上述例子中,倒排索引可能仅仅指定包含关键字“dentists”(牙医)和“Seattle”(西雅图市)但不包含“in” (内的)和 “Washington”(华盛顿州)的文档。因此,搜索引擎将不返回不包括以上全部四个关键字的文档。概述提供此概述以便以简化的形式介绍在以下的详细描述中进一步描述的一些概念。 此概述并不意在标识所要求保护的主题的关键特征或必要特征,也不是意在被用于帮助确定所要求保护的主题的范围。本专利技术的一个方面涉及定位满足搜索引擎查询中的单词的子集的web文档。一旦用户将查询提交给搜索引擎,搜索引擎将查询解析为关键字并确定web爬行器是否在任何在线文档中找到这些关键字的子集。为了这样做,搜索引擎可对照web爬行器找到的项的倒排索引查询单词,并检查在其中找到这些项的文档。还有,搜索引擎查询中的一些关键字可被指定为“非宽松”关键字。非宽松关键字,如果被指定的话,必须被包含在被标识为匹配查询的任何文档中。搜索引擎在搜索结果列表中返回标识出的文档。本专利技术的另一个方面涉及被配置成返回上述搜索结果列表的服务器。所述服务器被配置成从客户机计算设备接收搜索引擎查询,将所述查询解析为关键字,搜索倒排索引以确定是否有任何文档包含这些关键字的子集。所述服务器还可被配置成仅定位还包含任何非宽松关键字的文档。附图的若干视图的简述下文参考附图详细描述本专利技术,其中附图说明图1是根据一个实施例的示例性计算设备的框图;图2是根据一个实施例的倒排索引的表格表示的示图;图3A是根据一个实施例的在搜索引擎上执行宽松搜索(relaxed searching)的联网环境的框图;图;3B示出根据一个实施例的在配置成执行宽松搜索的联网环境上的框图和信息4流;图4是示出根据一个实施例的在搜索引擎上执行宽松搜索的步骤的流程图;以及图5是根据一个实施例的来自执行宽松搜索的搜索引擎的搜索结果列表的示图。详细描述此处描述的主题用具体细节来呈现以满足法定要求。然而,此处的描述并不意在限制本专利的范围。相反,可以理解的是所要求保护的主题还可以结合其他当前或将来的技术以其他方式实现,以包括与本文档中所述的步骤不同的步骤或与本文档中所述的步骤类似的步骤的组合。另外,尽管此处可使用术语“框”来指示所用方法的不同元素,但该术语不应该被理解为意味着此处所公开的各步骤之中或之间的任何特定顺序。一般来说,此处描述的实施例涉及搜索引擎,该搜索引擎通过标识仅包含用户提交的关键字的子集的文档来为搜索引擎查询创建结果列表。在一个实施例中,一旦用户提交搜索引擎查询,搜索引擎在倒排索引中检查以定位含有该查询中的每个单独的关键字的文档。然后,为每个单词而被标识的文档可被比较,以查看该文档是否包含任何其他关键字。只有包含了关键字的子集的文档才会被标识用于结果列表。关键字的子集相当于关键字总数(N)减去小于N的给定数字(K),产生N-K个单词长度的子集。例如,如果查询包含 "Seattle dentists in Washington”,且K等于1,那么文档将仅需要上述单词中的任意三个单词以被包括在结果列表上。K可以任何数字变化,且可要么由搜索引擎的管理者设定, 要么由搜索引擎使用已知的试探法来设定。为简明起见,N减去K在此处用N-K表示。在替代实施例中,搜索引擎可被配置成仅搜索包含N个单词的给定查询中更少数量的单词(M)的web文档,M<N。例如,还看上述查询,在这个实施例中搜索引擎可被配置成搜索含有“Seattle",“dentists",“ in"和“Washington,,以中的任意两个或三个单词的文档。因此,在这个实施例中,该查询的任M个单词可在web文档上进行匹配。如此处所讨论的,搜索引擎查询是指搜索引擎进行对Web的任何关键字。web搜索查询可用本领域技术人员所熟知的任何数量的方式来发起。例如,用户可在搜索引擎的网页上的文本域或者网页浏览器的工具栏的文本域中输入关键字或短语。对于本领域的技术人员而言,显然用于发起搜索引擎查询的众多方式也都是可能的且不必在此具体讨论。尽管此处讨论的实施例涉及经由因特网访问网页,但是其他实施例可经专用网络来访问电子文档。在一个实施例中,本专利技术采用计算机程序产品的形式,该计算机程序产品包括在一个或多个计算机可读介质上具体化的计算机可用指令。计算机可读介质包括易失性和非易失性介质、可移动和不可移动介质,且考虑了可由数据库、交换机和各种其他网络设备读取的介质。作为示例而非限制,计算机可读介质包括计算机存储介质。计算机存储介质或机器可读介质包括以用于存储信息的各种方法或技术实现的介质。存储的信息的例子包括计算机可用指令、数据结构、程序模块和其他数据表示。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、独立于诸如紧致盘只读存储器(CD-ROM)、数字多功能盘(DVD),全息介质或其他光盘介质、磁带盒、磁带、 磁盘存储或其他磁存储设备等不同存储介质或结合这些不同存储介质使用的闪存。这些存储器组件可瞬时地、暂时地或永久地存储数据。已经简要地描述了此处描述的实施例的一般概览,下面描述示例性操作环境。首先具体参看图1,用于实现一个实施例的示例性操作环境被示出并总地指定为为计算设备 100。计算设备100仅是合适的计算环境的一个示例,并不意在对本专利技术的使用或功能范围做任何限定。计算设备100也不能被解释为具有对与所示的任何一个组件或其组合有关的任何依赖性或要求。在一个实施例中,计算设备100是个人计算机。不过在其他实施例中, 计算设备100可以是蜂窝电话、智能电话、数字电话、手持设备、黑莓 、个人数字助理(PDA) 或者能执行计算机指令的其他设备。可在包括诸如程序模块之类的由计算机或诸如PDA或其他手持设备之类的其他机器执行的计算机可执行指令的计算机代码或机器可用指令的一般上下文中描述各实施例。一般而言,包括例程、程序、对象、组件、数据结构等的程序模块指的是执行特定任务或实现特定抽象数据类型的代码。此处描述的各实施例可以在各种系统配置中实现,包括手持设备、消费电子产品、通用计算机、更专用计算设备等。此处描述的实施例还可以在分布式计算环境中实现,其中任务是由通过通信网络链接的远程处理本文档来自技高网...

【技术保护点】
1.一个或多个在其上含有计算机可执行指令的计算机可读介质,所述计算机可执行指令用于执行检索并传送由用户通过搜索引擎提交的查询的搜索结果的方法,所述方法包括:接收查询(402);将查询解析成一个或多个关键字(404);在倒排索引中搜索所述一个或多个关键字(406);标识含有比所述一个或多个关键字中的全部关键字少的关键字的网络文档(408);传送网络文档的列表(410)。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:Y·王
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1