当前位置: 首页 > 专利查询>谷歌公司专利>正文

多个查询修订模型的集成制造技术

技术编号:2830563 阅读:176 留言:0更新日期:2012-04-11 18:40
一种信息检索系统,包括查询修订架构,其集成了多个不同的查询修订器,每个查询修订器实现一个或者多个查询修订策略。修订服务器接收用户的查询,并且与各个查询修订器连接,每个查询修订器生成一个或者多个潜在修订的查询。修订服务器评估潜在修订的查询,并且选择它们中的一个或者多个提供给用户。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术通常涉及信息检索系统,并且更具体地涉及用于修订用 户查询的系统架构。
技术介绍
信息检索系统(例如因特网搜索引擎) 一般能够快速地提供通 常与用户的查询相关的文档。搜索引擎可以使用词语和文档频率的 各种统计量度,以及文档之间和词语之间的关联,以便确定文档与 查询的相关性。大多数搜索引擎设计下的关键技术假设是用户查询 准确地表示用户的期望的信息目标。事实上,用户通常难以表示出良好的查询。单个查询经常不能 提供期望的结果,并且用户频繁地输入关于同 一主题的多个不同的查询。这些多个查询将通常地包括查询词语的宽度(breadth)和特征中 的变化、猜测的实体名称、词序、词的数量等等的改变。因为不同 的用户广泛地具有各种能力来成功地修订他们的查询,已经提出了 各种自动的查询修订方法。最通常地,查询精化(refinement)用于从较一般的查询中自动 地生成较精确的(即较窄的)查询。当用户输入过宽的查询时,其 前面的结果包括关于用户的信息需要的文档的超集,主要使用查询 精化。例如,想要关于三菱格兰(Galant)汽车信息的用户可能输入查 询三菱,,,该查询过于宽泛,因为其结果将包含许多不同的三菱 公司,而不仅仅是汽车公司。由此,将期望对该查询精化(尽管在 此是困难的,因为缺少用于确定用户的特定信息需要的附加上下 文)。然而,当用户输入过于具体的查询时,其中正确修订将加宽查 询,或者当前面的结果与用户的信息需要不相关时,查询精化并不 有用。例如,查询三菱格兰(Galant)信息,,可能因为词语信息 而导致较差的结果(在这种情况下,关于三菱格兰(Galant)汽车的结 果太少)。在这种情况下,正确修订用来加宽对三菱格兰(Galant) 的查询。由此,尽管查询修订在某些情况下起作用,但是在很多情 况下,需要通过使用其他查询修订技术来最好地满足用户的信息需 要。另一查询修订策略使用同义词列表或者词典以扩展查询,从而捕捉用户的潜在信息需要。然而,与查询精化一样,查询扩展不总 是修订查询的适合方式,并且结果的质量非常依赖于查询词语的上 下文。因为在每个实例中没有 一 种查询修订技术可以提供期望的结 果,所以期望具有一种方法,其提供多个不同的查询修订方法(或 者策略)。
技术实现思路
信息检索系统包括提供多个不同查询修订器(reviser)的查询修 订架构,其中每个修订器实现其自己的查询修订策略。每个查询修 订器评估用户查询以确定用户查询的 一个或者多个潜在修订的查 询。修订服务器与查询修订器交互作用以获得潜在修订的查询。修 订服务器还与信息检索系统中的搜索引擎交互作用,以针对每个潜 在修订的查询获得搜索结果集。修订服务器选择 一 个或者多个修订 的查询,用于与针对每个选择的修订的查询的搜索结果的子集 一 起 呈现给用户。由此用户能够查看针对修订的查询的搜索结果的质量, 并且然后选择修订的查询之一 以获得针对修订的查询的搜索结果全 集。接下来参照各个附图、图表以及技术信息对本专利技术进行描述。 附图仅出于示意的目的描绘了本专利技术的各种实施方式。根据以下描 述本领域的技术人员将容易地认识到在不偏离本专利技术原理的前提 下,可以采用所示出和描述的结构、方法以及功能的可选实施方式。附图说明图1 a是提供查询修订的信息检索系统实施方式的整体系统图; 图lb是可选的信息检索系统的整体系统图; 图2是原始用户查询的示例结果页面的图示; 图3是示例修订查询页面的图示。具体实施方式 系统概述图la示出了根据本专利技术的一个实施方式的系统100。系统100 包括前端服务器102、搜索引擎104以及相关联的内容服务器106、 修订服务器107以及多个查询修订器108。在操作期间,用户经由传 统客户端118通过网络(诸如因特网,未示出)访问系统100,其在 任意类型的客户端计算设备上操作,例如执行浏览器应用或者适合 用于通过因特网相关协议(例如TCP/IP以及HTTP )通信的其他应 用。尽管仅示出了单个客户端118,但是系统IOO可以支持与许多客 户端的很多个并发会话。在一个实施中,系统100在高性能服务器 类计算机上操作,并且客户端设备118可以是任何类型的计算设备。已公知,在此不再赘述前端服务器102负责接收客户端118提交的搜索查询。前端服 务器102向搜索引擎104提供查询,该搜索引擎根据搜索查询来评 估查询以取回搜索结果集,并且将结果返回前端服务器102。搜索引 擎104与一个或者多个内容服务器106通信以选择关于用户的搜索 查询的多个文档。内容服务器106存储从不同网站索引(和/或检索) 的大量文档。可选地或者附加地,内容服务器106存储在各个网站 上存储的文档的索引。在此将文档,,理解为任何形式的可索引内 容,包括任何文本或者图形格式的文本文档、图像、视频、音频、 多媒体、演示、网页(其可以包括嵌入的超链^接和其他元数据和/或程序,例如以Javascript编写)等。在一个实施方式中,根据文档的 链接结构,对每个索引的文档赋予页面等级。页面等级作为文档重 要性的独立于查询的度量。在美国专利No.6,285,999中描述了页面 等级的示例性形式,在此通过参考将其并入。基于文档的页面等级 (和/或文档重要性的其他独立于查询的度量)、以及文档重要性(例 如搜索词语在文档中的位置和频率)的 一 个或者多个依赖于查询的 信号,搜索引擎104对每个文档分配分值。前端服务器102还向修订服务器107提供查询。修订服务器107 与多个不同查询修订器108进行接口连接,其中每个查询修订器108 实施不同的查询修订策略或者策略集。在一个实施方式中,查询修 订器108包括加宽修订器108,1、语法修订器108.2、精化修订器 108.3以及基于会话的修订器108.4。修订服务器107向每个修订器 108提供查询,并且响应于每个修订器108而获取一个或者多个潜在 的^f务订查询(在此称为潜在的,因为在此时它们还没有^皮^修订 服务器107采用)。系统架构特别地设计为允许使用任何数量的不 同查询修订器108,因为不好的执行查询修订器108将被去除,以及 因为在将来需要时将添加新的查询修订器108 (由普通修订器108.n 来指示)。这赋予了系统IOO特别的灵活性,并且还使得系统能够 被定制以及适应用于特定主题内容领域(例如,用于在如医药、法 律等领域的修订器)、企业(针对内部信息检索系统,专用于特别 商业领域或者公司域的修订器,)、或者针对不同语言(例如针对 指定语言或者方言的修订器)。优选地,每个修订的查询与置信度度量度量(confidence measure ) 相关联,该置信度度量度量表示修订是良好修订的概率,良好修订 即修订的查询将产生的结果比原始查询产生的结果与用户的信息需 要更相关。由此,每个潜在修订的查询可以通过元组(tuple) (Ri, Ci)来表示,其中R是潜在修订的查询,并且C是与该修订的查询 相关联的置信度度量。在一个实施方式中,针对每个修订器108的 每个修订策略,预先人工地估计这些置信度度量。可以从测试下的 示例查询和修订的查询的结果分析中导出该度量。例如,精化修订 器108.3可以对来自原始短查询(例如三个或者更少词语)的修本文档来自技高网
...

【技术保护点】
一种使用多个查询修订策略提供针对原始查询的修订的查询的方法,该方法包括:    接收所述原始查询;    使用所述多个查询修订策略生成针对所述原始查询的多个潜在修订的查询;    选择多个潜在修订的查询的子集作为修订的查询;以及    提供对所述修订的查询的访问。

【技术特征摘要】
【国外来华专利技术】US 2005-3-29 11/094,8141.一种使用多个查询修订策略提供针对原始查询的修订的查询的方法,该方法包括接收所述原始查询;使用所述多个查询修订策略生成针对所述原始查询的多个潜在修订的查询;选择多个潜在修订的查询的子集作为修订的查询;以及提供对所述修订的查询的访问。2. 根据权利要求1所述的方法,其中所述原始查询是当客户端 输入时从前端服务器接收的。3. 根据权利要求2所述的方法,其中所述前端服务器将所述原 始查询的结果返回到所述客户端。4. 根据权利要求1所述的方法,其中生成所述多个潜在修订的 查询,包4舌将所述原始查询提供到实施所述多个查询修订策略的修订器;以及从所述修订器的每 一 个接收所述多个潜在修订的查询中的 一 个 或者多个。5. 根据权利要求4所述的方法,其中与所述多个潜在修订的查 询中的一个或者多个的每一个一起接收置信度度量。6. 根据权利要求1所述的方法,其中选择所述多个潜在修订的 查询的子集包括通过置信度度量对所述多个潜在修订的查询进行排序,以创建所 述多个潜在修订的查询的等级。7. 根据权利要求6所述的方法,进一步包括获得针对所述多个潜在修订的查询中的每一个的搜索结果;以及 通过评估所述搜索结果,从所述多个潜在修订的查询选择所述修 订的查询。8. 根据权利要求7所述的方法,其中选择所述修订的查询包括选才奪一个或者多个所述修订的查询,其中针对所述潜在修订的查询的所述搜索结果包括最小数量的搜索结果;针对所述潜在修订的查询的所述搜索结果包括最小数量的新的 前面的结果;以及所述选择的修订的查询不超过预定的最大数量。9. 根据权利要求8所述的方法,其中所述搜索结果的最小数量 是l,所述新的前面的结果的最小数量是2,并且所述预定的最大数 量是4。10. 根据权利要求7所述的方法,其中获得针对所述多个潜在修 订的查询中的每个的搜索结果包括提供所述多个潜在修订的查询到搜索引擎;以及从所述搜索引擎接收所述多个潜在修订的查询的结果。11. 根据权利要求1所述的方法,其中所述多个查询修订策略包 括由加宽、精化、语法修订以及基于会话的修订所组成的组中的至 少一个。12. 根据权利要求1所述的方法,其中所述访问是经由针对所述 原始查询的结果页面上显示的对所述修订的查询的链接进行的。13. 根据权利要求12所述的方法,其中所述链接提供对修订的 查询页面的i方问。14. 根据权利要求13所述的方法,其中针对所述原始查询的所 述结果页面上显示的位置取决于与所述修订的查询相关联的置信度 度量。15. 根据权利要求1所述的方法,其中所述访问是经由针对所述 原始查询的结果页面上的显示。16. —种使用多个查询修订策略提供针对原始查询的修订的查 询的方法,所述方法包4舌接收所述原始查询;将所述原始查询提供到实施多个查询修订策略的修订器;从每个所述修订器接收针对所述原始查询的 一 个或者多个潜在1奮订的查询;通过置信度度量对所述潜在修订的查询进行排序,以创建所述潜 在修订的查询的等级;获得针对所述潜在修订的查询中的每一个的搜索结果; 通过评估所述搜索结果从所述潜在修订的查询中选择所述修订的查询;以及提供对所述修订的查询的访问。17. 根据权利要求16所述的方法,其中所述多个查询修订策略 包括由加宽、精化、语法修订以及基于会话的修订所组成的组中的 至少一个。18. 根据权利要求16所述的方法,其中所述访问是经由针对所 述原始查询的结果页面上显示的对所述修订的查询的链接进行的。19. 根据权利要求16所述的方法,其中所述访问是经由针对所 述原始查询的结果页面上的显示。20. —种使用多个查询修订策略提供针对原始查询的修订的查 询的方法,该方法包4舌接收所述原始查询;将所述原始查询提供到实施多个查询修订策略的修订器; 从每个所述修订器接收针对所述原始查询的多个潜在修订的查 询中的一个或者多个;通过置信度度量对所述多个潜在修订的查询进行排序,以创建所述多个潜在修订的查询的等级;将所述多个潜在修订的查询提供到搜索引擎; 从所述搜索引擎接收所述多个潜在修订的查询的结果; 获得针对所述多个潜在修订的查询中的每一 个的搜索结果;以及 如果满足特定条件,则通过维持所述多个潜在修订的查询中的每一个,从等级的前面开始来从所述多个潜在修订的查询中选择所述修订的查询,所述条件包括针对从所述多个潜在修订的查询选择的修订的查询的所述搜索结果产生最小数量的搜索结果;针对所述选择的修订的查询的搜索结果;以及所述选择的修订的结果不引起修订的查询的总数量超过预定的最大数量;以及经由在针对所述原始查询的结果页面上显示的链接,提供对所述〈奮i丁的查询的i方问。21. —种存储可由处理器执行的计算机程序的计算机可读存储 器,所述计算机程序生成用户界面,用于针对给出的原始查询提供 一个或者多个修订的查询,所述用户界面包括第一区域,用于显示原始查询和与所述原始查询相关联的结果的 列表;以及第二区域,其与所述第一区域同时显示,用于显示到修订的查询 集的链接。22. 根据权利要求21所述的计算机可读介质,其中到修订的查 询集的所述链接被显示在与所述原始查询相关联的所述结果列表的 底部。23. 根据权利要求21所述的计算机可读介质,其中到所述修订 的查询集的所述链接被显示在所述原始查询上方。24. 根据权利要求21所述的计算机可读介质,其中使用与所述 修订的查询集相关联的分值来确定所述第二区域相对于所述第 一 区 域的位...

【专利技术属性】
技术研发人员:DR贝利AJ巴特尔BA戈梅斯PP纳亚克
申请(专利权)人:谷歌公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1