当前位置: 首页 > 专利查询>谷歌公司专利>正文

使用已知高级查询的查询修订制造技术

技术编号:2830954 阅读:246 留言:0更新日期:2012-04-11 18:40
一种信息检索系统,包括提供一个或者多个查询修订器的查询修订架构,其中每个查询修订器实现一种查询修订策略。查询等级修订器最初通过向所有查询赋予等级并且标识一组已知高等级查询(KHRQ),来建议将已知的高等级查询作为第一查询的修订。将具有修订至KHRQ强概率的查询标识为邻近查询(NQ)。提供是KHRQ的可替换查询作为针对给定查询的候选修订。对于是NQ的可替换查询,将所述相应的已知高等级查询作为候选修订来提供。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术通常涉及信息检索系统,并且更具体地,本专利技术涉及用 于4奮订用户查询的系统和方法。
技术介绍
通常,信息检索系统(如通过因特网搜索引擎所示例的那些信 息检索信息)能够快速提供通常与用户查询相关的文档。搜索引擎 可以使用词语和文档频率的各种统计测量以及文档之间和词语之间 的关联,来确定文档对于查询的相关性。支持大多数搜索引擎设计 的 一 个关键技术假设在于,用户查询精确地表示了用户期望的信息 目标。实际上,用户通常难以明确表达好的查询。经常地,单一查询 不能提供期望的结果,并且用户频繁地输入关于相同主题的许多不 同查询。通常,这些多查询包括查询词语的宽度和特征中的变化、 猜测的实体名称、词序、词的数量中的变化等,在实现期望的结果 集之前,有时候会形成长的查询链。由于不同用户对于成功地修订 他们的查询具有差异很大的能力,因而已经提出了各种自动化的查 询》务订方法。最普通地,使用查询精化(refinement)来从较为一般的查询 生成更为精确(例如,更窄)的查询。当用户输入过于宽泛的查询 时,查询精化非常有用,其中这种过于宽泛的查询的前面的结果包 括与用户所需信息相关的文档的超集。例如,用户想要关于 Mitsubishi Galant汽车的信息,则该用户可能输入Mitsubishi 这种过于宽泛的查询,而结果将覆盖许多不同的Mitsubishi公司, 而不仅是汽车公司。由此,希望对查询进行精化(尽管因为缺少额 外上下文以确定用户需要的特定信息,这是困难的)。然而,当用户输入过于具体的查询,其中正确的修订是扩展查 询时,或者当前面的结果与用户的信息需要无关时,查询精化是没 用的。例^口, 查询Mitsubishi Galant information (三菱Galant信息)可能由于词语information (信息)导致很少的结果 (在此情况下,关于Mitsubishi Galant汽车的结果过少)。在此 情况下,正确的修订是将该查询扩展到Mitsubishi Galant。由 此,尽管查询精化在某些情况下起作用,但存在大量情况是,其中 通过使用其他查询修订技术来最好地满足用户的信息需要。另一查询修订策略使用同义字列表或者词典来扩展查询,以便 捕获用户的潜在信息需要。然而,正如查询精化那样,对于修订查 询而言查询扩展并非总是适合的方式,并且结果的质量非常依赖于 查询词语的上下文。
技术实现思路
一种信息检索系统包括提供 一 个或者多个不同查询修订器的查 询修订架构,其中每个查询修订器执行其自身的查询修订策略。每 个查询修订器评估用户查询以确定用户查询的 一 个或者多个潜在的 已修订查询。修订服务器与查询修订器交互以获取潜在的已修订查 询。修订服务器还与信息检索系统中的搜索引擎交互以获取针对每 个潜在的已修订查询的搜索结果的集合。修订服务器选择一个或者 多个已修订查询以及针对每个所选择已修订查询的搜索结果的子集 用于向用户呈现。由此,根据一个实施方式,用户能够查看针对已 修订查询的搜索结果的质量,并且然后选择一个已修订查询来获取 针对已修订查询的搜索结果的全部集合。一种系统和方法基于过去其他用户已经形成的查询串的分析, 使用基于会话的用户数据来更为正确地捕获用户的潜在信息需要。 为完成此目的,基于从多个单独的用户会话中采集的数据来提供已 修订查询。例如,这种数据可以包括点击数据、明确的用户数据或 者悬而未决的(hover)数据。对于使用悬而未决的数据的用户反馈 的描述,参见于2003年12月31日提交的名称为Methods and Systems for Assisted Network Browsing 的美国申i青系歹ll号 10/749, 440。在一个实施方式中,查询等级修订器建议将一个或者多个已知 高等级查询作为对第一查询的修订。首先,向所有查询赋予查询等 级。查询等级修订器创建查询和相应查询等级的表,将最高等级的查询标识为已知高等级查询(KHRQ)。将具有修订至KHRQ的强概率 的查询标识为邻近查询(NQ),存储从每个NQ指向对应KHRQ的指 针,并且对KHRQ和NQ查询做索引。对于给定查询,查询等级修订器确定关于索引的查询的修订概 率。接着使用修订概率和针对索引的查询的查询等级来针对每个索 引的查询计算修订分值(RS)。然后,将具有最高修订分值的索引 的查询作为可替换查询取回。提供是KHRQ的可替换查询作为候选修 订,并且针对是NQ的可替换查询,使用在索引中存储的指针,提供 相应的已知高等级查询作为候选修订。接着关于各种附图、图示和技术信息对本专利技术进行了描述。仅 出于示意性目的,附图对本专利技术的各种实施方式进行了描述。本领 域技术人员从下文描述中将很容易认识到,可以使用示出的和所描 述的结构、方法以及功能的可替换实施方式,而并不脱离本专利技术的 原理。附图说明图1是根据本专利技术的一个实施方式的提供用于查询修订的信息 检索系统的一个实施方式的系统图2是根据本专利技术一个实施方式的对于原始用户查询的示范性 结果页面的示意图3是根据本专利技术一个实施方式的示范性已修订查询页面的示 意图4示出了根据本专利技术一个实施方式的查询的拓朴图; 图5示出了根据本专利技术另一实施方式的查询的拓朴图。具体实施例方式系统概括图la示出了根据本专利技术一个实施方式的系统100。系统100包 括前端服务器102、搜索引擎104以及相关联的内容服务器106、修 订服务器107和一个或者多个查询修订器108。在操作期间,用户经 由传统客户端118来通过网络(诸如,因特网,未示出)访问系统 100,该网络在任意类型的客户端计算设备上操作,该客户端计算设 备例如执行浏览器应用或者适用于通过因特网相关协议(例如, TCP/IP和HTTP)来通信的其他应用。尽管仅示出了单一的客户端 118,系统100可支持与许多客户端的大量并发事务。在一个实现中, 系统100在高性能服务器类计算机上操作,并且客户端设备118可 以是任何类型的计算设备。关于服务器和客户端计算机的硬件方面 的细节对于本领域技术人员是公知的,并且在此不必进一步描述。前端服务器102负责接收由客户端118提交的搜索查询。前端服 务器102向搜索引擎104提供查询,该搜索引擎评估查询以根据搜索 查询来取回搜索结果集合,并且将结果返回前端服务器102。搜索引 擎104与一个或者多个内容服务器106通信以选择与用户的搜索查询 相关的多个文档。内容服务器106存储从不同网站索引的(和/或取 回的)大量文档。可替换地或者附加地,内容服务器106存储在各种 网站上存储的文档的索引。在此将文档理解为可索引内容的任 何形式,包括文本或者图形格式的文本文档、图像、视频、音频、多媒 体、演示、网页页面(其可包括嵌入的超链接和其他元数据和/或程序, 例如,以Javascript编写)等。在一个实施方式中,根据文档的纟连冲妻 结构,对每个索引的文档赋予页面等级。页面等级作为文档重要性 的查询独立的测量。在美国专利No. 6, 2 8 5, 999中描述了页面等级的 示例形式,在此通过引用而引入。基于文档的页面等级(和/或文档 重要性的其他查询独立的测量)以及文档重要性的 一个或者多个查询依赖信号的测量(例如本文档来自技高网
...

【技术保护点】
一种用于响应于第一查询来自动建议已知高等级查询的方法,包括:    根据第一查询相对于索引的查询的修订概率和针对所述索引的查询的查询等级,来计算针对所述索引的查询的修订分值;    响应于所述修订分值,选择性地检索所述索引的查询,作为对所述第一查询的可替换查询;以及    响应于所述可替换查询是已知高等级查询,返回所述可替换查询作为候选修订查询。

【技术特征摘要】
【国外来华专利技术】US 2005-3-29 11/094,814;US 2005-3-30 11/096,198;US1.一种用于响应于第一查询来自动建议已知高等级查询的方法,包括根据第一查询相对于索引的查询的修订概率和针对所述索引的查询的查询等级,来计算针对所述索引的查询的修订分值;响应于所述修订分值,选择性地检索所述索引的查询,作为对所述第一查询的可替换查询;以及响应于所述可替换查询是已知高等级查询,返回所述可替换查询作为候选修订查询。2. 根据权利要求1所述的方法,进一步包括 响应于所述可替换查询具有修订至已知高等级查询的统计上显著的概率,返回所述已知高等级查询作为候选修订查询。3. 根据权利要求1所述的方法,其中所述第一查询是查询修订。4. 根据权利要求1所述的方法,其中所述修订分值是所述第一 查询相对于所述索引的查询的修订概率和针对所述索引的查询的查 询等级的乘积。5. 根据权利要求1所述的方法,进一步包括将查询标识为所述 已知高等级查询。6. 根据权利要求5所述的方法,进一步包括计算针对所述查询的查询出现频率; 计算针对所述查询的用户满意分值;以及根据所述查询出现频率和用户满意分值来计算针对所述查询的 等级。7. 根据权利要求6所述的方法,其中由估计搜索结果上的点击长度的用户点击行为数据来确定所述用户满意分值。8. 根据权利要求6所述的方法,其中由逆修订频率来确定所述用户满意分值。9. 根据权利要求8所述的方法,其中所述逆修订频率是所述查询的修订次数除以所述查询的出现频率的结果的逆。10. 根据权利要求1所述的方法,进一步包括创建包括所述索引 的查询的查询的索引。11. 根据权利要求10所述的方法,其中所述索引包括从所述索 引中的每个所述查询指向一个或者多个已知高等级查询的指针。12. 根据权利要求1所述的方法,其中所述修订概率包括所述索 引的查询相对于所述第一查询的行为相似性。13. 根据权利要求1所述的方法,其中所述修订概率包括所述索 引的查询相对于所述第一查询的语义相似性。14. 根据权利要求1所述的方法,其中所述修订概率包括所述索 引的查询相对于所述第一查询的句法相似性。15. 根据权利要求1所述的方法,进一步包括 记录从用户会话生成的查询数据;以及使用所述查询数据以生成所述查询的索引。16. 根据权利要求1所述的方法,进一步包括使用针对所述候选修订查询的所述修订分值作为置信度度量来 对所述候选查询划分等级。17. 根据权利要求1所述的方法,进一步包括提供所述候选修订查询作为针对所述第 一 查询的建议的修订。18. 根据权利要求17所述的方法,其中在根据所述置信度度量 的相对强度的位置中向用户显示所述建议的修订。19. 一种响应于第一查询来自动建议已知高等级查询的方法,包括记录从用户会话生成的查询数据; 在所述用户会话期间创建查询的索引;根据所述第一查询相对于索引的查询的修订概率和针对所述索 引的查询的查询等级,来计算针对所述索引的查询的修订分值,其 中所述修订概率包括所述索引的查询相对于所述第一查询的相似 性;响应于所述修订分值,选择性地检索所述索引的查询,作为对所述第一查询的可替换查询;响应于所述可替换查询是已知高等级查询,返回所述可替换查询 作为候选修订查询,其中,标识所述已知高等级查询包括计算针对查询的查询出现频率;计算针对查询的用户满意分值,其中通过估计搜索结果上的点击长度的用户点击行为数据来确定所述用户满意分值;以及作为所述查询出现频率和所述用户满意分值的乘积,计算针对所述查询的等级;响应于所述可替换查询具有修订至已知高等级查询的统计上显 著的概率,返回所述已知高等级查询作为候选修订查询;使用针对所述候选修订查询的修订分值作为置信度度量来对所 述候选修订查询划分等级;以及将所述候选修订查询提供作为针对所述第 一 查询的建议的修订, 其中在根据所述置信度度量的相对长度的位置中向用户显示所述建 议的修订。20. —种将查询标识为已知高等级查询的方法,包括 计算针对所述查询的查询出现频率; 计算针对所述查询的用户满意分值...

【专利技术属性】
技术研发人员:DR贝利AJ巴特尔DA科恩B恩格尔哈特PP纳亚克
申请(专利权)人:谷歌公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1