当前位置: 首页 > 专利查询>微软公司专利>正文

用于排列搜索结果的文档以改进多样性和信息丰富度的方法和系统技术方案

技术编号:2854202 阅读:191 留言:0更新日期:2012-04-11 18:40
一种基于主题的信息丰富度和多样性来排列搜索结果的文档的方法和系统。该排列系统决定在搜索结果中的每一个文档的信息丰富度。该排列系统基于它们的关联性而将搜索结果的文档分组,意味着它们被指向相似的主题。该排列系统将文档排序以保证最高排列文档可以包含覆盖每一个主题的至少一篇文档,那就是说,来自每一个组的一篇文档。该排列系统从在该组中具有最高信息丰富度的文档的每一组中选择文档。当这些文档以某个排列顺序提供给用户时,用户将在搜索结果的第一页中发现覆盖各种类型的主题的文档,而不仅仅是单一的受欢迎的主题。

【技术实现步骤摘要】

所述的技术一般涉及由提交给一个搜索引擎装置的一个搜索请求所识别的一个搜索结果的文档的排列。
技术介绍
许多搜索引擎装置,例如Google和Overture,提供用来搜索经由Internet可以被访问的信息。这些搜索引擎装置允许用户搜索用户关心的显示页,例如web页。在用户提交一个包含搜索条件的搜索请求后,该搜索引擎装置识别可能与这些条件相关联的web页。为了快速地识别相关的web页,该搜索引擎装置可以保持一个web页的关键词映射。该映射依靠“爬行”该web(即,环球信息网)以提取每一个web页的关键词来产生。为了爬行该web,一个搜索引擎装置可以利用根web页的列表来识别所有的可以通过这些根web页而被访问的web页。任何特定web页的关键词可以使用各种公知的信息检索技术被提取,例如识别一个标题的词、在web页的元数据中所提供的词、突出显示的词,等等。该搜索引擎装置可以计算一个关联性分数,该关联性分数指出每一个web页与基于每一个匹配的接近性、web页普及性(例如,Google的PageRank)等等的搜索请求在多大程度上相关联。该搜索引擎装置然后用基于这些web页的关联性的一个顺序显示给用户这些web页的链接。搜索引擎可能更普遍地提供用于任何文档的集合中的信息的搜索。例如,该文档的集合可以包括所有的美国专利、所有的联邦法庭的意见、一个公司的所有存档文档等等。由一个基于web的搜索引擎装置提供的搜索结果的最高排列的web页可能被全部指向相同的受欢迎的主题。例如,如果一个用户利用搜索条件“Spielberg”提出一个搜索请求,然后该搜索结果的最高排列的web页将可能与StevenSpielberg相关。然而,如果用户对Steven Spielberg不感兴趣,而是对定位于一个具有同姓的数学教授的主页感兴趣的话,则该web页的排列对用户是没有帮助的。尽管该教授的主页可能被包含在搜索结果中,但该用户仍然需要去浏览链接于该搜索结果的web页的许多页,以定位该教授的主页的链接。通常,当没有被识别为搜索结果的第一页时,对于用户来说定位一个期望的文档是困难的。此外,当用户不得不翻阅多页搜索结果以找到感兴趣的文档时,他们会感到很灰心。人们会期望一种用于排列文档的技术,它可以提供更多样化的存在于最高排列文档中的主题,人们会更进一步地期望每个这样的最高排列文档具有与它的主题相关的丰富的信息内容。专利技术概述一种基于主题的信息的丰富度和多样性而排列搜索结果的文档的系统。一种排列系统基于它们的关联性而将搜索结果的文档分组,意味着它们被指向类似的主题。该排列系统为文档排序以保证最高排列文档包含覆盖每一个主题的至少一篇文档。该排列系统然后从在该组中具有文档的最高信息丰富度的每一组中选择文档,作为最高排列文档中的一篇。附图的简要说明附图说明图1是说明在一个实施例中的一个相关性曲线图的图表。图2是说明在一个实施例中的排列系统的部件的方块图。图3是说明在一个实施例中的排列系统的全部处理的流程图。图4是说明在一个实施例中的一个构造相关性曲线图部件的处理的流程图。图5是说明在一个实施例中的一个排列文档部件的处理的流程图。详细说明一种用于基于主题的信息的丰富度和多样性来排列搜索结果的文档的方法和系统被提供。在一个实施例中,一个排列系统决定在搜索结果中的每一个文档的信息的丰富度。信息的丰富度是一个文档包含有多少与它的主题相关的信息的尺度。具有高信息丰富度的文档(例如,web页)可能包含包含有与同一主题相关但却具有更低的信息丰富度的文档信息的信息。该排列系统基于它们的关联性而将搜索结果的文档分组,意味着它们被指向类似的主题。该排列系统将文档排序以保证最高排列文档可以包含覆盖每一个主题的至少一篇文档,也就是说,来自于每一个组的一篇文档。该排列系统从在该组中具有文档的最高信息丰富度的每一组中选择文档。当这些文档以排列顺序被提供给用户时,用户可能将在搜索结果的第一页中发现覆盖各种主题的文档,而不仅仅是单一的受欢迎主题。例如,如果搜索请求包含搜索条件“Spielberg”,则在搜索结果的第一页中的一篇文档可能与Steven Spielberg相关,而在搜索结果的第一页中的另一篇文档可能与spielberg教授相关。这样,用户很可能在搜索结果的第一页被呈现覆盖多样化主题的文档,且当感兴趣的主题不是与搜索请求关联的最受欢迎的主题时,用户将不会太沮丧。此外,因为该排列系统排列具有更高信息丰富度的文档高于具有更低信息丰富度的文档,因此用户将很可能在搜索结果的第一页给出的文档中找到期望的信息。在一个实施例中,该排列系统根据一个相关性曲线图计算搜索结果的文档的信息丰富度。相关性是衡量一篇文档中的信息被包含在另一篇文档的信息中的程度。例如,一篇描述Spielberg的电影中的一部电影的文档与所有详细描述Spielberg的电影的文档表面上可能具有一个高的相关性。相反地,所有详细描述Spielberg的电影的文档对这篇表面上描述Spielberg的电影中的一部电影的文档可能具有一个相对低的相关性。与不同主题相关联的文档彼此之间没有相关性。每一篇文档与每一篇其他文档的相关性的汇集表示为相关性曲线图。一篇具有许多其他的与它具有高相关性的文档的文档将可能具有高的信息丰富度,因为它的信息包含许多其他文档的信息。此外,如果那些具有高的相关性的其他文档自身也有相对高的信息丰富度的话,则该文档的信息丰富度也将很高。在一个实施例中,该排列系统还利用一个相关似性曲线图来帮助保证该搜索结果的高排列文档的多样性。该排列系统根据一个传统的排列技术(例如,关联性)、一种信息丰富度技术或者一些其他的排列技术可以具有文档的初始排列分数。该排列系统最初选择具有最高初始排列分数的文档作为具有最高最终排列分数的文档。该排列系统然后减少具有与已选择的文档高相关性的每一篇文档的排列分数。因为那些文档的内容可能被已选择的文档所包含且代表了多余的信息,所以该排列系统减少该排列分数。该排列系统然后选择余下的具有其后更高排列分数的文档中的文档。该排列系统减少具有与新的已选择的文档高相关性的每一篇文档的排列分数。该排列系统重复这样的处理直到期望数目的文档具有一个最终的排列分数、所有的文档都有一个最终的排列分数或者一些其他的中止条件被满足。在一个实施例中,多样性代表了在文档的集合中的不同的主题的数目,在集合中的文档的信息丰富度表示与整个集合相关的文档的信息度。本领域的普通技术人员能够理解该搜索结果的文档可以基于单独的信息丰富度或单独的多样性而被排列,而不是根据信息丰富度和多样性的结合。例如,一个搜索引擎装置可以单独利用信息丰富度,通过识别与相似的主题相关的多组文档并确定在它的组中的每一篇文档的信息丰富度。该搜索引擎装置然后将已确定的信息丰富度分解为该文档的排列,因而它们组的具有最高的信息丰富度的文档将比他们组中的其他的文档排列得更高。例如,该搜索引擎装置可能单独利用多样性,通过识别与相似主题相关的多组文档并保证来自每一组的至少一篇文档在与它的信息丰富度无关的搜索结果中被排列得很高。例如,该搜索引擎装置可以选择在搜索结果的第一页显示来自于在组中具有最高关联性的每一组中的文档。相关性曲线图表示作为结点的文本文档来自技高网...

【技术保护点】
一种在计算机系统中用于排列一个搜索结果的文档的方法,该方法包括:为该搜索结果的每一篇文档,基于用于该文档的信息丰富度初始化一个相关性排列;和对于每一组相似的文档,调整该组中的文档的相关性排列以使除最高相关性排列之外的相关性排 列低于相关的在该组中的一篇文档的最高相关性排列。

【技术特征摘要】
US 2004-4-30 10/837,5401.一种在计算机系统中用于排列一个搜索结果的文档的方法,该方法包括为该搜索结果的每一篇文档,基于用于该文档的信息丰富度初始化一个相关性排列;和对于每一组相似的文档,调整该组中的文档的相关性排列以使除最高相关性排列之外的相关性排列低于相关的在该组中的一篇文档的最高相关性排列。2.如权利要求1所述的方法,其中,用于该组中的文档的相关性排列的调整包括减少该组中的每一篇文档的相关性排列,除了在该组中具有最高相关性排列的文档的相关性排列。3.如权利要求2所述的方法,其中与具有最高相关性排列的文档更相似的一篇文档,它的相关性排列由多于一篇的与具有最高相关性排列的文档不太相似的文档来减少。4.如权利要求1所述的方法,其中用于该组中的文档的相关性排列的调整包括从该组中移走该具有最高相关性排列的文档,并减少该组中剩余的文档的相关性排列,其中文档的移走顺序代表了该搜索结果的文档的排列。5.如权利要求1所述的方法,包括用于每一篇文档的,基于该已调整的相关性排列和一个基于搜索的相关性来计算文档的一个相关性。6.一种在计算机系统中用来排序一个搜索结果的文档以增加高排序文档的主题的多样性的方法,该方法包括识别搜索结果的相似的文档的组;从已识别的每一组中选择一篇文档;和将已选择的文档排列在搜索结果的其它文档之上。7.如权利要求6所述的方法,其中每一篇文档有一个初始化排列,且该排列包括排列已选择的文档高于另一篇具有更高的初始化排列的文档。8.如权利要求6所述的方法,其中每一篇文档有一个初始化排列,且来自每个已识别的组中的该选择的文档是具有最高初始化排列的文档。9.如权利要求6所述的方法,包括基于它们与该组的已选择的文档的相似性再排列该组中没有被选择的文档。10.如权利要求9所述的方法,其中该再排列给予与该组中的已选择的文档最相似的该组中的还没有选择的文档最大的在该组文档的排列中的减少。11.如权利要求10所述的方法,其中该组中还没有被选择的文档根据它们的再排列而被排列。12.如权利要求10所述的方法,包括在再排列之后从已被识别的组中的每一组中选择一篇文档,且将那些文档排列在还没有被选择的其他文档之上。13.如权利要求9所述的方法,其中该再排列应用一个相似性惩罚。14.如权利要求6所述的方法,其中从每一组中选择出的文档具有在该组中的文档的最高信息丰富度。15.如权利要求6所述的方法,其中该组是利用一个相关性曲线图来识别的。16.一种在计算机系统中用于计算一个文档的...

【专利技术属性】
技术研发人员:B章HJ曾马维英陈正
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1