用于排列搜索结果的文档以改进多样性和信息丰富度的方法和系统技术方案

技术编号：2854202 阅读：205 留言：0更新日期：2012-04-11 18:40

一种基于主题的信息丰富度和多样性来排列搜索结果的文档的方法和系统。该排列系统决定在搜索结果中的每一个文档的信息丰富度。该排列系统基于它们的关联性而将搜索结果的文档分组，意味着它们被指向相似的主题。该排列系统将文档排序以保证最高排列文档可以包含覆盖每一个主题的至少一篇文档，那就是说，来自每一个组的一篇文档。该排列系统从在该组中具有最高信息丰富度的文档的每一组中选择文档。当这些文档以某个排列顺序提供给用户时，用户将在搜索结果的第一页中发现覆盖各种类型的主题的文档，而不仅仅是单一的受欢迎的主题。

全部详细技术资料下载

【技术实现步骤摘要】

所述的技术一般涉及由提交给一个搜索引擎装置的一个搜索请求所识别的一个搜索结果的文档的排列。
技术介绍
许多搜索引擎装置，例如Google和Overture，提供用来搜索经由Internet可以被访问的信息。这些搜索引擎装置允许用户搜索用户关心的显示页，例如web页。在用户提交一个包含搜索条件的搜索请求后，该搜索引擎装置识别可能与这些条件相关联的web页。为了快速地识别相关的web页，该搜索引擎装置可以保持一个web页的关键词映射。该映射依靠“爬行”该web(即，环球信息网)以提取每一个web页的关键词来产生。为了爬行该web，一个搜索引擎装置可以利用根web页的列表来识别所有的可以通过这些根web页而被访问的web页。任何特定web页的关键词可以使用各种公知的信息检索技术被提取，例如识别一个标题的词、在web页的元数据中所提供的词、突出显示的词，等等。该搜索引擎装置可以计算一个关联性分数，该关联性分数指出每一个web页与基于每一个匹配的接近性、web页普及性(例如，Google的PageRank)等等的搜索请求在多大程度上相关联。该搜索引擎装置然后用基于这些w...

【技术保护点】
一种在计算机系统中用于排列一个搜索结果的文档的方法，该方法包括：为该搜索结果的每一篇文档，基于用于该文档的信息丰富度初始化一个相关性排列；和对于每一组相似的文档，调整该组中的文档的相关性排列以使除最高相关性排列之外的相关性排列低于相关的在该组中的一篇文档的最高相关性排列。

【技术特征摘要】
US 2004-4-30 10/837,5401.一种在计算机系统中用于排列一个搜索结果的文档的方法，该方法包括为该搜索结果的每一篇文档，基于用于该文档的信息丰富度初始化一个相关性排列；和对于每一组相似的文档，调整该组中的文档的相关性排列以使除最高相关性排列之外的相关性排列低于相关的在该组中的一篇文档的最高相关性排列。2.如权利要求1所述的方法，其中，用于该组中的文档的相关性排列的调整包括减少该组中的每一篇文档的相关性排列，除了在该组中具有最高相关性排列的文档的相关性排列。3.如权利要求2所述的方法，其中与具有最高相关性排列的文档更相似的一篇文档，它的相关性排列由多于一篇的与具有最高相关性排列的文档不太相似的文档来减少。4.如权利要求1所述的方法，其中用于该组中的文档的相关性排列的调整包括从该组中移走该具有最高相关性排列的文档，并减少该组中剩余的文档的相关性排列，其中文档的移走顺序代表了该搜索结果的文档的排列。5.如权利要求1所述的方法，包括用于每一篇文档的，基于该已调整的相关性排列和一个基于搜索的相关性来计算文档的一个相关性。6.一种在计算机系统中用来排序一个搜索结果的文档以增加高排序文档的主题的多样性的方法，该方法包括识别搜索结果的相似的文档的组；从已识别的每一组中选择一篇文档；和将已选择的文档排列在搜索结果的其它文档之上。7.如权利要求6所述的方法，其中每一篇文档有一个初始化排列，且该排列包括排列已选择的文档高于另一篇具有更高的初始化排列的文档。8.如权利要求6所述的方法，其中每一篇文档有一个初始化排列，且来自每个已识别的组中的该选择的文档是具有最高初始化排列的文档。9.如权利要求6所述的方法，包括基于它们与该组的已选择的文档的相似性再排列该组中没有被选择的文档。10.如权利要求9所述的方法，其中该再排列给予与该组中的已选择的文档最相似的该组中的还没有选择的文档最大的在该组文档的排列中的减少。11.如权利要求10所述的方法，其中该组中还没有被选择的文档根据它们的再排列而被排列。12.如权利要求10所述的方法，包括在再排列之后从已被识别的组中的每一组中选择一篇文档，且将那些文档排列在还没有被选择的其他文档之上。13.如权利要求9所述的方法，其中该再排列应用一个相似性惩罚。14.如权利要求6所述的方法，其中从每一组中选择出的文档具有在该组中的文档的最高信息丰富度。15.如权利要求6所述的方法，其中该组是利用一个相关性曲线图来识别的。16.一种在计算机系统中用于计算一个文档的...

【专利技术属性】
技术研发人员：B章，HJ曾，马维英，陈正，
申请(专利权)人：微软公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人