使用编辑距离和文档信息进行搜索结果排名制造技术

技术编号：5077710 阅读：239 留言：0更新日期：2012-04-11 18:40

一种用于基于查询串从接收到的作为搜索结果的文档中提取文档信息并计算数据串与该查询串之间的编辑距离的体系结构。编辑距离被用来通过检测整个查询或查询的一部分的接近匹配来确定文档的相关性以作为结果排名的一部分。编辑距离评估查询串与包括诸如ＴＡＵＣ（标题、锚文本、ＵＲＬ、点击）信息等文档信息的给定数据流有多接近。该体系结构包括用于允许更高效地发现查询项的、对ＵＲＬ中的混合项进行的索引时间划分。另外，锚文本的索引时间过滤被用来寻找文档结果中的一个或多个的前Ｎ个锚。ＴＡＵＣ信息可被输入到神经网络（例如，２层）以改进用于对搜索结果进行排名的相关性度量。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用编辑距离和文档信息进行搜索结果排名背景在典型的搜索引擎服务中，用户可以通过从URL(统一资源定位符)的索引集合中选出与查询相匹配的最相关文档来输入查询。为了快速对查询进行服务，搜索引擎利用将关键字映射到文档的一种或多种方法(例如，倒排索引数据结构)。例如，引擎所执行的第一步骤可以是标识包含用户查询所指定的关键字的候选文档的集合。这些关键字可以位于文档正文或元数据或实际上存储在其他文档或数据存储中的关于该文档的附加元数据 (如锚文本)中。在一大型索引集合中，取决于查询项的共同性，候选文档集合的基数可以很大 (例如，可能有数百万)。并非返回整个候选文档集合，搜索引擎根据相关性来执行对候选文档进行排名的第二步骤。通常，搜索引擎利用排名功能来预测文档与特定查询的相关性程度。排名功能从文档取得多个特征作为输入，并且计算允许搜索引擎按照所预测的相关性对文档进行排序的数量。排名功能相对于该功能有多准确地预测文档的相关性的质量由用户对搜索结果的满意度或用户发现所提问题的答案的平均次数来最终确定。对系统的总体用户满意度可以由单个数字(或度量)来近似，因为该数字可以通过改变排名功能来优化。通常，该度量是在通过对查询日志进行随机采样来预先选择的代表性查询集合上计算的，并且涉及向引擎对于评估查询中的每一个所返回的每一结果分配相关性标记。然而，用于文档排名和相关性的这些过程仍然不足以提供所需结果。概述以下提出了简化概述以便提供对在此处描述的某些新颖实施例的基本理解。本概述不是详尽的概览，它不旨在标识关键/重要的元素，也不旨在描绘其范围。其唯一的目的是...

【技术保护点】
一种计算机实现的相关性系统（１００），包括：处理组件（１０２），用于基于查询串从接收到的作为搜索结果的文档中提取文档信息；以及邻近度组件（１１２），用于计算数据串与所述查询串之间的编辑距离，所述编辑距离被用于确定文档的相关性作为结果排名的一部分。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：V坦科维奇，H李，D梅耶泽，J徐，
申请(专利权)人：微软公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人