当前位置: 首页 > 专利查询>微软公司专利>正文

使用编辑距离和文档信息进行搜索结果排名制造技术

技术编号:5077710 阅读:239 留言:0更新日期:2012-04-11 18:40
一种用于基于查询串从接收到的作为搜索结果的文档中提取文档信息并计算数据串与该查询串之间的编辑距离的体系结构。编辑距离被用来通过检测整个查询或查询的一部分的接近匹配来确定文档的相关性以作为结果排名的一部分。编辑距离评估查询串与包括诸如TAUC(标题、锚文本、URL、点击)信息等文档信息的给定数据流有多接近。该体系结构包括用于允许更高效地发现查询项的、对URL中的混合项进行的索引时间划分。另外,锚文本的索引时间过滤被用来寻找文档结果中的一个或多个的前N个锚。TAUC信息可被输入到神经网络(例如,2层)以改进用于对搜索结果进行排名的相关性度量。

【技术实现步骤摘要】
【国外来华专利技术】使用编辑距离和文档信息进行搜索结果排名背景 在典型的搜索引擎服务中,用户可以通过从URL(统一资源定位符)的索引集合中 选出与查询相匹配的最相关文档来输入查询。为了快速对查询进行服务,搜索引擎利用将 关键字映射到文档的一种或多种方法(例如,倒排索引数据结构)。例如,引擎所执行的第 一步骤可以是标识包含用户查询所指定的关键字的候选文档的集合。这些关键字可以位 于文档正文或元数据或实际上存储在其他文档或数据存储中的关于该文档的附加元数据 (如锚文本)中。在一大型索引集合中,取决于查询项的共同性,候选文档集合的基数可以很大 (例如,可能有数百万)。并非返回整个候选文档集合,搜索引擎根据相关性来执行对候选 文档进行排名的第二步骤。通常,搜索引擎利用排名功能来预测文档与特定查询的相关性 程度。排名功能从文档取得多个特征作为输入,并且计算允许搜索引擎按照所预测的相关 性对文档进行排序的数量。排名功能相对于该功能有多准确地预测文档的相关性的质量由用户对搜索结果 的满意度或用户发现所提问题的答案的平均次数来最终确定。对系统的总体用户满意度可 以由单个数字(或度量)来近似,因为该数字可以通过改变排名功能来优化。通常,该度量 是在通过对查询日志进行随机采样来预先选择的代表性查询集合上计算的,并且涉及向引 擎对于评估查询中的每一个所返回的每一结果分配相关性标记。然而,用于文档排名和相 关性的这些过程仍然不足以提供所需结果。概述以下提出了简化概述以便提供对在此处描述的某些新颖实施例的基本理解。本概 述不是详尽的概览,它不旨在标识关键/重要的元素,也不旨在描绘其范围。其唯一的目的 是以简化的形式来介绍一些概念,作为稍后提出的更详细描述的序言。该体系结构提供用于基于查询串从作为搜索结果接收到的文档中提取文档信息 并计算数据串与该查询串之间的编辑距离的机制。数据串可以是从诸如TAUC(标题、锚文 本、URL(统一资源定位符)、以及点击)等文档信息获得的文档的简短且准确的描述。编辑 距离被用于确定文档的相关性以作为结果排名的一部分。该机制使用一组邻近度相关特征 来检测整个查询或查询的一部分的接近匹配以改进搜索结果排名的相关性。处理编辑距离以评估查询串与包括该文档信息的给定数据流有多接近。该体系结 构包括对URL中的混合项进行的索引时间划分,以用于允许更高效地发现查询项。另外,锚 文本的索引时间过滤被用来寻找文档结果中的一个或多个的前N个锚。使用TAUC信息可 被输入到神经网络(例如,2层)以改进用于对搜索结果进行排名的相关性度量。为实现上述及相关目的,本文结合下面的描述和附图描述某些说明性方面。然而, 这些方面仅指示了可采用此处公开的原理的各种方法中的少数几种,且旨在包括所有这些 方面及等效方面。结合附图阅读下面的详细描述,则其他优点和新颖特征将变得清楚。附图简述 附图说明图1示出计算机实现的相关性系统。图2示出用于计算编辑距离的示例性匹配算法的流程图。图3示出使用经修改的编辑距离和匹配算法来基于查询串和数据串处理并生成 编辑距离值。图4示出使用经修改的编辑距离和匹配算法来基于查询串和数据串处理并生成 编辑距离值的另一示例。图5示出使用神经网络来帮助生成文档的相关性分数的计算机实现的相关性系 统。图6示出可以在用于确定查询串与数据串之间的编辑距离的文档信息中使用的 数据的类型。图7示出索引时间处理数据流。 图8示出例示来自图7的索引过程的、用于结果排名的对神经网络的输入的框图。图9示出用于计算生成搜索结果的神经网络、编辑距离输入以及原始特征输入的 示例性系统实现。图10示出确定文档结果集的文档相关性的方法。图11示出计算文档的相关性的方法。图12示出根据所公开的体系结构的可用于使用TAUC特征执行编辑距离处理以进 行搜索结果排名的计算系统的框图。详细描述所公开的体系结构通过实现一组邻近度相关特征来检测整个查询的接近匹配或 具有与该文档有关的准确元数据(如,标题、锚、URL、或点击)的匹配以改进搜索结果排 名的相关性。例如,考虑查询“company store”、第一文档的文档标题“company store online”和第二文档的文档标题“new NEC LCD monitors in company store”。假定其它 特性对第一和第二文档而言相同,则该体系结构基于为使选定流与该查询相匹配要贡献多 少编辑努力来向文档分配分数。在该示例中,选择文档标题来进行评估。第一文档的标题 只需要一次删除操作(删除项“online”)就能得到完全匹配,而第二文档的标题需要五次 删除(删除项“neW”、“NEC”、“LCD”、“monitors,,以及“in”)。因此,第一文档被计算成较 为相关。标题是TAUC (标题、锚、URL以及点击)文档信息的一个元素,对于TAUC文档信息, 可以对一些数据流(例如,URL)应用处理以便可以从混合项中找到查询项的。例如,再次 考虑查询"company store”,并且URL是www. companystore. com。结果是该URL被分成四 个部分(即,项):“wWW”、“company”、“store” 以及 “com,,。现在参照附图,在全部附图中,相同的附图标记用于表示相同的元素。在以下描述 中,为解释起见,描绘了众多具体细节以提供对本专利技术的全面理解。然而,显然,各新颖实施 例可以在没有这些具体细节的情况下实现。在其他情况下,以框图形式示出了公知的结构 和设备以便于描述它们。 图1示出计算机实现的相关性系统100。系统100包括处理组件102,用于基于查 询串Iio从作为搜索结果108接收到的文档106中提取文档信息104。系统100还可包括 邻近度组件112,用于计算从文档信息104导出的数据串116与查询串110之间的编辑距离 114。编辑距离114被用于确定作为搜索结果108的一部分的文档106的相关性。用于生成数据串116的文档信息104可包括例如标题信息(即,字符)、链接信息 (例如,URL字符)、点击流信息、和/或锚文本(即,字符)。处理组件102在索引时间划分 文档信息104的混合项以计算编辑距离114。处理组件102还便于在索引时间过滤诸如锚 文本等文档信息以计算排名最前的一组锚文本。 对编辑距离114的计算基于用于增加数据串116与查询串110之间的邻近度(使 之更近)的项插入和项删除。对编辑距离114的计算还可基于与用于增加数据串116与查 询串110之间的邻近度(使之更近)项插入和项删除相关联的成本。考虑基于向查询串110插入和/或从中删除项来生成数据串116(例如,TAUC)的 情况。该项处理可以根据四个操作来执行将非查询字插入查询串110 ;将查询项插入查询 串110 ;从查询串110删除TAUC项;和/或从查询串110删除非TAUC项。编辑距离114是基于插入和删除操作的,但不基于置换。对于插入,可以定义两种 类型的成本。考虑从查询串Iio生成数据串116的情况。在生成时,可以将一个字插入查询 串110,当该字在原始查询串110中存在时则成本被定义为1 ;否则成本被定义为Wl ( > 1)。 在此,wl是所调节的加权参数。例如,如果查询串1本文档来自技高网...

【技术保护点】
一种计算机实现的相关性系统(100),包括:处理组件(102),用于基于查询串从接收到的作为搜索结果的文档中提取文档信息;以及邻近度组件(112),用于计算数据串与所述查询串之间的编辑距离,所述编辑距离被用于确定文档的相关性作为结果排名的一部分。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:V坦科维奇H李D梅耶泽J徐
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1