当前位置: 首页 > 专利查询>微软公司专利>正文

搜索日志中的概念发现制造技术

技术编号:7791285 阅读:282 留言:0更新日期:2012-09-22 08:14
描述了响应于查询返回补充(或替代)传统链接形式的搜索结果的概念的搜索(例如,web搜索)。每个概念通常对应于连接到内容的链接的集合,该链接的集合通常更针对关于该查询的可能的用户意图、或信息需求。如果用户选择了概念,则展示该概念的链接以便于选择用户认为相关的文档。以此方式,可以为查询提供远不止前十个已排序链接,每个其他链接的集合按照概念来排列。还描述了处理查询日志或其他数据存储以便可选地查找相关的查询并查找概念,例如,通过对从查询日志构建的关系图进行聚类来查找表示概念的密集子图。

【技术实现步骤摘要】
【国外来华专利技术】搜索日志中的概念发现
技术介绍
用于用户查询的当代搜索引擎执行通常基于关键词搜索的搜索。搜索引擎依赖于查询内的关键词来查找匹配的文 档,并且基于可能的相关性对其排序。随后将连接到一定数量的这些文档的链接(例如,前10个链接)作为搜索结果返回。即使全部10个链接可能与查询相关,但用户经常无法在那前10个链接中查找到所期望的结果。有时候这是因为用户寻求获得关于想法的概要信息,该想法也许可用多种方式来表达,或者因为该想法具有多个维度。例如,考虑在2008时间框架中提出同样查询“经济危机”的各个用户。每个用户可能对2008危机的不同部分感兴趣,诸如房市危机、银行援救、按揭证券、股票市场、信贷违约、汽车企业等。在诸如存在如此众多可能的用户意图的情形中,不存在能够令人满意地回答全部用户的查询的10个链接的集合。此外,词语“经济危机”甚至可能不会出现在用户可能认为高度相关并想要查看的文档内。
技术实现思路
提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些代表性概念。本概述不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在以限制所要求保护的主题的范围的任何方式来使用。简言之,此处描述的主题的各方面是针对响应于查询返回补充(或替代)传统链接形式的搜索结果的概念的技术。每个概念对应于连接到内容的链接的集合,该链接的集合通常更针对该查询的可能的用户意图。如果用户选择了一概念,则展示该概念的链接以便于选择用户认为相关的文档。一方面,在离线构建的概念数据存储中维护概念。为此,可以可选地处理诸如查询日志的数据存储以便查找相关的查询,并且将另一个数据源处理成关系图,例如,表达式-URL图。在关系图上执行聚类,使得每个聚类对应于一个概念并且标识查询集合和URL集合。聚类可以通过在关系图中查询密集子图(例如,满足内部密度条件和(可选的)外部稀疏性条件的子图)来操作。结合附图阅读以下详细描述,本专利技术的其他优点会变得显而易见。附图说明作为示例而非限制,在附图中示出了本专利技术,附图中相同的附图标记指示相同或相似的元素,附图中图I是示出示例浏览器窗口的表示,该示例浏览器窗口示出了如何响应于查询将概念呈现给用户。图2是示出响应于查询来返回概念的示例组件的框图。图3是关系图(例如,查询-点击图)的表不,处理该关系图来确定与概念相对应的信息需求聚类。图4是示出与返回用于查询的概念相关的示例步骤的流程图。图5示出了可以将本专利技术的各个方面集成到其中的计算环境的说明性示例。具体实施例方式此处描述的技术的各方面通常针对搜索引擎,该搜索引擎通过呈现除普通搜索结果以外的(或代替普通搜索结果的)与搜索相关的关键概念来提供丰富的用户体验。为此,基于通常是与概念相关联的查询和URL的集合的(下面描述的)信息需求,当提出用户查询时,返回一定数量的最相关的概念,而不是简单地基于关键词搜索来查找前10个最相关的文档链接。用户随后可选择适合的概念以便基于所选择的概念来查找相关的链接。作为示例,用诸如“经济危机”的简单表达式来查询的用户可能对任意数量的与经济危机相关的概念感兴趣(由此此类查询可能无法用10个URL来回答)。图I示出了可如 何将此类概念(和某些链接)(例如,在浏览器窗口 100中)呈现给用户的一个示例。可以容易地理解,图I仅是显示概念的很多可能的方式的一个示例;另外,此类概念可以占据整个浏览器窗口或其他用户界面屏幕,或者可以与诸如前10个传统链接、广告、相关的搜索等其他内容共享窗口 /屏幕。在图I的示例中,用户的查询“经济危机” 102被示为被相对更具体的文本/图像所包围,该文本/图像与概念相对应,用户可点击或以其他方式选择(例如,旋转、触摸等)概念以便查看该概念的附加内容链接。此类附加内容链接可包括若用户实际输入了随附每个图像的文本/术语(例如,“对教育的影响”,而不是“经济危机”本身)则获得的预定链接、和/或普通搜索结果,或者可以是术语的另一个集合,例如,“对得到贷款的能力的影响”。注意的是,诸如其他用户最经常选择的概念之类的(由图I中其大小所指示的以及由较深边框110所强调的)一个概念可以“处于焦点”或诸如此类,并且具有为该概念自动显示的某些随附的链接。此外,注意所提供的概念中的一个或多个本质上可以是商业的,例如,“查找住房抵押贷款的优惠利率”,“财政建议”等。此类商业概念可以与非商业概念混和,或者可以是也返回给用户的单独的概念集合。应当理解,此处的任何示例均是非限制性的示例。例如,虽然此处描述了 web搜索,但是诸如关系数据库搜索等其他搜索可以返回概念以帮助用户聚焦所期望的结果。因此,本专利技术不限于在此描述的任何具体的实施例、方面、概念、结构、功能或示例。相反,此处所描述的实施例、方面、概念、结构、功能或示例中的任一个都是非限制性的,并且本专利技术可以一般地以在计算和搜索/查询处理方面提供好处和优点的各种方式来使用。在一个实现中,首先可选地从各个数据源挖掘相关的查询。在一个实施例中,可通过查询-点击图上的随机走查来发现相关的查询。在另一个实施例中,构建图,由此若满足以下之一或以下的若干组合则顶点包括表达式,并且一条边连接两个表达式Ca) 一些或许多用户在时间窗口中同时提出两个表达式;(b)—些或许多URL使两个表达式同时出现在标题中;(c)一些或许多URL使两个表达式同时出现在主体中;(d)—些或许多URL使两个表达式同时在锚文本中使用;和/或(e)—些或许多广告商对两个表达式进行投标等。边构建不限于这些资源,而是反映了某些共同的数据源。一旦这种图被构建,则很多可能的聚类算法中的任一个可用于查找相关的查询。在一个实施例中,被连接的组件可形成相关的查询。在另一个实施例中,谱聚类可用于查找相关的查询。还可以应用很多其他的聚类方法(例如,本领域中已知的)。从与之前的用户动作和其他信息相对应的数据中挖掘信息需求,其中每个信息需求是由记为(Q,N)的(表达式,需求)对的元组,其中Q是指表达式集合,N是指网页集合。具体而言,对于每个信息需求,挖掘确定了记为Q的表达式的集合,可将该表达式的任一个作为搜索查询来提出以表达特定的需求;对于每个信息需求,获得满足该需求的网页集合N。如图2中所表示的,如下面所描述的,挖掘机制204挖掘并使用一个或多个搜索日志202等来确定(Q,N)信息需求,该信息需求可在概念数据存储206中来维护。如下面所描述的,在挖掘中,处理搜索日志202以便将其表示为至少一个二分关系图(例如,查询-点击图,锚-点击图和/或标记-点击图),该二分关系图随后被聚类以标识概念。图2中还表示在线查询处理,在图2中,带圈的数字一(I) IlJA(S)概括地提供了关于返回概念的在线操作的次序。给定搜索查询208,搜索引擎210访问概念数据存储206,并且若这种概念存在则返回与该查询相关的概念。在一个实现中,将概念结果212与传统的搜索结果(例如,前十个链接)合并到返回给用户的页面中。然而,出于本描述的目的,此 时不详细地描述这种传统的文档搜索。如果用户接收概念并随后选择概念中的一个,则基于所选择的概念214来提供连接到URL/文档(例如,文档集N)的链接。一般而言,这些是按相关性排序的传统链接,并且可以包括图像、广告(例如,至少部分地基于概念来定本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2009.11.18 US 12/620,6001.一种在计算环境中至少在至少ー个处理器上执行的方法,包括 处理查询,包括返回与所述查询相关的概念的集合,其中每个概念对应于连接到内容的一个或多个链接的集合; 为所选择的概念提供连接到内容的链接的集合;以及 从所选择的概念的链接的集合中返回所选择的链接的内容。2.如权利要求I所述的方法,其特征在于,返回所述概念的集合包括提供提供网页,所述网页在被呈现时包括用于选择所选择的概念的机制。3.如权利要求I所述的方法,其特征在干,还包括,在返回所述概念的集合时,返回连接到文档的至少ー个链接。4.如权利要求I所述的方法,其特征在于,还包括访问概念数据存储以确定用于所述查询的概念的集合,包括处理ー数据存储以构建所述概念数据存储。5.如权利要求4所述的方法,其特征在干,处理所述数据存储包括构建相关的查询图和构建关系图。6.如权利要求5所述的方法,其特征在干,确定相关的查询包括在所述相关的查询图中查询聚类或连接的组件,其中每个聚类对应于相关查询的集合。7.如权利要求5所述的方法,其特征在于,还包括用相关的查询来扩充所述关系图并且确定所述关系图中的聚类,其中每个聚类对应于ー个概念并标识查询集合和URL集合。8.如权利要求7所述的方法,其特征在于,确定所述聚类包括在所述关系图中查找密集子图。9.一种在计算环境中的系统,包括 概念数据存储,包含与概念相对应的信息需求,每个信息需求包括查询集合、URL集合元组; 搜索引擎,访问所述概念数据存储以便确定查询是否具有相关联的概念,并且若是,则响应于所述查询返回与所述查询相关联的概念。10.如权利要求9所述的系统,其特征在于,所述搜索引擎在返回所述概念时还返回至少ー个文档链接,或者其中每个概念的链接在选择概念时是可以访问的,或者其中所述搜索引擎在返...

【专利技术属性】
技术研发人员:R·阿加瓦S·戈拉普迪N·米希拉
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1