当前位置: 首页 > 专利查询>微软公司专利>正文

用于发现用户意向的系统和方法技术方案

技术编号:2859827 阅读:279 留言:0更新日期:2012-04-11 18:40
便于在给定用户搜索查询时确定用户意向的系统100包含一搜索引擎,用于在数据存储内对象集合上搜索,以检索用户搜索结果组。结果组中的对象与先前用于定位那些对象的查询相关联。确定所述先前查询和所述用户搜索查询之间的相关度等级,并向用户返回那些与新的且涉及用户搜索结果的结果组相关联的先前查询。

【技术实现步骤摘要】

本专利技术一般涉及在一对象集合中搜索,尤其涉及便于通过向用户提供对应于返回结果的查询确定关于用户查询的用户意向的系统和方法,那些返回结果部分地与用户查询的返回结果重叠。
技术介绍
计算机和网络技术从高价格、低性能的数据处理系统到低价格、高性能的通信、问题解决、和娱乐系统的更新换代的发展已提供了价格上有效并节省时间的手段来减轻完成日常任务的负担,如通信往来、帐单支付、购物、做预算和信息收集。例如,通过有线或无线技术与因特网接口的计算系统能为用户提供一通道,用于在用户的指尖上几乎瞬时地从位于全世界的各网站和服务器的存储库访问大量信息。通常,通过诸网站和服务器可得到的信息经由在web客户机(如计算机)上执行的web浏览器来访问。例如,web用户能配备web浏览器,并通过将一网站的统一资源定位器(URL)(如web地址、因特网地址、内联网地址……)输入到web浏览器的地址栏并按下键盘上的回车键或用鼠标点击的“进行(go)”按钮来访问该网站。URL通常包括四段便于访问的信息协议(计算机互相通信的语言),它表明用于交换信息的一组规则和标准;网站的位置;维护该网站的组织名称;和标识组织的类型的后缀(如com、org、net、gov和edu)。在某些情况中,用户事先知道用户希望访问的网站或服务器的URL。在那些情况中,如上所述,用户能通过在地址栏中输入URL并连接到网站来访问该网站。在其它情况中,用户知道该用户希望访问的特定网站,但不知道那个网站的URL。为定位该网站,用户能简单地将该网站的名称输入到搜索引擎来检索该网站。然而在大多数情况下,用户简单地搜索有关特定主题的信息而不知道包含所希望的信息的网站名。为寻找那些信息,用户采用搜索功能(如搜索引擎)以便于基于由用户提供的查询寻找信息。然而,生成能定位所希望的信息的查询对一般的搜索者是困难的。更具体说,提供足以代表用户的意向的查询(如用户试图寻找什么信息)对大多数用户是成问题的。例如,经验数据告诉我们,大多数搜索查询约两字长,一般不足以基于该查询定位特定信息(如查询对他们希望获得的信息规定不足(under-specified))。当前存在许多由搜索引擎用来帮助用户在给定规定不足的查询的情况缩小搜索范围的技术。第一种方法包括用人以逻辑层次的方式手动分类数据库(如,因特网站点)中的对象。那样的系统能被有效且高度精确地搜索,但是由于为分类层次中每个对象所需要的工时,构建是昂贵的。此外,此技术对许多用户不能达到足够的有效范围,因为在分类前不能搜索对象。一种不同的方法使用机器学习文本分类来自动分类在分层外壳中的对象。此方法实现关于有效范围的益处,且利用此方法的系统构建比较不昂贵(如不需要许多人不断地在层次中插入对象)。然而,分层外壳需要构建,且那样的文本分类方案是静态的,且不能适合不同用户的需要。此外,利用此技术的系统构建如果没有在重新安排层次方面相当的花费,则不能随时间推移来调整。传统的搜索引擎也能利用群集技术来缓解上述缺陷。例如,能群集站点以便于获得与搜索查询更相关的结果。冠名为“更象此(more like this)”的链接能与返回的结果相关联,且链接的选择能便于进一步群集和/或显示在与“更象此”链接关联的群集中的文档。然而,通过查询寻找的相关文档(和相关的群集)能在表示该文档与查询不高度相关的位置上返回给用户。因此,强迫用户读完文档的页面,以寻找该用户试图寻找的信息。此外,文档的不变群集是需要大量计算的。传统的搜索引擎采用另一示例性系统在用户输入的请求不返回任何文档时向用户提供一询问。例如,用户能希望找到关于莫扎特早期作品的信息。通常,用户试图输入一规定不足的查询“Classical music(古典音乐)”。然而,若由于发生错误用户输入了查询“Classcal music”,搜索引擎能确定,利用此查询(由于查询中的打字)不能返回文档。随后搜索引擎能用一个询问提示用户,即搜索引擎的寻找基本上类似所输入的查询。例如,搜索引擎通过询问“你是否指‘Classic music?’”来提示用户。若用户回答肯定,可执行正确的查询并能获得结果。虽然那样系统对于校正打字和拼写错误有用,但它不提供与莫扎特早期作品(用户的真实意图)十分贴切的结果。相反,用户被大量信息淹没,它们虽然关系到古典音乐,但与莫扎特的早期作品无关。例如,在定位包含希望的信息的文档之前,用户必须查阅数以百计的清单。因而,本领域中对协助用户利用能按用户的意向获得结果的查询的搜索系统和/或方法有强烈需求。
技术实现思路
下面给出本专利技术的简单综述,以提供本专利技术的某些方面的基本理解。此综述不是本专利技术的广泛的概貌。它不试图标识本专利技术的关键/主要元素,或勾划出本专利技术的范围。其唯一目的是以简化方式提出本专利技术的某些概念,作为下面给出的更详细描述的序言。本专利技术基于专利技术者的实践,即用户通常在将心里的想法转换成用户的搜索查询方面发生困难。更具体说,人们在生成能够定位数据存储(如因特网)中他们试图寻找的对象的查询方面遇到困难。本专利技术针对帮助用户发现他们关于希望搜索的对象的意向。这是通过将要搜索的数据存储中的每个对象与先前用来定位那些对象的查询相关联来实现的。例如,利用若干各异的查询能用来寻找基本相似的对象。因此,每当一对象通过一查询来访问时,那个查询就与该对象相关联。例如,每个输入到搜索引擎的查询(或其签名)能被存储,且由那些查询定位的对象(结果组)同样能被存储。然而可以理解,本专利技术构想将对象与先前用于定位那些对象的查询相关联的任何方式。搜索组件接收用户的查询,并按那些用户查询搜索数据存储以寻找对象。返回的对象的集合创建一个对该查询的结果组。按本专利技术的一个方面,结果组能限于阈值数量的高等级对象。在利用用户查询的搜索返回大量(如,数百万)对象时,这是有益的。审阅在结果查询中的对象,并考虑用来定位那些对象的先前的查询。这些先前的查询也与结果组(如,当利用先前的查询完成搜索时返回的对象集合)相关联。本专利技术的目的是选择先前的查询,它们具有与用户的搜索查询的结果组相关的结果组,但基本上不是类似的,并向用户显示那些查询。然而,带有基本相似结果组的先前的查询不同时向用户显示。这是因为显示带有基本类似结果组的先前的查询在搜索方面不能帮助用户。相反,用户将被许多类似的查询所淹没。在显示了相关的先前查询后,用户能审阅先前的查询,并判断,一个或多个先前的查询在与用户的搜索查询比较时是否更好地代表他/她的意向。此外,用户能选择显示的先前查询,以审阅与那样的查询关联的结果组。因此,用户能利用先前用于定位那些对象的查询来快速地定位希望的对象。按本专利技术的一特定方面,采用在用户搜索查询与先前查询之间的距离度量来确定向用户显示哪些查询。这些距离度量是基于用户搜索查询和先前的查询的返回组来确定的。在确定距离度量之后,能利用修改的最大边缘相关性方案来定位具有以下返回组的先前查询它们既与用户的搜索查询的返回组有关,又在与该用户搜索查询的那个返回组比较时是新的。更具体地,在用户搜索查询的返回组中的对象与先前查询的返回组中的对象相关,但这些返回组基本上不是类似的。此方案按用户的搜索查询有效地将一返回组划分成多个相关的返回组,它们已通过先前的查询定位。为实现上述和相关的目标本文档来自技高网
...

【技术保护点】
一种便于判断用户的意向的系统,其特征在于,包括:一搜索组件,它标识用户搜索查询的结果组;以及一用户意向发现组件,它至少部分地基于用户搜索查询的结果组和先前查询的结果来确定一组潜在的搜索区域。

【技术特征摘要】
US 2004-3-9 10/796,3781.一种便于判断用户的意向的系统,其特征在于,包括一搜索组件,它标识用户搜索查询的结果组;以及一用户意向发现组件,它至少部分地基于用户搜索查询的结果组和先前查询的结果来确定一组潜在的搜索区域。2.如权利要求1所述的系统,其特征在于,先前的查询是通过审阅所述用户搜索查询的结果组来获得的。3.如权利要求1所述的系统,其特征在于,所述先前查询和所述用户搜索查询之间的关系等级是至少部分地通过确定所述先前查询和所述用户搜索查询之间的距离度量来获得的。4.如权利要求3所述的系统,其特征在于,所述距离度量是通过利用算法||q,q′||=1-|R[q]∩R[q′]||R[q]∪R[q′]|]]>来确定的,其中‖q,q′‖是所述用户搜索查询q和一个或多个先前查询q′之间的距离度量,R是Q×D上的二元关系,而Q是先前由所述搜索组件使用的查询组,而D是在由所述搜索组件搜索的数据存储中的对象组。5.如权利要求4所述的系统,其特征在于,所述先前查询和所述用户搜索查询之间的关系等级是至少部分地通过利用一修改的最大边缘相关性方案获得的。6.如权利要求5所述的系统,其特征在于,所述最大边缘相关性方案采用算法argminq′[λ||q,q′||-(1-λ)minq′′||q′,q′′||],]]>其中λ是事先建立的内插因子,而q″代表在考虑q′之前已被考虑的一个或多个先前的查询。7.如权利要求1所述的系统,其特征在于,还包括一过滤组件,它限制在用户搜索查询的所述结果组中对象的数目。8.如权利要求1所述的系统,其特征在于,还包括一过滤组件,它对比用户搜索查询具有更少字的先前的查询不予考虑。9.如权利要求1所述的系统,其特征在于,还包括一过滤组件,它对包括预定串的先前查询不予考虑。10.如权利要求1所述的系统,其特征在于,还包括一过滤组件,它对在词法上相似于所述用户的搜索查询的先前查询不予考虑。11.如权利要求1所述的系统,其特征在于,还包括一过滤组件,它对包括不可打印的ASCII字符的字符的先前查询不予考虑。12.如权利要求1所述的系统,其特征在于,还包括一反馈组件,它便于按用户的偏爱定制所述系统。13.如权利要求1所述的系统,其特征在于,还包括一人工智能组件,它按照用户状态、用户历史、用户环境和上下文信息的一个或多个作出关于潜在搜索区域的选择和排列的至少一个的推断。14.如权利要求13所述的系统,其特征在于,所述上下文信息包括温度、一天的时间、位置、和一周的日子中的一个或多个。15.如权利要求1所述的系统,其特征在于,还包括一用户概况,所述用户概况包括涉及潜在搜索区域的选择和排列的至少一个的信息。16.如权利要求15所述的系统,其特征在于,所述用户概况是可移植的。17.一种便于确定用户意向的系统,其特征在于,包括一搜索引擎,它接收用户搜索查询,所述搜索引擎按所述用户搜索查询搜索一数据存储中的对象,所述对象与先前用于定位所述对象的查询相关联;以及一查询关系计算器,它确定所述用户搜索查询和所述先前查询之间的相关度等级,所述查询关系计算器至少部分地基于所计算的相关度等级选择先前的查询向用户显示。18.如权利要求17所述的系统,其特征在于,所述相关度等级至少部分地基于所述用户搜索查询和所述先前查询之间的距离度量。19.如权利要求18所述的系统,其特征在于,所述距离度量通过利用算法||q,q′||=1-|R[q]∩R[q′]||R[q]&am...

【专利技术属性】
技术研发人员:ED布里尔HC多姆
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1