当前位置: 首页 > 专利查询>微软公司专利>正文

查询识别器制造技术

技术编号:2862395 阅读:176 留言:0更新日期:2012-04-11 18:40
一种用于在包括具有专用数据的远程定位数据源的多个数据源上执行查询的系统和方法。这些数据源可包括,例如,涉及零售、旅游、娱乐等的数据。这些数据源也可仅包含对给定的团体或团体组本地的数据。该系统包括接受查询并修改其形式以提供结果查询的预处理器。这一修改可包括例如拼写纠正。该系统基于分类符项的存在以及用户根据先前提交的查询或查询中识别的模式提供的分类数据对结果查询进行分类。该系统然后选择一数据源子集,在该子集上可基于该查询分类执行查询。该查询然后在所选择的数据源上执行。

【技术实现步骤摘要】

本专利技术涉及有效地向查询提供答复的自动化查询分析器。
技术介绍
查询搜索引擎的一个目标是提供对查询的快速响应。面对较慢的响应搜索引擎的在线用户可通过试图重新提交搜索、停止搜索并去往另一搜索引擎、或可能试图重新表示搜索以寻找更快的结果来作出反应。如果可足够快地向用户返回结果,以防止用户尝试对获取结果的速度的可感知的问题的这些解决方案,则这是合乎需要的。Wen等人的名为“群聚搜索引擎的用户查询(Clustering User Queries of aSearch engine)”的出版物描述了其目标为提高搜索引擎检索准确度的过程。Wen等人的文献群聚查询,使得可向询问该查询的人呈现一预公式化的FAQ(常见问题解答)文档。例如,如果群聚过程确定一查询正在询问“新汽车”,则返回“新汽车”FAQ文档作为对“新汽车”查询的响应。该方法先假定用于每一查询聚类的FAQ文档的存在,也先假定用于提交给搜索引擎的每一查询的匹配聚类的存在。网站www.ask.com提供了用户可用于寻找查询结果的方法,并且该网站可使用类似于Wen等人的文章中所描述的那些技术。
技术实现思路
如果形成查询搜索引擎的一部分的分析软件可准确地依照其类别来标识查询,则搜索引擎可更快速地响应查询。一种示例性系统分析来自用户的查询,并用数据响应该查询。查询处理器评估查询,并向另一数据源发送一查询形式用于创建查询的修改形式的响应。该系统实现一评估查询或查询的修改形式并标识查询类型的识别器组件。在一个示例性实施例中,查询处理器包括一用于向多个识别器的指定的一个或多个发送查询的识别器代理程序。一个这样的识别器是单词或语言符号(token)匹配识别器。该系统将查询输入单词或语言符号与储存在数据库中的单词相匹配,并用一置信度级别对这些单词进行分类。置信度级别从定义用户等级的历史的数据库记录中导出,以使用先前提交的查询。下文结合附图详细描述本专利技术的这些和其它目的、优点和特征。附图说明图1是适合使用本专利技术的示例性实施例的计算机系统的示意描述;图2是依照本专利技术的示例性实施例构造的查询识别器的框图;图3是查询预处理器的子组件的框图;以及图4是图2的查询识别器的流程图。具体实施例方式实践本专利技术的示例性环境图2示出了依照本专利技术的一个示例性实施例构造的查询分析器的示意图。查询分析器10在从用户接收查询11时开始其分析。更典型地,分析器以在诸如服务器计算机等计算机系统20(图1)上执行的软件来构造,该计算机系统进而通过通信连接耦合至其它服务器或通过网络耦合至其它计算机。在最典型的示例中,用户登录到他或她的计算机并通过因特网广域网与担当服务器的远程计算机系统进行通信。在服务器20上执行的搜索引擎软件可能结合其它联合搜索引擎提供对查询的快速响应。该响应以搜索结果12的形式提供给用户,通常通过诸如因特网等网络发送回用户。响应可被公式化为一系列文章或具有到那些文章的链接的网站汇总,或嵌入在搜索结果中的网站。可担当合适的查询响应计算机的计算机系统20在图1中描述,并在下文详细描述。示例性计算机系统20包括定义用于评估查询的查询处理器10的软件。对查询11的接收的一个可能的响应是向基于查询的修改形式执行搜索的另一服务器重新发送该查询的修改形式。作为示例,搜索结果的其它来源可以是作为提供关于机票价格、酒店等的数据的旅行网站的主机的服务器。它可以是维护一个国家中的教堂列表的宗教网站。它可以是专用于汽车信息的网站,它进而具有到汽车经销商的链接。其它,当然是非穷尽的类别为新闻、本地、体育、百科全书、历史、书籍、电影、娱乐等等。图1描述的服务器计算机系统20也可基于由服务器20维护的数据的内容直接评估查询,并提供响应或结果12。该数据库包含以单词索引形式的信息,单词索引由在上千个网站上搜索因特网分类页内容的web爬行检测器(web crawler)获取。这一扫描以周期性的基础作出,以确保它是该网站的内容的最新表示。无论计算机系统20是搜索查询结果还是向另一计算机发送搜索结果,结果12由服务器20格式化并被发送回用户。由于这一结果包含到包含文档或信息的其它网站的链接列表,因此用户能够在文档上点击,并且用户的web浏览器被重定向到由该链接指向的因特网地址。为在其它位置上有效地使用搜索引擎,计算机系统20使用多个识别器220(图3),用于为标识输入查询的类型的目的评估查询或查询的修改形式。一旦标识了查询的类型,分析器联合程序16决定可向哪一备选站点搜索引擎发送查询,或可选地决定查询应当由最初接收该查询的计算机系统20作进一步的评估。查询处理服务器20包括在输入查询上执行若干功能的查询处理器组件14。图4是描述查询处理器10的操作的流程图。查询处理器接收110输入查询,并访问120关于特定用户的查询上下文信息,如查询的地理和互联网(网页)的起点、该用户最近访问的网站以及最近由用户输入的查询和由用户选择的对这些查询的结果。查询上下文信息的一部分包含在嵌入到查询所起源的源计算机的地址中的信息内。该地址是被分解成字段的32比特的串。由IEFT公布的RFC#791第3.2节描述了IP寻址系统的细节。每一因特网服务提供商(或者国家或者公司)得到IP范围类A、B或C,并按其自己的需要划分对其可用的32字节。在大多数实例中,由于公司因特网连接位置的存在,可将IP关联到城市。这一反向查找并非总是准确的,例如,所有的AOL用户具有在维吉尼亚起源的IP地址。接下来,查询处理器在查询上执行若干功能来修改或扩充查询,以优化查询分析。这一扩充的目的是快速返回最可能与该特定用户相关的结果。在阶段130,查询处理器在查询上执行拼写检查,并改变查询中拼错的项的拼写,或向查询扩充正确拼写的项。查询处理器扫描经纠正拼写的查询以找出应当被组合成短语的项135。查询处理器可使用关于通常被执行的查询的信息来确定哪些项应当被组合成短语。在步骤140,查询处理器标识或识别短语中担当表示查询为某一类型的指示符的单词,类型如对位置敏感的本地查询,或搜索要购买的项目的查询。这些单词或项的标识可促使查询处理器向查询扩充上下文专用信息,如基于查询所起源的地理起点的邮政编码和区域代码信息。在这一阶段,查询的每一短语由查询分析器200和识别器代理程序210断开、提取词干并分析,用于概念或类别匹配。这些严格基于内容的概念结合对特定用户收集的过去数据一起标识可能的联合结果,即,以代理方式将该查询安排在何处用于最有效的分析。联合被定义为将查询“切断”成单独的服务(内部或外部)以提供与查询有关的数据,用于产生查询结果。在识别阶段,多个查询识别器221、222、223、224等评估该查询,并为识别器代理程序210确定查询属于预定类别组之一的概率。在查询预处理的分析级采用了三个单独的模块或组件。单词断开器将查询的每一短语分割成单独的单词,并将这些单词储存在输出阵列或列表中。词干提取(stemmer)器组件试图从单词断开器的输出阵列中找出每一单词的根,并创建对应的根单词阵列。最后,识别器组件试图对照储存在数据库230中的意向列表匹配根单词(或对没有根的单词匹配实际单词),以发现单词的意向。识别器组件也使用算法查询意向识别器来搜索模式。这一分析的结果提供了类别以及表示为百本文档来自技高网...

【技术保护点】
一种分析来自用户的查询并响应所述查询的系统,其特征在于,它包括:a)一查询处理器,用于评估一输入查询并向一数据源发送所述查询的经修改形式,以创建对所述查询的经修改形式的响应;以及b)多个识别器,用于评估所述查询或所述查询的经修改形式,并标识所述查询中的数据;c)所述查询处理器包括一识别器代理程序,用于将所述查询发送到所述多个识别器中指定的一个或多个。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:M卡尔布西S萨拉斯
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1