当前位置: 首页 > 专利查询>GOOGLE公司专利>正文

提高搜索质量的系统和方法技术方案

技术编号:2846201 阅读:211 留言:0更新日期:2012-04-11 18:40
公开了用于改善搜索质量的系统和方法。使用多种语言学技术扩展搜索查询。例如,可以用从复合字、字尾变化形式、和/或正字法变化的数据库中获得的相关字来补充查询中的字。扩展后的查询可以用来执行对相应文档的搜索。可以用类似的技术扩展文档索引。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及信息搜索和检索。更具体地,披露了用于。
技术介绍
在信息检索系统中,用户通常输入查询,然后收到包含查询项的一列文档。不包含查询项的文档被忽略。因此这种系统鼓励正确的查询公式化。需要用于改善查询的系统和方法,使得它们更多可能地产生有用的搜索结果。
技术实现思路
本专利技术提供了用于。应该明白,本专利技术可以用很多方式来实现,包括作为过程、设备、系统、装置、方法、或者计算机可读介质,例如计算机可读存储介质或在其上通过光或电的通信线路发送程序指令的计算机网络。下面描述本专利技术的几个具体实施例。在一个实施例中,一种方法,总体上可包括接收包括至少一个查询项的查询;确定查询是否包括复合查询项、包括在一组字尾变化形式中的查询项、和/或包括在一组可选拼写中的查询项,如果是,则自动扩展查询,以包括复合查询项的可选表示、来自该组字尾变化形式的相应字尾变化形式、和/或来自该组可选拼写的相应可选拼写;使用扩展的查询来搜索数据库;以及返回结果给用户。在另一个实施例中,一种方法,总体上可包括识别(identify,标识)一组与文档相关的项;通过进一步将文档与一个或多个可选拼写、该组项中至少一项的附加字尾变化形式、和/或该组项中至少一个复合项的一个或多个可选表示相联合,来扩展该组项;以及使用该扩展组项来对文档建索引。在另一个实施例中,一种方法,总体上包括用连字符连接字搜索第一组文档;用与连字符连接字相对应的非连字符连接字搜索第一组文档;以及在连字符连接字与相应非连字符连接字之间产生一组联系。在一个实例中,该方法可进一步包括接收来自用户的包括第一查询项的查询;在连字符连接字与相应非连字符连接字之间的该组联系中定位第一查询项;以及扩展该查询,以包括在连字符连接字与相应非连字符连接字之间的该组联系中与第一查询项相关联的第二查询项。根据另一个实施例,一种计算机程序包,其驻留于计算机可读介质上,计算机程序包包括指令,当处理器执行指令时,指令使处理器执行如下操作通过包括至少一个查询项的一个或多个可选拼写来扩展从用户接收的查询;用至少一个复合查询项的一个或多个可选表示来扩展查询;和/或用至少一个查询项的一个或多个字尾变化形式来扩展查询。根据另一个实施例,一种信息检索系统,总体上包括文档数据库,文档数据库包括一组文档;以及查询处理逻辑电路,可操作用于接收查询,使用一种或多种语言学技术扩展查询,以及响应于查询在文档数据库中的文档中搜索信息。这些语言学技术可以包括复合项扩展、字尾变化形式集合扩展、和/或正字法扩展。本专利技术的这些和其他特征和优点将在后面的详细描述和附图中呈现,其以实例形式阐述本专利技术的原则。附图说明通过以下结合附图的详细说明可以容易地理解本专利技术,其中,相同的标号表示相似结构的部件。图1是信息检索系统的示意图。图2是用于实施本专利技术的实施例的示例性计算装置的示意图。图3示出了可对其执行搜索的一组文档。图4示出了图3中所示的文档的索引。图5是用于搜索例如图3中所示的一组文档的方法的流程图。图6A示出了用于产生一列复合字(compound word)的方法。图6B是使用一列复合字搜索一组文档的方法的流程图。图7A示出了用于产生关于一组字(word)的字尾变化(inflection)集合的方法。图7B是使用字尾变化信息搜索一组文档的方法的流程图。图8是使用正字法信息搜索一组文档的方法的流程图。图9是使用一种或多种语言学技术扩展搜索查询来搜索一组文档的方法的流程图。图10是图3所示的文档的扩展索引。图11是使用诸如图10中所示的索引来搜索一组文档的方法的流程图。具体实施例方式披露了用于。给出下面的描述,使本领域任何技术人员都能够制造和使用本专利技术。提供的具体实施例和应用的描述仅作为示例,对于本领域技术人员来说,显然很容易做出各种修改。例如,虽然是以德语搜索引擎的上下文环境列举了多个实例,但应该明白,在不脱离本专利技术的精神和范围的前提下,此处所描述的一般原则可以应用到其他语言、实施例、和应用中。类似地,尽管下面给出的许多例子描述为使用互联网网页作为要搜索的文档,但应该明白,脱机文档,例如,书、报纸、杂志、或其他扫描成电子格式的纸质文档,同样可以被搜索。因此,给予本专利技术最大范围,包含与本文所披露的原则和特征相一致的各种可选物、修改、和同等物。为了清楚起见,没有详细描述涉及本专利技术的领域内所公知的技术资料的相关细节,以避免使得本专利技术不必要地不清楚。在信息检索系统中,用户通常通过检索接口输入查询,以找到相应文档。返回的结果通常只限于以某种方式匹配该查询的那些文档。系统和方法描述为通过一种或多种语言学技术的应用来扩展用户查询。在一个实施例中,使用复合字、字尾变化形式(inflectionalform)、和/或正字法变化(orthographic variation)的数据库来扩展用户的原始查询。扩展后的查询随后被用来执行搜索相应文档。图1示出了系统100,其中,可以实施符合本专利技术的方法和装置。系统100可以包括多个客户设备102,其通过网络106连接到多个服务器104、105。客户设备102可以包括浏览器110,用于接收用户输入,并用于显示通过网络106从其他系统102、104、105接收的信息。服务器104、105可以包括搜索引擎112,用于接收通过网络106传送的用户查询,搜索文档数据库,并将结果返回给用户。网络106可以包括局域网(LAN)、广域网(WAN)、虚拟专用网络(VPN)、电话网,诸如公共电话交换网(PSTN),内联网,互联网,或多种网络的组合。为了方便图示,图1示出了连接到网络106的三个客户设备102和两个服务器104、105;然而,应该明白,实际当中,可以有更多或更少的客户设备、服务器、和/或网络,并且一些客户设备也可以执行服务器的功能,一些服务器可以执行客户端的功能。图2示出了更详细的系统200实例,诸如图1中所示的客户端102或服务器104、105。在一个实施例中,系统200包括计算装置,诸如个人计算机、便携式电脑、大型机、个人数字助理、移动电话、和/或相似的设备。系统200通常将包括处理器202、存储器204、用户接口206、用于接受可移动存储介质208的输入/输出端口207、网络接口210、以及连接上述元件的总线212。系统200的操作将通常由处理器202在存储于存储器204中的程序指导下操作所控制。存储器204将通常包括计算机可读介质的一些组合,诸如高速随机存取存储器(RAM)和非易失性存储器(诸如只读存储器(ROM))、磁盘、磁盘阵列、和/或磁带阵列。端口207可以包括用于接受例如软盘、CD-ROM、DVD、存储卡、磁带等计算机可读介质的磁盘驱动器或存储器插槽。例如,用户接口206可以包括用于输入信息的键盘、鼠标、笔、或语音识别装置,以及一个或多个用于向用户呈现信息诸如显示器、打印机、扬声器、和/或类似机构。网络接口210通常可操作用于通过有线、无线、光的、和/或其他连接在系统200与其他系统(和/或网络220)之间提供连接。下面将更详细地描述,系统200可以执行各种搜索和检索操作。这些操作将通常响应于处理器202执行计算机可读介质(例如存储器204)中所包含的软件指令而被执行。软件指令可以从另一计算机可读介质(例本文档来自技高网...

【技术保护点】
一种方法,包括:接收包括至少一个查询项的查询;执行以下步骤中的至少一个:(A)确定所述查询是否包括一个或多个复合查询项,如果是,则自动扩展所述查询,以包括所述一个或者多个复合查询项的一个或多个可选表示;(B) 确定一个或多个查询项是否包括在一组字尾变化形式中,如果是,则自动扩展所述查询,以包括来自所述组字尾变化形式的一个或多个相应的字尾变化形式;以及(C)确定一个或者多个查询项是否包括在一组可选拼写中,如果是,则自动扩展所述查询,以包括来 自所述组可选拼写的一个或多个相应的可选拼写;使用所扩展的查询来搜索数据库;以及返回结果给用户。

【技术特征摘要】
【国外来华专利技术】US 2003-12-30 10/749,7301.一种方法,包括接收包括至少一个查询项的查询;执行以下步骤中的至少一个(A)确定所述查询是否包括一个或多个复合查询项,如果是,则自动扩展所述查询,以包括所述一个或者多个复合查询项的一个或多个可选表示;(B)确定一个或多个查询项是否包括在一组字尾变化形式中,如果是,则自动扩展所述查询,以包括来自所述组字尾变化形式的一个或多个相应的字尾变化形式;以及(C)确定一个或者多个查询项是否包括在一组可选拼写中,如果是,则自动扩展所述查询,以包括来自所述组可选拼写的一个或多个相应的可选拼写;使用所扩展的查询来搜索数据库;以及返回结果给用户。2.根据权利要求1所述的方法,其中,所述方法包括确定所述查询是否包括一个或者多个复合查询项,如果是,则自动扩展所述查询,以包括所述一个或多个复合查询项的一个或多个可选表示。3.根据权利要求1所述的方法,其中,所述方法包括确定一个或多个查询项是否包括在一组字尾变化形式中,如果是,则自动扩展所述查询,以包括来自所述组字尾变化形式的一个或多个相应的字尾变化形式。4.根据权利要求1所述的方法,其中,所述方法包括确定一个或多个查询项是否包括在一组可选拼写中,如果是,则自动扩展所述查询,以包括来自所述组可选拼写的一个或多个相应的可选拼写。5.根据权利要求4所述的方法,其中,所述方法还包括执行(B),以及其中,在自动扩展所述查询以包括来自所述组字尾变化形式的一个或多个相应的字尾变化形式的步骤之前,执行自动扩展所述查询以包括来自所述组可选拼写的一个或多个相应的可选拼写的步骤。6.根据权利要求1所述的方法,其中,所述方法包括执行所述步骤(A)、(B)、和(C)中的至少两个步骤。7.根据权利要求1所述的方法,其中,确定所述查询是否包括一个或多个复合查询项的步骤包括将查询项与复合项表相比较。8.根据权利要求7所述的方法,其中,所述一个或多个复合查询项的所述一个或多个可选表示从所述复合项表中获得。9.根据权利要求1所述的方法,其中,所述查询用德文书写。10.根据权利要求1所述的方法,其中,以排列的顺序执行所述操作。11.一种方法,包括识别一组与文档相关联的项目;通过以下内容中进一步与所述文档相关联的一个或多个内容来扩展与所述文档相关联的所述组项目与所述文档相关联的所述组项目中的至少一个项目的一个或多个可选拼写;与所述文档相关联的所述组项目中的至少一个复合项的一个或多个可选表示;以及与所述文档相关联的所述组项目中的至少一个项目的一个或多个附加的字尾变化形式;使用所扩展的组项来对所述文档建索引。12.根据权利要求11所述的方法,还包括从用户接收查询,所述查询包括一个或多个所述可选拼写、可选表示、或附加的字...

【专利技术属性】
技术研发人员:亚历山大M弗朗茨莫妮卡亨青格尔
申请(专利权)人:GOOGLE公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1