当前位置: 首页 > 专利查询>谷歌公司专利>正文

用于处理查询词语的方法和系统技术方案

技术编号:5269292 阅读:219 留言:0更新日期:2012-04-11 18:40
用于执行与处理提供给搜索引擎的搜索查询中的查询词语有关的操作的方法和系统。在一个方面,一种方法包括:通过用户界面从用户接收包括查询词语的搜索查询,所述搜索查询具有归属于所述搜索查询的查询语言;从所述查询词语获得简化查询词语;以及通过在同义词映射表中查找所述简化查询词语为所述查询词语识别一个或多个潜在同义词,所述同义词映射表将多个键中的每一个映射到一个或多个相对应的变体,每一个变体是与一种或多种文档语言相关联的单词,并且每一个变体对于每一种相关联的语言与指示所述变体在用于所述相同键的所述相关联的语言的所有变体中的相对频度的变体-语言分值相关联。

【技术实现步骤摘要】
用于处理查询词语的方法和系统本申请是基于申请日为2007年4月19日的PCT中国国家阶段专利申请 200780021902.1 (进入中国国家阶段的日期为2008年12月12日)而提出的分案申请。
技术介绍
本专利技术涉及在处理搜索查询中以及在包括文档和其它可搜索资源的库上的搜索 中处理语言不确定性,其中查询和资源可以以多种不同语言中的任何一种来表示。搜索引擎对文档进行索引并且提供方法来搜索其内容由搜索引擎进行索引的文 档。文档以许多不同的语言书写;一些文档具有用多种语言的内容。各种字符被用来表 示这些语言的单词拉丁字母(即,从A到Z的26个非重读字符,大小写体)、区别音 符(即,重读字符)、连字(例如,疋、β、(Ε)、西里尔字符以及其它。遗憾的是,产生这些字符的能力和简便性在装置与装置之间差别极大。内容的 作者和搜索引擎的用户可能都不能够便利地产生其更喜欢的字符。反而,这样的装置的 用户将经常提供作为相近替代物的字符或字符序列。例如,AE可以被提供来替代疋。而 且,这样的替代的惯例在语言和用户之间不同。例如,搜索AE的某些用户可能更喜欢 看见也包括龙的结果。用于解决在搜索引擎中的该问题的一种方法是处理索引内容以移除重音并将特 殊字符转换为一组标准字符。该方法从索引移除信息,使得不可能仅检索单词的特定重 读实例。该方法也因语言不可知论(agnosticism)而受损,其中所述语言不可知论不受这 样的用户影响所述用户的预期由所述用户的特定语言的惯例所形成。
技术实现思路
本说明书公开了用于使用搜索查询的词语的技术的各种实施例。实施例表征为(feature)方法、系统、设备,包括计算机程序产品设备。在本
技术实现思路
中将参考方法描 述这些中的每一个,对于所述方法存在相对应的系统和设备。一般而言,在一个方面中,方法具有以下特征通过用户界面从用户接收包括 一个或多个查询词语的搜索查询,所述用户界面具有界面语言,所述界面语言是自然语 言;以及从查询词语和界面语言为查询确定查询语言,所述查询语言是自然语言。这些 和其它的实施例可以可选地包括下列特征中的一个或多个。所述方法包括为多种语言的 每一种确定分值,所述分值指示查询语言是多种语言中的一种的可能性。所述方法包括 使用查询语言来选择一个或多个映射并且使用所选择的一个或多个映射来将每一个查询 词语简化为相对应的简化查询词语;以及将每一个简化查询词语应用于同义词映射表以 识别扩增(augment)搜索查询的可能的同义词。所述方法包括为多种语言的每一种确定 分值,所述分值指示查询语言是多种语言中的一种的可能性。一般而言,在另一个方面,方法具有以下特征通过用户界面从用户接收由一 个或多个查询词语组成的搜索查询,所述用户界面具有界面语言,所述界面语言是自然 语言;使用界面语言来选择一个或多个映射并且使用所选择的一个或多个映射来将每一个查询词语简化为相对应的简化查询词语;以及将每一个简化查询词语应用于同义词映 射表以识别扩增搜索查询的可能的同义词。一般而言,在另一个方面,方法具有以下特征从文档库生成同义词映射表, 每一个文档具有归属(attribute)于该文档的文档语言,所述文档语言每一种都是自然语 言;其中同义词映射表将多个键中的每一个映射到一个或多个相对应的变体;以及每一 个变体与文档语言中的一种或多种相关联。这些和其它的实施例可以可选地包括下列特 征中的一个或多个。所述方法包括对于每一种相关联的语言,每一个变体与指示该变 体在用于相同键的相关联的语言的所有变体中的相对频度的分值相关联。自动确定每一 个文档的文档语言归属。一般而言,在另一个方面,方法具有以下特征通过将依赖于语言的映射的第 一集合应用于库中的单词以为映射表生成键来从文档库生成同义词映射表,每一个文档 具有归属于该文档的文档语言,归属于每一个文档的文档语言被用来确定应用于文档中 的单词的依赖于语言的映射。这些和其它的实施例可以可选地包括下列特征中的一个或 多个。所述方法包括通过将依赖于语言的映射的第二集合应用于每一个查询词语来从搜 索查询中的每一个查询词语生成简化查询词语,所述搜索查询具有归属于该搜索查询的 查询语言,归属于该搜索查询的查询语言被用来确定应用于每一个查询词语的依赖于语 言的映射。依赖于语言的映射的第一集合与依赖于语言的映射的第二集合不同。一般而言,在另一个方面,方法具有以下特征通过将依赖于语言的映射的第 一集合应用于库中的单词以为映射表生成键来从文档库生成同义词映射表,每一个文档 具有归属于该文档的文档语言,归属于每一个文档的文档语言被用来确定应用于文档中 的单词的依赖于语言的映射;通过将依赖于语言的映射的第二集合应用于搜索查询中的 查询词语来从搜索查询生成简化查询词语,所述搜索查询具有归属于该搜索查询的查询 语言,归属于该搜索查询的查询语言被用来确定应用于查询词语的依赖于语言的映射; 其中所述搜索查询包括第一查询词语,通过来自查询语言所确定的依赖于语言的映射的 第二集合的所应用的依赖于语言的映射将第一查询词语映射到第一简化查询词语,通过 查询语言所确定的依赖于语言的映射的第一集合中的依赖于语言的映射将第一查询词语 映射到第一键,并且第一简化查询词语与第一键不同。这些和其它的实施例可以可选地 包括下列特征中的一个或多个。所述方法包括将界面语言归属于查询作为查询语言。一般而言,在另一个方面中,方法具有以下特征通过用户界面从用户接收包 括查询词语的搜索查询,所述搜索查询具有归属于该搜索查询的查询语言;从查询词语 获得简化查询词语;以及通过在同义词映射表中查找简化查询词语为查询词语识别一个 或多个潜在同义词,所述同义词映射表将多个键中的每一个映射到一个或多个相对应的 变体,每一个变体是与一种或多种文档语言相关联的单词,并且每一个变体对于每一种 相关联的语言与指示该变体在用于相同键的相关联的语言的所有变体中的相对频度的变 体_语言分值相关联。这些和其它的实施例可以可选地包括下列特征中的一个或多个。 所述方法包括使用所归属的查询语言和用于简化查询词语的一个或多个变体的变体-语 言分值来选择变体以在扩增搜索查询中使用。所述方法包括将界面语言归属于查询作为 查询语言。在搜索查询具有归属于该搜索查询的多 种查询语言的情况下,每一种具有各 自的查询-语言分值,所述方法进一步包括使用(a)查询-语言分值以及(b)用于简化查询词语的一个或多个变体的变体-语言分值来选择变体以在扩增搜索查询中使用。使用 查询-语言分值和变体-语言分值包括对所有语言的以下乘积求和对于每一种语言,用 于该语言的查询-语言分值和用于该语言的变体-语言分值的乘积。 一般而言,在另一个方面中,方法具有以下特征通过用户界面从用户接收由 一个或多个查询词语组成的搜索查询;以及接收在简化搜索查询的查询词语中应用标音 (transliteration)的用户偏好的指示。这些和其它的实施例可以可选地包括下列特征中的 一个或多个。所述方法包括如果用户偏好是应用标音则在简化搜索查询的查询词语中 应用标音来生成简化查询词语,否则在简化搜索查询的查询词语中不应用标音来生成简 化查询词语;以及使用简化查询词语来识别同义词以在扩增搜索查询中使用。在简化搜 索查询中应用本文档来自技高网
...

【技术保护点】
一种计算机实现的处理查询词语的方法,包括:通过用户界面从用户接收包括查询词语的搜索查询,所述搜索查询具有归属于所述搜索查询的查询语言;从所述查询词语获得简化查询词语;以及通过在同义词映射表中查找所述简化查询词语为所述查询词语识别一个或多个潜在同义词,所述同义词映射表将多个键中的每一个映射到一个或多个相对应的变体,每一个变体是与一种或多种文档语言相关联的单词,并且每一个变体对于每一种相关联的语言与指示所述变体在用于所述相同键的所述相关联的语言的所有变体中的相对频度的变体-语言分值相关联。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:鲁齐拉S达特法比奥洛皮亚诺
申请(专利权)人:谷歌公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1