当前位置: 首页 > 专利查询>谷歌公司专利>正文

用于查询扩展的音译制造技术

技术编号:10565167 阅读:117 留言:0更新日期:2014-10-22 16:48
本发明专利技术涉及用于识别用于查询扩展的音译词语的候选同义词的方法和系统。在一方面中,方法包括识别目标语言的多个音译词语。对于目标语言的多个音译词语中的每个音译词语,所述音译词语被映射到源语言的一个或多个词语。对于目标语言的多个音译词语中的第一音译词语,目标语言的多个音译词语中的一个或多个第二音译词语被识别为第一音译词语的候选同义词,其中所述一个或多个第二音译词语中的每一个被映射到也从所述第一音译词语映射的源语言的至少一个词语。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及用于识别用于查询扩展的音译词语的候选同义词的方法和系统。在一方面中,方法包括识别目标语言的多个音译词语。对于目标语言的多个音译词语中的每个音译词语,所述音译词语被映射到源语言的一个或多个词语。对于目标语言的多个音译词语中的第一音译词语,目标语言的多个音译词语中的一个或多个第二音译词语被识别为第一音译词语的候选同义词,其中所述一个或多个第二音译词语中的每一个被映射到也从所述第一音译词语映射的源语言的至少一个词语。【专利说明】用于查询扩展的音译 分案说明 本申请属于申请日为2009年7月20日的中国专利申请200910164542. 1的分案 申请。
本说明涉及用于用户向搜索引擎提交查询的查询扩展。
技术介绍
搜索引擎-以及,特别地,因特网搜索引擎-的目标在于识别与用户的需求相关的 资源(例如,网页、图像、文本文档、多媒体内容(context))以及将与资源有关的信息以对 用户最有用的方式进行呈现。因特网搜索引擎响应于用户提交的查询返回搜索结果。如果 用户对于为查询返回的搜索结果不满意,那么用户能够尝试精化所述查询以更好地匹配用 户的需求。 -些搜索引擎为用户提供搜索引擎识别为与用户的查询相关的建议的替选查询, 例如扩展的查询。用于找到用于查询扩展的查询词的同义词的技术通常依赖于自然语言模 型或者用户搜索日志数据。识别出的查询词的同义词能够在识别附加的或者更相关的资源 的尝试中用于扩展查询以改进用户搜索体验。 电子文档通常用多种不同语言书写。通常在特定的书写系统(即文字(script)) 中表达每一种语言,所述书写系统的特征通常在于特定的字母表。例如,使用拉丁字母表来 表达英语语言,而使用梵文字母表来表达印度语语言。一些语言所使用的文字包括已经被 扩展为包括附加的标记或者字符的特定字母表。在音译(transliteration)中,一种语言 的文字被用于表示通常以另一种语言的文字书写的词。例如,音译词语能够是从一种文字 转换成另一种文字的词语或者以一种文字的词语的另一种文字的语音表示。用于找到用于 查询扩展的查询词的同义词的技术可能对于找到音译词语的查询词语的同义词不能很好 的工作。例如,当前的自然语言技术对于音译数据不能很好的工作,并且搜寻日志数据通常 不能很好地覆盖大多数音译的变体。
技术实现思路
本专利技术描述了涉及识别用于查询扩展的音译词语的候选同义词的技术。 -般来说,在本说明中描述的主题的一方面能够被具体化为计算机实现的方法, 该方法包括下述动作:使用一个或者多个计算机识别目标语言的多个音译词语;对于目标 语言的多个音译词语中的每一个音译词语,将音译词语映射到源语言的一个或者多个词 语;以及对于目标语言的多个音译词语中的第一音译词语,识别目标语言的多个音译词语 的一个或多个第二音译词语作为第一音译词语的候选同义词,其中所述一个或者多个第二 音译词语中的每一个被映射到也从第一音译词语映射的源语言的至少一个词语。该方面的 其它实施例包括对应的系统、装置以及计算机程序产品。 这些和其它实施例能够可选地包括下述特征中的一个或多个。识别目标语言的多 个音译词语能够进一步包括从web资源识别只包含目标语言的字符的词语。该方面能够进 一步包括计算用于仅包含目标语言的字符的每个识别的词语的统计量,将用于每个识别的 词语的统计量与指定的阈值进行比较,并且如果用于特定的识别词语的统计量超过指定的 阈值,则将特定的识别的词语包括在目标语言的多个音译词语中。 用于每个识别的词语的统计量能够是与讲源语言的一个或多个地区(locale)相 关联的顶级域的web资源中识别的词语的出现概率相对于与任何地区相关联的顶级域的 web资源中识别的词语的出现概率的比率。用于每个识别的词语的统计量能够是与讲源语 言的一个或多个地区相关联的web资源中识别的词语的出现概率相对于与任何地区相关 联的web资源中识别的词语的出现概率的比率。web资源与讲源语言的地区的关联能够通 过web资源的顶级域来确定。 将音译词语映射到源语言的一个或多个词语能够进一步包括将目标语言的音译 词语音译为源语言的一个或多个词语。被识别为第一音译词语的候选同义词的一个或 多个第二音译词语中的每一个能够具有超过指定的阈值的相对于第一音译词语的置信 (confidence)值。第二音译词语的置信值能够是从第一音译词语和第二音译词语两者映射 的源语言的词语的数目的函数。将目标语言的音译词语音译为源语言的词语能够进一步包 括产生用于目标语言的音译词语到源语言的词语的音译的音译分值。第二音译词语的置信 值能够是web资源中第二音译词语的出现概率、用于第二音译词语到也被从第一音译词语 映射的源语言的词语的音译的音译分值、以及用于第一音译词语到源语言的词语的音译的 音译分值中的一个或多个的函数。 所述方面能够进一步包括,对于目标语言的多个音译词语的第一音译词语,识别 从第一音译词语映射的以及从一个或多个第二音译词语中的至少一个映射的源语言的一 个或多个词语作为第一音译词语的候选同义词。该方面能够进一步包括接收包括第一音译 词语的查询,用第一音译词语的候选同义词中的一个或多个扩展该查询,将扩展的查询提 供给搜索引擎,并且接收用于扩展的查询的搜索结果。该方面能够进一步包括接收包括第 一音译词语的查询,以及提供一个或多个扩展的查询用于供用户选择,每个扩展的查询包 括所述查询以及第一音译词语的候选同义词中的一个或多个。 该方面能够进一步包括接收包括第一音译词语的查询;将该查询提供给搜索引 擎,其中所述搜索引擎识别以下的web资源作为用于该查询的可能的搜索结果,所述web资 源包括第一音译词语的候选同义词中的至少一个但是不包括查询中的任何词语;以及修改 与所述web资源相关联的分值,所述分值用于在排名用于所述查询的可能的搜索结果中使 用。该方面能够进一步包括接收包括第一音译词语的查询;将该查询提供给搜索引擎,其中 所述搜索引擎识别以下的web资源作为用于该查询的可能的搜索结果,所述web资源包括 从第一音译词语映射的以及从一个或多个第二音译词语中的至少一个映射的源语言的词 语中的至少一个,但是不包括查询中的任何词语;以及修改与该 web资源相关联的信息检 索分值,所述信息检索分值用于在排名用于该查询的可能的搜索结果中使用。 在本说明中描述的主题的另一方面能够具体化为计算机实现的方法,所述方法包 括下述动作:使用一个或多个计算机产生用于目标语言的可能的音译同义词的训练组;使 用训练组来训练概率模型以学习音译同义词在目标语言中的拼写变体的概率;以及将概率 模型应用于目标语言的特定音译词语以识别特定音译词语的一个或多个候选同义词。该方 面的其它实施例包括对应的系统、装置以及计算机程序产品。 本说明中描述的主题的另一方面能够被具体化为计算机实现的方法,所述方法包 括下述动作:使用一个或多个计算机识别目标语言的多个音译词语;对于目标语言的多个 音译词语的第一音译词语,识别目标语言的多个音译词语的一个或多个第二音译词语作为 第一音译词语的候选同义词;以及使用第一音译词语的候选同义词来扩展本文档来自技高网
...
用于查询扩展的音译

【技术保护点】
一种识别用于查询扩展的音译词语的候选同义词的方法,包括:使用一个或多个计算机识别目标语言的多个音译词语,所述多个音译词语中的每一个音译词语表示源语言的一个或多个相应源词语在所述目标语言中的转换;对于所述目标语言的所述多个音译词语中的每个音译词语,将该音译词语映射到所述源语言的所述一个或多个相应源词语;确定所述多个音译词语中的第一音译词语被映射到所述源语言的一个或多个特定源词语并且所述多个音译词语中的一个或多个第二音译词语也被映射到所述源语言的所述一个或多个特定源词语;以及基于所述第一音译词语和所述一个或多个第二音译词语都被映射到所述源语言的所述一个或多个特定源词语,将所述一个或多个第二音译词语识别为所述第一音译词语的候选同义词。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:皮尤什·普拉拉德卡拉利特什·卡特拉嘎达维内特·古普塔
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1