当前位置: 首页 > 专利查询>谷歌公司专利>正文

用于查询扩展的音译制造技术

技术编号:4129027 阅读:306 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及用于识别用于查询扩展的音译词语的候选同义词的方法、系统和装置,包括计算机程序产品。在一方面中,方法包括识别目标语言的多个音译词语。对于目标语言的多个音译词语中的每个音译词语,所述音译词语被映射到源语言的一个或多个词语。对于目标语言的多个音译词语中的第一音译词语,目标语言的多个音译词语中的一个或多个第二音译词语被识别为第一音译词语的候选同义词,其中所述一个或多个第二音译词语中的每一个被映射到也从所述第一音译词语映射的源语言的至少一个词语。

【技术实现步骤摘要】
用于查询扩展的音译
本说明涉及用于用户向搜索引擎提交査询的查询扩展。技术背景搜索引擎-以及,特别地,因特网搜索引擎-的目标在于识别与用户的需求相关的资源(例如,网页、图像、文本文档、多媒体内容(context))以及将与资源有关的信息以对用户最有用的方式进行呈现。因特网搜 索引擎响应于用户提交的查询返回搜索结果。如果用户对于为査询返 回的搜索结果不满意,那么用户能够尝试精化所述査询以更好地匹配 用户的需求。一些搜索引擎为用户提供搜索引擎识别为与用户的查询相关的建 议的替选查询,例如扩展的查询。用于找到用于査询扩展的查询词的 同义词的技术通常依赖于自然语言模型或者用户搜索日志数据。识别 出的査询词的同义词能够在识别附加的或者更相关的资源的尝试中用 于扩展査询以改进用户搜索体验。电子文档通常用多种不同语言书写。通常在特定的书写系统(即 文字(script))中表达每一种语言,所述书写系统的特征通常在于特 定的字母表。例如,使用拉丁字母表来表达英语语言,而使用梵文字 母表来表达印度语语言。 一些语言所使用的文字包括已经被扩展为包 括附加的标记或者字符的特定字母表。在音译(transliteration)中,一 种语言的文字被用于表示通常以另一种语言的文字书写的词。例如, 音译词语能够是从一种文字转换成另一种文字的词语或者以一种文字 的词语的另一种文字的语音表示 用于找到用于查询扩展的査询词的 同义词的技术可能对于找到音译词语的査询词语的同义词不能很好的工作。例如,当前的自然语言技术对于音译数据不能很好的工作,并 且搜寻日志数据通常不能很好地覆盖大多数音译的变体。
技术实现思路
本专利技术描述了涉及识别用于查询扩展的音译词语的候选同义词的 技术。一般来说,在本说明中描述的主题的一方面能够被具体化为计算 机实现的方法,该方法包括下述动作使用一个或者多个计算机识别 目标语言的多个音译词语;对于目标语言的多个音译词语中的每一个 音译词语,将音译词语映射到源语言的一个或者多个词语;以及对于目标语言的多个音译词语中的第一音译词语,识别目标语言的多个音 译词语的一个或多个第二音译词语作为第一音译词语的候选同义词, 其中所述一个或者多个第二音译词语中的每一个被映射到也从第一音 译词语映射的源语言的至少一个词语。该方面的其它实施例包括对应 的系统、装置以及计算机程序产品。这些和其它实施例能够可选地包括下述特征中的一个或多个。识别目标语言的多个音译词语能够进一步包括从web资源识别只包含目标语言的字符的词语。该方面能够进一步包括计算用于仅包含目标语 言的字符的每个识别的词语的统计量,将用于每个识别的词语的统计 量与指定的阈值进行比较,并且如果用于特定的识别词语的统计量超 过指定的阈值,则将特定的识别的词语包括在目标语言的多个音译词语中。用于每个识别的词语的统计量能够是与讲源语言的一个或多个地区(locale)相关联的顶级域的web资源中识别的词语的出现概率相对 于与任何地区相关联的顶级域的web资源中识别的词语的出现概率的 比率。用于每个识别的词语的统计量能够是与讲源语言的一个或多个 地区相关联的web资源中识别的词语的出现概率相对于与任何地区相关联的web资源中识别的词语的出现概率的比率。web资源与讲源语言 的地区的关联能够通过web资源的顶级域来确定。将音译词语映射到源语言的一个或多个词语能够进一步包括将目 标语言的音译词语音译为源语言的一个或多个词语。被识别为第一音 译词语的候选同义词的一个或多个第二音译词语中的每一个能够具有 超过指定的阈值的相对于第一音译词语的置信(confidence)值。第二 音译词语的置信值能够是从第一音译词语和第二音译词语两者映射的 源语言的词语的数目的函数。将目标语言的音译词语音译为源语言的 词语能够进一步包括产生用于目标语言的音译词语到源语言的词语的 音译的音译分值。第二音译词语的置信值能够是web资源中第二音译词 语的出现概率、用于第二音译词语到也被从第一音译词语映射的源语 言的词语的音译的音译分值、以及用于第一音译词语到源语言的词语 的音译的音译分值中的一个或多个的函数。所述方面能够进一步包括,对于目标语言的多个音译词语的第一 音译词语,识别从第一音译词语映射的以及从一个或多个第二音译词 语中的至少一个映射的源语言的一个或多个词语作为第一音译词语的候选同义词。该方面能够进一步包括接收包括第一音译词语的查询, 用第一音译词语的候选同义词中的一个或多个扩展该査询,将扩展的查询提供给搜索引擎,并且接收用于扩展的査询的搜索结果。该方面 能够进一步包括接收包括第一音译词语的查询,以及提供一个或多个 扩展的査询用于供用户选择,每个扩展的査询包括所述査询以及第一 音译词语的候选同义词中的一个或多个。该方面能够进一步包括接收包括第一音译词语的查询;将该査询 提供给搜索引擎,其中所述搜索引擎识别以下的web资源作为用于该査 询的可能的搜索结果,所述web资源包括第一音译词语的候选同义词中 的至少一个但是不包括查询中的任何词语;以及修改与所述web资源相关联的分值,所述分值用于在排名用于所述查询的可能的搜索结果中9使用。该方面能够进一步包括接收包括第一音译词语的查询;将该査询提供给搜索引擎,其中所述搜索引擎识别以下的web资源作为用于该 查询的可能的搜索结果,所述web资源包括从第一音译词语映射的以及 从一个或多个第二音译词语中的至少一个映射的源语言的词语中的至 少一个,但是不包括査询中的任何词语;以及修改与该web资源相关联 的信息检索分值,所述信息检索分值用于在排名用于该查询的可能的 搜索结果中使用。在本说明中描述的主题的另一方面能够具体化为计算机实现的方 法,所述方法包括下述动作使用一个或多个计算机产生用于目标语 言的可能的音译同义词的训练组;使用训练组来训练概率模型以学习 音译同义词在目标语言中的拼写变体的概率;以及将概率模型应用于 目标语言的特定音译词语以识别特定音译词语的一个或多个候选同义 词。该方面的其它实施例包括对应的系统、装置以及计算机程序产品。本说明中描述的主题的另一方面能够被具体化为计算机实现的方 法,所述方法包括下述动作使用一个或多个计算机识别目标语言的 多个音译词语;对于目标语言的多个音译词语的第一音译词语,识别目标语言的多个音译词语的一个或多个第二音译词语作为第一音译词 语的候选同义词;以及使用第一音译词语的候选同义词来扩展包括第 一音译词语的査询。该方面的其它实施例包括对应的系统、装置以及 计算机程序产品。本说明中描述的主题的特定实施例能够被实现为实现下面优点中 的一个或多个。音译词语被识别为用于特定音译词语的候选同义词, 其中所述候选同义词能够被用于扩展包括特定音译词语的查询。能够 为较新的音译词语(例如从源语言的词语音译词语、从当前新闻故事 或当前文化参考而音译词语)识别音译目标语言的同义词,这可能在 用户搜索日志数据中具有较差的覆盖。能够将用户的査询扩展为包括 用于给定的音译词语的候选音译同义词的系统可以返回比不具有这样的查询扩展能力的搜索系统更好的搜索结果。在附图以及下面的描述中阐述了本说明中描述的主题的一个或多 个实施例的细节。根据说明书、附图以及权利要本文档来自技高网
...

【技术保护点】
一种计算机实现的方法,包括: 使用一个或多个计算机识别目标语言的多个音译词语; 对于所述目标语言的所述多个音译词语中的每个音译词语,将所述音译词语映射到源语言的一个或多个词语;以及 对于所述目标语言的所述多个音译词语中的第 一音译词语,识别所述目标语言的所述多个音译词语中的一个或多个第二音译词语作为所述第一音译词语的候选同义词,其中所述一个或多个第二音译词语中的每一个被映射到也从所述第一音译词语映射的所述源语言的至少一个词语。

【技术特征摘要】
US 2008-7-18 61/082,165;US 2009-7-15 12/503,8061.一种计算机实现的方法,包括使用一个或多个计算机识别目标语言的多个音译词语;对于所述目标语言的所述多个音译词语中的每个音译词语,将所述音译词语映射到源语言的一个或多个词语;以及对于所述目标语言的所述多个音译词语中的第一音译词语,识别所述目标语言的所述多个音译词语中的一个或多个第二音译词语作为所述第一音译词语的候选同义词,其中所述一个或多个第二音译词语中的每一个被映射到也从所述第一音译词语映射的所述源语言的至少一个词语。2. 根据权利要求l所述的方法,其中识别所述目标语言的所述多 个音译词语进一步包括从web资源识别包含仅仅所述目标语言的字符的词语。3. 根据权利要求2所述的方法,进一步包括计算用于包含仅仅所述目标语言的字符的每个识别的词语的统计量;将用于每个识别的词语的所述统计量与指定的阈值进行比较;以 及如果用于特定的识别的词语的统计量超过所指定的阈值,则将所 述特定的识别的词语包括在所述目标语言的所述多个音译词语中。4. 根据权利要求3所述的方法,其中用于每个识别的词语的所述 统计量是与讲所述源语言的一个或多个地区相关联的顶级域的web资 源中所述识别的词语的出现概率相对于与任何地区相关联的顶级域的 w e b资源中所述识别的词语的出现概率的比率。5. 根据权利要求3所述的方法,其中用于每个识别的词语的所述统计量是与讲所述源语言的一个或多个地区相关联的web资源中所述 识别的词语的出现概率相对于与任何地区相关联的web资源中所述识 别的词语的出现概率的比率。6. 根据权利要求5所述的方法,其中web资源与讲所述源语言的地 区的关联通过所述web资源的顶级域来确定。7. 根据权利要求l所述的方法,其中将所述音译词语映射到所述 源语言的一个或多个词语进一步包括将所述目标语言的所述音译词语音译为所述源语言的所述一个或 多个词语。8. 根据权利要求7所述的方法,其中被识别为所述第一音译词语 的候选同义词的所述一个或多个第二音译词语中的每一个具有超过指 定阈值的相对于所述第一音译词语的置信值。9. 根据权利要求8所述的方法,其中第二音译词语的所述置信值 是从所述第一音译词语和所述第二音译词语两者映射的所述源语言的 词语的数目的函数。10. 根据权利要求8所述的方法,其中将所述目标语言的所述音译 词语音译为所述源语言的词语进一步包括产生用于所述目标语言的所述音译词语到所述源语言的所述词语 的所述音译的音译分值。11. 根据权利要求10所述的方法,其中第二音译词语的所述置信 值是web资源中所述第二音译词语的出现概率、用于所述第二音译词语 到也从所述第一音译词语映射的所述源语言的词语的所述音译的音译 分值、以及用于所述第一音译词语到所述源语言的所述词语的所述音 译的音译分值中的一个或多个的函数。12. 根据权利要求l所述的方法,进一步包括对于所述目标语言的所述多个音译词语中的所述第一音译词语,识别从所述第一音译词语映射的和从所述一个...

【专利技术属性】
技术研发人员:皮尤什普拉拉德卡拉利特什卡特拉嘎达维内特古普塔
申请(专利权)人:谷歌公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1