当前位置: 首页 > 专利查询>谷歌公司专利>正文

对跨语言查询建议的查询翻译进行评价制造技术

技术编号:10359031 阅读:137 留言:0更新日期:2014-08-27 15:07
描述了用于生成跨语言查询建议的用计算机实现的方法、系统、计算机程序产品。对于以第一自然语言书写的每个查询建议,根据查询建议生成候选分段,并且根据每个候选分段生成候选翻译。基于与得到每个候选翻译的各自的候选分段相关联的分段质量的度量,以及候选翻译在目标语言查询日志中出现的频率,对候选翻译进行评价。与每个候选分段相关联的分段质量的度量进一步基于候选分段在源语言查询日志中出现的频率。基于评价的结果,提供候选翻译,作为主要语言查询建议的跨语言查询建议。

【技术实现步骤摘要】
【国外来华专利技术】对跨语言查询建议的查询翻译进行评价
本说明书涉及用计算机实现的查询建议服务,尤其涉及提供跨语言查询建议。
技术介绍
搜索引擎可以提供与用户的查询输入相对应的输入建议(例如查询建议)。输入建议包括对用户提交的搜索查询的查询替选项和/或与用户输进的部分查询输入匹配的建议(例如自动完成)。为了提供可能与用户的兴趣和当前信息需要相关的输入建议,搜索引擎在选择特定输入建议候选对象以向用户呈现之前,基于各种标准对输入建议候选对象进行评价。有关同一主题或信息的因特网内容在万维网上经常以不同的自然语言和/或书写系统而存在。多语言用户可以尝试以不同的语言和/或书写系统拟定相应的查询,并且向搜索引擎提供查询以定位不同语言和/或书写系统的相关内容。然而,即使有多语言字典的帮助,使用非母语语言或书写系统拟定有效搜索查询,对于许多多语言用户来说也可能是挑战。能够提供跨语言输入建议(例如跨语言查询建议)的搜索引擎可以帮助减轻这种困难。需要提高机器生成的跨语言查询建议的质量和有效性的技术。
技术实现思路
本说明书描述与跨语言查询建议的生成有关的技术。通常,在本说明书中描述的主题的一个方面可以通过包括如下动作的方法来实施:接收以第一语言书写的查询,所述查询是基于向搜索引擎提交的用户输入生成的主要语言查询建议;获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成;对于所述一个或更多个唯一候选分段中的每一个,通过翻译所述候选分段的片段的各自的序列,确定第二语言的一个或更多个候选翻译的各自的集合;对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译:(I)至少部分基于从所述唯一候选分段的片段的各自的序列中去除了多少个停止词,以及所述唯一候选分段在第一查询日志中作为以所述第一语言书写的完整查询出现的各自的第一频率,确定所述唯一候选分段的各自的分段质量;以及(2)至少基于针对所述唯一候选分段确定的所述各自的分段质量,以及所述候选翻译在第二查询日志中作为以所述第二语言书写的完整查询出现的各自的第二频率,确定所述候选翻译的各自的评分;以及基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个,作为所述查询的跨语言查询建议。通常,在本说明书中描述的主题的一个方面可以通过包括如下动作的方法来实施:接收以第一语言书写的查询;获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成;对于所述一个或更多个唯一候选分段中的每一个:(I)确定所述唯一候选分段的分段质量的各自的度量;以及(2)通过翻译所述候选分段的片段的各自的序列,获得第二语言的一个或更多个候选翻译的各自的集合;对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译:(1)确定所述候选翻译在第一查询日志中作为以所述第二语言书写的完整查询出现的第一频率;以及(2)至少基于所述候选翻译在所述第一查询日志中作为以所述第二语言书写的完整查询出现的所述第一频率,以及所述候选分段的分段质量的度量,确定所述候选翻译的各自的评分;以及基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个,作为所述查询的跨语言查询建议。这些方面的其它实施例包括各自被配置为执行这些方法的动作的相应的计算机系统、装置和记录在一个或更多个计算机存储设备上的计算机程序。可以如此构成一个或更多个计算机的系统,通过将软件、固件、硬件或它们的组合安装在该系统上,在操作中使系统执行这些动作。可以如此构成一个或更多个计算机程序,通过具有指令,当由数据处理装置执行这些指令时,指令使装置执行这些动作。这些和其它实施例可以任选地包括以下特征中的一个或更多个。在一些实施方式中,获得所述第一语言的所述查询的一个或更多个唯一候选分段的动作还包括:获得作为所述第一语言的所述查询的分区的至少一个候选分段。在一些实施方式中,获得所述第一语言的所述查询的一个或更多个唯一候选分段的动作还包括:获得从所述候选分段中去除了一个或更多个停止词的至少一个候选分段。在一些实施方式中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量的动作还包括:至少部分基于从所述候选分段的片段的各自的序列中去除了多少个停止词,确定所述分段质量的各自的度量。在一些实施方式中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量的动作还包括:确定所述候选分段在第二查询日志中作为以所述第一语言书写的完整查询出现的各自的第二频率;以及至少部分基于所述候选分段在所述第二查询日志中作为以所述第一语言书写的完整查询出现的所述各自的第二频率,确定所述分段质量的各自的度量。可以实施在本说明书中描述的主题的特定实施例,以实现以下优点中的一个或更多个。使用在本说明书中描述的技术的特定实施例,可以自动向以第一语言(例如用户的母语)输进查询输入的用户提供跨语言查询建议(即第二语言的查询建议)。可以与基于用户的初始查询输入提供的第一语言的相应查询建议一起,提供跨语言查询建议。每个跨语言查询建议已经由搜索引擎进行了评价,并且确定不仅是适当或准确的对第一语言的相应查询建议(例如主要语言查询建议)的翻译,还是用于检索与主要语言查询建议所针对的主题或信息相同的主题或信息有关的跨语言内容的有效搜索查询。通过选择跨语言查询建议,用户可以检索到可能比以第一语言可获得的内容更相关或全面的第二语言的内容。另外,可以以高效的方式实施搜索任务,并且搜索任务可以提供良好的用户体验。不仅可以避免人工翻译主要语言查询建议的需要,同样可以提高基于机器翻译生成的跨语言查询建议的有效性。在附图和下面的描述中叙述在本说明书中描述的主题的一个或更多个实施例的细节。从文字描述、附图和权利要求,本主题的其它特征、方面和优点将变得明显。【附图说明】图1是示出生成不同自然语言的查询建议的示例系统中的数据流的示例的框图。图2是示出呈现第一语言的第一查询建议组和不同的第二语言的第二查询建议组的示例网页的屏幕截图。图3是示出基于由翻译子系统的细化模块进行的查询翻译评价,提供作为跨语言查询建议的查询(例如主要语言查询建议)的翻译的翻译子系统的示例的框图。图4是示出如图3所示的翻译子系统中的细化模块的示例的框图。图5是示出对作为潜在跨语言查询建议的查询翻译进行评价,并且基于评价提供作为跨语言查询建议的查询翻译的示例处理的流程图。各个图中相同的附图标记和指定指示相同的元素。【具体实施方式】搜索引擎可以响应于用户输进的查询输入,提供主要语言查询建议。主要语言查询建议是使用用户的原始查询输入的语言或书写系统书写的查询建议。搜索引擎还可以针对每个主要语言查询建议提供跨语言查询建议,其中,跨语言查询建议是使用与主要语言查询建议的语言或书写系统不同的第二语言或书写系统书写的查询。当提供跨语言查询建议时,搜索引擎对主要语言查询建议的多个候选翻译进行评价,并且选择不仅是主要语言查询建议的准确翻译、而且还可能是用于检索跨语言内容的有效搜索查询的候选翻译,跨语言内容是关于与主要语言搜索查询所针对的主要语言内容相同的主题。如在本说明书中所描述的,搜本文档来自技高网...
对跨语言查询建议的查询翻译进行评价

【技术保护点】
一种用计算机实现的方法,包括:接收以第一语言书写的查询,所述查询是基于向搜索引擎提交的用户输入生成的主要语言查询建议;获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成;对于所述一个或更多个唯一候选分段中的每一个,通过翻译所述候选分段的片段的各自的序列,确定第二语言的一个或更多个候选翻译的各自的集合;对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译:至少部分基于从所述唯一候选分段的片段的各自的序列中去除了多少个停止词、以及所述唯一候选分段在第一查询日志中作为以所述第一语言书写的完整查询出现的各自的第一频率,确定所述唯一候选分段的各自的分段质量;及至少基于针对所述唯一候选分段确定的所述各自的分段质量、以及所述候选翻译在第二查询日志中作为以所述第二语言书写的完整查询出现的各自的第二频率,确定所述候选翻译的各自的评分;以及基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个作为所述查询的跨语言查询建议。

【技术特征摘要】
【国外来华专利技术】1.一种用计算机实现的方法,包括: 接收以第一语言书写的查询,所述查询是基于向搜索引擎提交的用户输入生成的主要语言查询建议; 获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成; 对于所述一个或更多个唯一候选分段中的每一个,通过翻译所述候选分段的片段的各自的序列,确定第二语言的一个或更多个候选翻译的各自的集合; 对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译: 至少部分基于从所述唯一候选分段的片段的各自的序列中去除了多少个停止词、以及所述唯一候选分段在第一查询日志中作为以所述第一语言书写的完整查询出现的各自的第一频率,确定所述唯一候选分段的各自的分段质量 '及 至少基于针对所述唯一候选分段确定的所述各自的分段质量、以及所述候选翻译在第二查询日志中作为以所述第二语言书写的完整查询出现的各自的第二频率,确定所述候选翻译的各自的评分;以及 基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个作为所述查询的跨语言查询建议。2.一种用计算机实现的方法,包括: 接收以第一语言书写的查询; 获得所述第一语言的所述查询的一个或更多个唯一候选分段,每个唯一候选分段由通过分割所述第一语言的所述查询而获得的片段的各自的序列构成; 对于所述一个或更多个唯一候选分段中的每一个: 确定所述唯一候选分段的分段质量的各自的度量;及 通过翻译所述候选分段的片段的各自的序列,获得第二语言的一个或更多个候选翻译的各自的集合; 对于所述一个或更多个唯一候选分段中的每一个的每个候选翻译: 确定所述候选翻译在第一查询日志中作为以所述第二语言书写的完整查询出现的第一频率;及 至少基于所述候选翻译在所述第一查询日志中作为以所述第二语言书写的完整查询出现的所述第一频率、以及所述候选分段的分段质量的度量,确定所述候选翻译的各自的评分;以及 基于所述候选翻译各自的评分,提供所述候选翻译中的至少一个作为所述查询的跨语言查询建议。3.根据权利要求2所述的用计算机实现的方法,其中,获得所述第一语言的所述查询的一个或更多个唯一候选分段还包括: 获得作为所述第一语言的所述查询的分区的至少一个候选分段。4.根据权利要求2所述的用计算机实现的方法,其中,获得所述第一语言的所述查询的一个或更多个唯一候选分段还包括: 获得从所述候选分段中去除了一个或更多个停止词的至少一个候选分段。5.根据权利要求4所述的用计算机实现的方法,其中,对于所述一个或更多个唯一候选分段中的每一个,确定所述唯一候选分段的分段质量的各自的度量还包括: 至少部分基于从所述候选分段的片段的各自的...

【专利技术属性】
技术研发人员:陈启亮谭卫华
申请(专利权)人:谷歌公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1