当前位置: 首页 > 专利查询>贝宝公司专利>正文

使用统计流数据进行不同语言之间的机器翻译制造技术

技术编号:30914386 阅读:18 留言:0更新日期:2021-11-23 00:02
本公开涉及使用统计流数据进行不同语言之间的机器翻译。在计算机动作的流中,计算机系统(110)接收涉及机器翻译的请求。在执行翻译(160,238)中或在后续的计算机操作(242,1110)中使用翻译时,计算机系统考虑从先前累积的点击数据(180)获得的在流中执行的机器翻译、流在翻译之前的部分、以及与流在翻译之后的部分有关的成功指示符之间的已知统计关系(310)。统计关系是通过对点击数据进行数据挖掘得到的。此外,可以暂停正常动作以使用随机选项来累积点击数据和/或执行统计AB测试。还提供了其他特征。提供了其他特征。提供了其他特征。

【技术实现步骤摘要】
使用统计流数据进行不同语言之间的机器翻译
[0001]分案申请说明
[0002]本申请是申请日为2015年12月2日、申请号为201580071517.2(PCT国际申请号为PCT/US2015/063514)、名称为“使用统计流数据进行不同语言之间的机器翻译”的专利技术专利申请的分案申请。
[0003]本专利技术的
技术介绍

[0004]本专利技术涉及在需要不同语言之间的翻译时在计算机网络中使用统计数据进行机器翻译。
[0005]随着互联网和其他计算机网络跨越国际边界并提供对用不同语言编写的各种文件的访问,翻译正变得越来越重要。商业、科学、工程、政治、艺术和其他类型的人类交互通常需要翻译。人类翻译员无法跟上这一需求,并且机器翻译正变得普遍。机器翻译(MT)随着计算机执行计算机指令而由计算机产生。从某种意义上讲,MT系统应该模仿人类翻译员的工作,人类翻译员理解源语言并在目标语言中表达相同的理解。然而,人类的理解和人类的表达不能被计算机所捕获:人类和计算机都可以参考词典和语法规则,人类甚至可以在不了解语法的情况下进行翻译,并且人类在即使不说的情况下理解彼此的能力以计算机无与伦比的方式提高他们的翻译能力,计算机不了解任何东西而仅遵循指令。另一方面,计算机速度是人类无与伦比的,并且计算机存储大量数据的能力也是人类无与伦比的,这些大量的数据无需提示或线索即可系统地调用。因此,机器翻译已经开发为具有自己的词汇和统计技术的领域,旨在满足通常的工程问题,例如最小化计算机资源(存储器、处理能力、网络带宽等)的使用,同时提供足够的速度和低成本。
[0006]图1示出了具有服务器110的计算机网络,服务器110响应于通过网络130(例如,因特网)从计算机120接收到的请求来执行机器翻译。服务器110可以是单个计算机或是分布式系统,该分布式系统包括由可能包括网络130的各种网络互连的多个计算机。来自计算机120的请求可以是翻译文档的显式请求,或者可以是执行需要翻译的某些其他任务(例如以不同语言执行对文档的搜索)的请求。因此,计算机120的用户可以以一种语言提交搜索查询,但是该查询必须与用另一种语言编写的文档进行匹配,因此在搜索可以继续之前必须翻译搜索查询。
[0007]服务器110可以访问存储要搜索的文档的计算机数据库140。如果需要,机器翻译引擎160翻译查询。搜索引擎150接受经翻译的查询,搜索相关数据库140,并产生搜索结果,例如,具有针对每个文档的链接(URL)的数据库文档的列表,可能具有每个文档的简要描述或文档内容的示例。
[0008]MT引擎160使用其数据库170来执行翻译。数据库170包含语言模型信息170R(其包括计算机词典和语法的计算机表示),并且还包含从已知翻译得到的统计信息170S。
[0009]重要的是,服务器可以存储关于搜索请求的信息,以帮助改进未来的翻译。这些信息显示为点击日志180。例如,假设许多用户提交了我们将表示为“qEn”的英文查询,并且在获得搜索结果之后,用户经常从搜索结果中选择给定的URL(统一资源定位符),例如www.fedex.com,这其是美国公司的英文主页。假设许多其他用户(可能是讲中文的人)也提
交中文查询qCn,获得搜索结果,并选择URL www.fedex.com/cn,其是同一公司的中文主页的网址。服务器110可以得出结论,英文查询qEn是中文查询qCn的英文翻译。针对点击数据用于改进机器翻译的其他用途,参见例如于2010年6月24日发布的美国授予专利前公布号2010/0161642(Chen等人)。
[0010]点击数据180由服务器的数据挖掘引擎190处理以用相关信息更新MT数据库170。更具体地,数据挖掘引擎190发现点击数据之间的(例如,诸如www.fedex.com和www.fedex.com/cn之类的URL以及诸如qEn和qCn之类的数据查询之间的)相关性,并且用改进未来翻译所需的信息(例如关于qEn和qCn是彼此的翻译的指示)更新MT数据库170。
[0011]图2A是由服务器110执行的处理的流程图。在步骤210,服务器从计算机120接收关于用户请求的信息。该请求可以是对来自先前提交的搜索结果的文档的搜索查询或请求。在步骤220,服务器将请求记录在点击数据库180中。在步骤230,服务器根据请求的需要执行其他处理。
[0012]图2B示出了当用户请求是搜索查询时执行的示例处理操作230。在步骤234,服务器检查查询是否需要翻译。特别地,服务器确定查询是何种语言;这是由服务器在存储在数据库170中的字典中查找查询的词来完成的。然后,服务器确定应该以何种语言执行搜索。如果搜索应该以除查询语言之外的语言执行,则查询被提供给MT引擎160,MT引擎160在步骤238翻译查询。
[0013]则经翻译的查询或原始查询(如果不需要翻译)被提供给搜索引擎150。搜索引擎在步骤242执行搜索,并提供搜索结果。在步骤246,服务器将搜索结果发送回计算机120。

技术实现思路

[0014]本部分概述了本公开的一些特征。其他特征可以在后面的部分中描述。本专利技术由所附权利要求限定,所附权利要求通过引用并入本部分。
[0015]在一些实施例中,机器翻译系统使用除了从已知翻译得到的信息170S之外的统计信息。这种信息的一个示例是在提交查询之前在同一计算机会话中的用户的活动,例如在提交查询之前通过一个或多个网站的流得到的信息。因此,即使MT数据库170不变,对于不同的用户或对于与服务器进行不同交互的相同用户可以不同地翻译相同的查询。
[0016]在简化示例中,假设查询包含俄语词“列表”(лист)。该词可以表示树的叶,或者可以表示片(例如纸或钢)。MT系统必须确定将俄语词翻译成“叶”还是“片”。假设查询是由不同的说俄语的用户提交的:一个用户刚刚浏览与园艺相关的网页,另一个用户在浏览工程文献后提交了相同的查询。对于第一个用户,MT系统可以输出“叶”作为翻译,而对于第二个用户,可以输出“片”。
[0017]用户的偏好并不总是通过简单的分析来检测,因此在一些实施例中,服务器将基于计算机的数据挖掘和机器学习技术应用于点击数据,以便在查询之前查找流的哪部分与翻译的成功在统计上相关。成功可以通过在接收到搜索结果之后从用户的动作得到的指示符来衡量。一个示例是点击率,被定义为在接收到以特定方式翻译的查询的搜索结果之后用户请求的(点击的)的文档数目:如果这个文档数目较高,则翻译被分配较高的成功得分(得分可以定义为点击率或以其他方式定义)。MT系统在随后的翻译中使用这样的成功得分。
[0018]另一个可能的成功指示符是用户在查看针对以特定方式翻译的查询产生的搜索结果中的文档上花费的时间量:更多的时间对应于更大的成功。
[0019]基于期望的结果来选择成功指示符。例如,电子商务可以使用GMB(用户在接收到搜索结果后进行的总商品购买)、或购买的物品数目、或用户请求更多信息的物品数目、或者其他一些在商业中使用的关键性能指示符。在服务器向用户推送本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:从用户计算设备接收计算机动作的流中的查询;确定所述查询需要翻译;响应于所述确定,获得针对所述流的一个或多个流参数;基于所述查询,以多种候选语言中的每一种候选语言执行搜索;基于所述执行,以所述多种候选语言中的每一种候选语言生成部分搜索结果;基于所述一个或多个流参数,布置以所述多种候选语言中的每一种候选语言生成的所述部分搜索结果;以及提供所布置的部分搜索结果以显示在所述用户计算设备上。2.如权利要求1所述的方法,其中,所述一个或多个流参数对应于接收所述查询之前的计算机动作的一个或多个流。3.如权利要求2所述的方法,其中,所述一个或多个流参数是基于点击日志的统计分析来确定的,所述点击日志提供来自具有相似流参数的计算机动作的流的成功指示。4.如权利要求1所述的方法,其中,以所述多种候选语言中的每一种候选语言执行搜索包括:以所述多种候选语言中的每一种候选语言生成所述查询的翻译;以及将每个生成的翻译提供给搜索引擎,每个生成的翻译使得搜索引擎能够以相应的候选语言进行搜索。5.如权利要求1所述的方法,其中,所述部分搜索结果是基于与所述多种候选语言之一相对应的每个搜索结果的优先级来布置的。6.如权利要求5所述的方法,其中,每个搜索结果的所述优先级是至少部分地基于相对应的翻译的预测成功来确定的。7.如权利要求6所述的方法,其中,所述相对应的翻译的预测成功是从相对应的翻译是正确翻译的概率导出的数字指示中导出的。8.一种系统,包括:存储指令的非暂态存储器;以及一个或多个硬件处理器,耦合到所述非暂态存储器并且被配置为执行来自所述非暂态存储器的指令以使所述系统执行包括以下项的操作:从用户计算设备接收计算机动作的流中的查询;响应于确定所述查询需要翻译,获得针对所述流的一个或多个流参数;基于所述查询,以多种候选语言中的每一种候选语言执行搜索,用于以所述多种候选语言中的每一种候选语言生成部分搜索结果;基于所述一个或多个流参数,布置以所述多种候选语言中的每一种候选语言生成的所述部分搜索结果;以及使得所布置的部分搜索结果被显示在所述用户计算设备上。9.如权利要求8所述的系统,其中,所述一个或多个流参数对应于导致所接收的查询的计算机动作的一个或多个流。10.如权利要求9所述的系统,其中,所述一个或多个流参数是基于点击日志的统计分析来确定的,所述点击...

【专利技术属性】
技术研发人员:哈桑
申请(专利权)人:贝宝公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1