翻译训练方法、装置、系统、以及在线翻译方法及装置制造方法及图纸

技术编号:14234297 阅读:87 留言:0更新日期:2016-12-21 03:04
本申请公开了一种翻译训练方法、装置及系统。例如,应用于分布式系统中的分发服务器的翻译训练方法可以包括:将第一翻译训练任务以及待训练语料分发到映射计算服务器集群的各个映射计算服务器,以便各个映射计算服务器并行对接收到的待训练语料执行第一翻译训练任务,输出第一翻译训练结果;将第二翻译训练任务以及各个映射计算服务器输出的第一翻译训练结果分发到归约计算服务器集群的各个归约计算服务器,其中,相同语言元素对应的第一翻译训练结果分发到相同归约计算服务器,以便各个归约计算服务器并行利用接收到的第一翻译训练结果执行第二翻译训练任务,输出第二翻译训练结果。另外,本申请还公开了一种在线翻译方法及装置。

Translation training method, device, system, and on-line translation method and device

The invention discloses a translation training method, a device and a system. For example, the translation training methods applied to distribution servers in a distributed system can include the first translation training tasks and to be distributed to the training corpus mapping calculation server cluster mapping each computing server to server computing parallel to the received training corpus to perform the first translation training tasks for each mapping, output of the first translation training will result; second translation training tasks and each mapping calculation server output the first translation training results distributed to each reduction reduction computing server cluster computing server, wherein, the first translation training results in the same language elements corresponding to the same distribution reduction calculation server, so that each reduction by parallel computing server receives the first translation training results perform second translation training tasks second, the output of translation training results . In addition, the invention also discloses an online translation method and device.

【技术实现步骤摘要】

本申请涉及机器翻译领域,尤其涉及一种翻译训练方法、装置、系统、以及在线翻译方法及装置
技术介绍
机器翻译:又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。翻译系统的升级,往往伴随着对词汇翻译、短语抽取、语言模型三个核心阶段的多次翻译训练。由于翻译训练需要基于一定规模的语料进行训练,才能得出准确的训练结果,因此,业内的翻译训练往往都是在单机上进行。但是,由于大规模语料在单机上训练,效率较低,翻译训练已经成为了翻译系统升级的瓶颈。而且,在单机上训练得到的翻译训练结果,通常会加载到单机的内存中,以便在线翻译时,到单机的内存中查询出需要的翻译训练结果进行解码。但是,将海量的翻译训练结果加载到单机的内存,查询速度较慢,机器运行压力大,翻译效率低下。
技术实现思路
有鉴于此,本申请的目的在于提供一种翻译训练方法、装置、系统,以实现提高翻译训练效率的目的,还提供一种在线翻译方法及装置,以实现提高在线翻译效率的目的。在本申请实施例的第一个方面,提供了一种翻译训练方法,应用于分布式系统中的分发服务器,其中,所述分布式系统还包括映射计算服务器集群以及归约计算服务器集群,所述方法包括:将第一翻译训练任务以及待训练语料分发到所述映射计算服务器集群的各个映射计算服务器,以便所述各个映射计算服务器并行对接收到的待训练语料执行第一翻译训练任务,输出第一翻译训练结果;将第二翻译训练任务以及所述各个映射计算服务器输出的第一翻译训练结果分发到所述归约计算服务器集群的各个归约计算服务器,
其中,相同语言元素对应的第一翻译训练结果分发到相同归约计算服务器,以便所述各个归约计算服务器并行利用接收到的第一翻译训练结果执行第二翻译训练任务,输出第二翻译训练结果。在本申请实施例的第二个方面,提供了一种翻译训练装置,配置于分布式系统中的分发服务器,其中,所述分布式系统还包括映射计算服务器集群以及归约计算服务器集群,所述装置包括:分发单元,用于将第一翻译训练任务以及待训练语料分发到所述映射计算服务器集群的各个映射计算服务器,以便所述各个映射计算服务器并行对接收到的待训练语料执行第一翻译训练任务,输出第一翻译训练结果。归约单元,用于将第二翻译训练任务以及所述各个映射计算服务器输出的第一翻译训练结果分发到所述归约计算服务器集群的各个归约计算服务器,其中,相同语言元素对应的第一翻译训练结果分发到相同归约计算服务器,以便所述各个归约计算服务器并行利用接收到的第一翻译训练结果执行第二翻译训练任务,输出第二翻译训练结果。在本申请实施例的第三个方面,提供了一种翻译训练方法,应用于分布式系统中的映射计算服务器集群中的映射计算服务器,所述分布式系统还包括分发服务器以及归约计算服务器集群,其中,所述分发服务器与映射计算服务器集群及归约计算服务器集群连接,所述方法包括:接收分发服务器分发的待训练语料以及第一翻译训练任务。与其他映射计算服务器并行地对接收到的待训练语料执行第一翻译训练任务。输出所述第一翻译训练结果,以便所述分发服务器将第二翻译训练任务以及所述各个映射计算服务器输出的第一翻译训练结果分发到所述归约计算服务器集群的各个归约计算服务器,其中,相同语言元素对应的第一翻译训练结果分发到相同归约计算服务器,以便所述各个归约计算服务器并行利用接收到的第一翻译训练结果执行第二翻译训练任务,输出第二翻译训练结果。在本申请实施例的第四个方面,提供了一种翻译训练装置,配置于分布式系统中的映射计算服务器集群中的映射计算服务器,所述分布式系统还包括分发服务器以及归约计算服务器集群,其中,所述分发服务器与映射计算服务器集群及归约计算服务器集群连接,所述装置包括:映射接收单元,用于接收分发服务器分发的待训练语料以及第一翻译训练任务。第一任务执行
单元,用于与其他映射计算服务器并行地对接收到的待训练语料执行第一翻译训练任务。映射输出单元,用于输出所述第一翻译训练结果,以便所述分发服务器将第二翻译训练任务以及所述各个映射计算服务器输出的第一翻译训练结果分发到所述归约计算服务器集群的各个归约计算服务器,其中,相同语言元素对应的第一翻译训练结果分发到相同归约计算服务器,以便所述各个归约计算服务器并行利用接收到的第一翻译训练结果执行第二翻译训练任务,输出第二翻译训练结果。在本申请实施例的第五个方面,提供了一种翻译训练方法,应用于分布式系统中的归约计算服务器集群中的归约计算服务器,所述分布式系统还包括分发服务器以及映射计算服务器集群,其中,所述分发服务器与映射计算服务器集群及归约计算服务器集群连接,所述方法包括:接收分发服务器分发的第二翻译训练任务以及第一翻译训练结果,其中,相同语言元素对应的第一翻译训练结果分发到相同归约计算服务器,所述第一翻译训练结果具体由所述分发服务器将第一翻译训练任务以及待训练语料分发到所述映射计算服务器集群的各个映射计算服务器之后,由所述各个映射计算服务器并行对接收到的待训练语料执行第一翻译训练任务后输出。利用接收到的第一翻译训练结果执行第二翻译训练任务。输出第二翻译训练结果。在本申请实施例的第六个方面,提供了一种翻译训练装置,配置于分布式系统中的归约计算服务器集群中的归约计算服务器,所述分布式系统还包括分发服务器以及映射计算服务器集群,其中,所述分发服务器与映射计算服务器集群及归约计算服务器集群连接,所述装置包括:归约接收单元,用于接收分发服务器分发的第二翻译训练任务以及第一翻译训练结果,其中,相同语言元素对应的第一翻译训练结果分发到相同归约计算服务器,所述第一翻译训练结果具体由所述分发服务器将第一翻译训练任务以及待训练语料分发到所述映射计算服务器集群的各个映射计算服务器之后,由所述各个映射计算服务器并行对接收到的待训练语料执行第一翻译训练任务后输出。第二任务执行单元,用于利用接收到的第一翻译训练结果执行第二翻译训练任务。归约输出单元,用于输出第二翻译训练结果。在本申请实施例的第七个方面,提供了一种翻译训练系统。所述系统包
括:分发服务器,配置用于将待训练语料分发到所述映射计算服务器集群的各个映射计算服务器,收集所述各个映射计算服务器输出的第一翻译训练结果,将收集到的第一翻译训练结果分发到所述归约计算服务器集群的各个归约计算服务器,其中,相同语言元素对应的第一翻译训练结果分发到相同归约计算服务器。映射计算服务器集群的各个映射计算服务器,配置用于接收所述分发服务器分发的待训练语料,对接收到的待训练语料中的各个语言元素进行第一翻译训练,输出第一翻译训练结果。归约计算服务器集群的各个归约计算服务器,配置用于接收所述分发服务器分发的第一翻译训练结果,根据接收到的第一翻译训练结果,进行第二翻译训练,输出第二翻译训练结果。在本申请实施例的第八个方面,提供了一种在线翻译方法,应用于服务器侧。其中,所述方法可以包括:接收用户侧发出的在线翻译请求,并行在数据库的各个分区中查询出所述在线翻译请求涉及的待翻译语料对应的第二翻译训练结果,利用所述第二翻译训练结果对所述待翻译语料进行解码,得到所述待翻译语料对应的翻译结果,向所述用户侧反馈所述翻译结果。其中,所述数据库的各个分区分别用于存储与之本文档来自技高网
...
翻译训练方法、装置、系统、以及在线翻译方法及装置

【技术保护点】
一种翻译训练方法,其特征在于,应用于分布式系统中的分发服务器,其中,所述分布式系统还包括映射计算服务器集群以及归约计算服务器集群,所述方法包括:将第一翻译训练任务以及待训练语料分发到所述映射计算服务器集群的各个映射计算服务器,以便所述各个映射计算服务器并行对接收到的待训练语料执行第一翻译训练任务,输出第一翻译训练结果;将第二翻译训练任务以及所述各个映射计算服务器输出的第一翻译训练结果分发到所述归约计算服务器集群的各个归约计算服务器,其中,相同语言元素对应的第一翻译训练结果分发到相同归约计算服务器,以便所述各个归约计算服务器并行利用接收到的第一翻译训练结果执行第二翻译训练任务,输出第二翻译训练结果。

【技术特征摘要】
1.一种翻译训练方法,其特征在于,应用于分布式系统中的分发服务器,其中,所述分布式系统还包括映射计算服务器集群以及归约计算服务器集群,所述方法包括:将第一翻译训练任务以及待训练语料分发到所述映射计算服务器集群的各个映射计算服务器,以便所述各个映射计算服务器并行对接收到的待训练语料执行第一翻译训练任务,输出第一翻译训练结果;将第二翻译训练任务以及所述各个映射计算服务器输出的第一翻译训练结果分发到所述归约计算服务器集群的各个归约计算服务器,其中,相同语言元素对应的第一翻译训练结果分发到相同归约计算服务器,以便所述各个归约计算服务器并行利用接收到的第一翻译训练结果执行第二翻译训练任务,输出第二翻译训练结果。2.根据权利要求1所述的方法,其特征在于,所述待训练语料为待训练双语句对语料;所述第一翻译训练任务包括:从源语言元素翻译到目标语言元素的第一正向翻译训练任务,以及,从目标语言元素翻译到源语言元素的第一反向翻译训练任务;所述第二翻译训练任务包括:从源语言元素翻译到目标语言元素的第二正向翻译训练任务,以及,从目标语言元素翻译到源语言元素的第二反向翻译训练任务;其中,所述第一翻译训练结果包括:第一正向翻译训练任务对应的第一正向翻译训练结果,第一反向翻译训练任务对应的第一反向翻译训练结果;其中,所述第二翻译训练结果包括:第二正向翻译训练任务对应的第二正向翻译训练结果,第二反向翻译训练任务对应的第二反向翻译训练结果;其中,所述相同语言元素对应的第一翻译训练结果分发到相同归约计算服务器包括:相同源语言元素对应的第一正向翻译训练结果分发到相同归约计算服务器,相同目标语言元素对应的第一反向翻译训练结果分发到相同归约计算服务器。3.根据权利要求2所述的方法,其特征在于,所述第一正向翻译训练任务以及第二正向翻译训练任务具体包括:计算源语言词汇翻译到目标语言词
\t汇的正向翻译概率;所述第一反向翻译训练任务以及第二反向翻译训练任务具体包括:计算目标语言词汇翻译到源语言词汇的反向翻译概率;所述第一正向翻译训练结果及第二正向翻译训练结果具体为源语言词汇翻译到目标语言词汇的正向翻译概率;所述第一反向翻译训练结果及第二反向翻译训练结果具体为目标语言词汇翻译到源语言词汇的反向翻译概率;其中,所述源语言元素为源语言词汇,所述目标语言元素为目标语言词汇;且,还包括:将各个归约计算服务器输出的正向翻译概率以及反向翻译概率,分发到所述映射计算服务器集群的各个映射计算服务器,以便所述各个映射计算服务器判断接收到的正向翻译概率以及反向翻译概率是否达到收敛状态,如果是,则根据接收到的正向翻译概率及反向翻译概率,输出目标语言词汇与其对齐的源语言词汇之间的对应关系,如果否,则利用接收到的正向翻译概率及反向翻译概率,对所述待训练双语句对语料执行第一翻译训练任务,输出第一翻译训练结果;返回到所述将第二翻译训练任务以及所述各个映射计算服务器输出的第一翻译训练结果分发到所述归约计算服务器集群的各个归约计算服务器的步骤。4.根据权利要求2所述的方法,其特征在于,所述第一正向翻译训练任务具体包括:利用源语言词汇与其对齐的目标语言词汇之间的对应关系,将待训练双语句对语料的句对中源语言词汇与目标语言词汇正向对齐,得到在句对中对齐的源语言词汇翻译到目标语言词汇的正向对齐词对;所述第一正向翻译训练结果具体为源语言词汇翻译到目标语言词汇的正向对齐词对;所述第一反向翻译训练任务具体包括:利用源语言词汇与其对齐的目标语言词汇之间的对应关系,将待训练双语句对语料的句对,将待训练双语句对语料的句对中源语言词汇与目标语言词汇反向对齐,得到在句对中对齐的
\t目标语言词汇翻译到源语言词汇的反向对齐词对;所述第一反向翻译训练结果具体为在句对中对齐的目标语言词汇翻译到源语言词汇的反向对齐词对;所述第二正向翻译训练任务具体包括:统计出在句对中对齐的源语言词汇翻译到目标语言词汇的正向对齐词对的正向词对齐翻译概率;所述第二正向翻译训练结果具体为在句对中对齐的源语言词汇翻译到目标语言词汇的正向对齐词对的正向词对齐翻译概率;所述第二反向翻译训练任务具体包括:统计出在句对中对齐的目标语言词汇翻译到源语言词汇的反向对齐词对的反向词对齐翻译概率;所述第二反向翻译训练结果具体为在句对中对齐的目标语言词汇翻译到源语言词汇的反向对齐词对的反向词对齐翻译概率;其中,所述源语言元素为源语言词汇,所述目标语言元素为目标语言词汇。5.根据权利要求2所述的方法,其特征在于,所述第一正向翻译训练任务具体包括:利用在句对中对齐的源语言词汇翻译到目标语言词汇的正向对齐词对的正向词对齐翻译概率,抽取出在待训练双语句对语料的句对中对齐的源语言短语翻译到目标语言短语的正向短语对;所述第一正向翻译训练结果具体为在句对中对齐的源语言短语翻译到目标语言短语的正向短语对;所述第一反向翻译训练任务具体包括:利用在句对中对齐的目标语言词汇翻译到源语言词汇的反向对齐词对的反向词对齐翻译概率,抽取出在待训练双语句对语料的句对中对齐的目标语言短语翻译到源语言短语的反向短语对;所述第一反向翻译训练结果具体为在句对中对齐的目标语言短语翻译到源语言短语的反向短语对;所述第二正向翻译训练任务具体包括:计算出在句对中对齐的源语言短语翻译到目标语言短语的短语对的正向词联合翻译概率,以及,计算出在句对中对齐的源语言短语翻译到目标语言短语的短语对的正向短语翻译概率;所述第二正向翻译训练结果具体为在句对中对齐的源语言短语翻译到目
\t标语言短语的短语对的正向词联合翻译概率,以及,在句对中对齐的源语言短语翻译到目标语言短语的短语对的正向短语翻译概率;所述第二反向翻译训练任务具体包括:计算出在句对中对齐的目标语言短语翻译到源语言短语的短语对的反向词联合翻译概率,以及,计算出在句对中对齐的目标语言短语翻译到源语言短语的短语对的反向短语翻译概率;所述第二反向翻译训练结果具体为在句对中对齐的目标语言短语翻译到源语言短语的短语对的反向词联合翻译概,以及,在句对中对齐的目标语言短语翻译到源语言短语的短语对的反向短语翻译概率;其中,所述源语言元素为源语言短语,所述目标语言元素为目标语言短语。6.根据权利要求5所述的方法,其特征在于,所述第二翻译训练任务还包括:在所述第二正向翻译训练任务执行过程中,以及,在所述第二反向翻译训练任务执行过程中,对源语言短语与目标语言短语做显著性计算,根据显著性计算结果去除冗余的源语言短语与目标语言短语。7.根据权利要求1所述的方法,其特征在于,所述待训练语料为待训练单语语句;所述第一翻译训练任务包括:对所述待训练单语语句进行n元切分;所述第一翻译训练结果为所述切分后得到的各个n-gram;所述语言元素为n-gram;所述第二翻译训练任务包括:对n-gram对应的频次进行统计;所述第二翻译训练结果为所述统计后得到的各个n-gram对应的频次。8.根据权利要求1所述的方法,其特征在于,所述待训练语料为对待训练单语语句进行n元切分后的各个n-gram;所述第一翻译训练任务包括:对每个n-gram进行前缀切分,得到n-gram的前缀词汇;所述第一翻译训练结果为前缀词汇与对应的n-gram;所述语言元素为前缀词汇;所述第二翻译训练任务包括:计算n-gram的回退概率、后验概率。9.根据权利要求1所述的方法,其特征在于,所述待训练语料为对待训
\t练单语语句进行n元短语切分后的各个n-gram;所述第一翻译训练任务包括:对n-gram进行后缀切分,得到n-gram的后缀词汇;所述第一翻译训练结果为后缀词汇与对应的n-gram;所述语言元素为后缀词汇;所述第二翻译训练任务包括:对n-gram进行概率平滑和剪枝。10.一种翻译训练装置,其特征在于,配置于分布式系统中的分发服务器,其中,所述分布式系统还包括映射计算服务器集群以及归约计算服务器集群,所述装置包括:分发单元,用于将第一翻译训练任务以及待训练语料分发到所述映射计算服务器集群的各个映射计算服务器,以便所述各个映射计算服务器并行对接收到的待训练语料执行第一翻译训练任务,输出第一翻译训练结果;归约单元,用于将第二翻译训练任务以及所述各个映射计算服务器输出的第一翻译训练结果分发到所述归约计算服务器集群的各个归约计算服务器,其中,相同语言元素对应的第一翻译训练结果分发到相同归约计算服务器,以便所述各个归约计算服务器并行利用接收到的第...

【专利技术属性】
技术研发人员:黄瑞骆卫华林锋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1