分布式机器翻译方法及系统技术方案

技术编号:23446308 阅读:29 留言:0更新日期:2020-02-28 20:21
本发明专利技术涉及机器翻译技术领域,尤其涉及一种分布式机器翻译方法及系统;翻译方法包括以下步骤:将待翻译信息进行任务分解,生成若干子任务,并生成各子任务与客户号之间的关联信息;将分解后的各子任务信息添加到任务列表中;根据任务列表信息、各翻译引擎承载权重、各翻译引擎运行状态以及实时任务负荷信息计算各子任务分发的目标翻译引擎;翻译结果信息返回后,进行任务整合,将翻译结果返回指定客户。本发明专利技术所公开的分布式机器翻译方法及系统,将需要翻译的语言信息分为若干个具有独立意义的语言信息块,然后进行分布式并行翻译,并将翻译完之后的结果进行汇总,形成最终翻译结果,配置灵活,承载能力强,计算资源得到合理有效的利用。

Distributed machine translation method and system

【技术实现步骤摘要】
分布式机器翻译方法及系统
本专利技术涉及机器翻译
,尤其涉及一种分布式机器翻译方法及系统。
技术介绍
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。机器翻译系统按照部署方式分为两种:面向大众用户的开放式系统和面向特定用户的本地化部署系统。中国专利CN201810845896.1提供了一种神经网络机器翻译模型的训练方法和装置,包括:获取多种高资源语言对和低资源语言对;对高资源语言对的源语言和低资源语言对的源语言在字符级别上进行拼写统一化操作;将操作后的每种高资源语言对作为对应的父模型的训练集,将操作后的低资源语言对作为孩子模型的训练集,根据预设顺序对各父模型按照迁移学习的方法进行训练,以使得上一个父模型的源语言的词向量和目标语言的词向量迁移至下一个父模型;根据最后一个训练好的父模型训练所述孩子模型,获得用于翻译低资源语言的神经网络机器翻译模型;有助于在低资源的语言对上训练出来的孩子模型性能上得到明显提升。然而,开放式系统对翻译质量、翻译速度、并发处理能力及异常处理能力具有很高要求。随着神经网络机器翻译技术的逐步成熟,翻译引擎在执行翻译任务时已经不需要依赖大数据量的模型,使得单一语种引擎可以部署在不同类型的单个计算节点之上,甚至单一节点可部署多个引擎,部署方式灵活多变。由于基于神经网络的机器翻译是一项需要大量计算的自然语言处理过程,单一节点受计算能力限制,无法满足多客户使用的速度与实时性要求。目前机器翻译系统采用固定数量、配置的方式部署,虽然实现了分布式翻译,但因为配置不够灵活,经常造成计算资源的浪费或承载能力不足时无法及时扩容等问题,极大地影响系统性能及客户使用体验。因此,为了解决上述问题,急需专利技术一种新的分布式机器翻译方法及系统。
技术实现思路
本专利技术的目的在于:提供一种通过采用Http协议实现分布式并行计算的多语言机器翻译方法及系统。本专利技术提供了下述方案:一种分布式机器翻译方法,其特征在于:包括以下步骤:S1、部署若干机器翻译引擎;S2、部署基于HTTP协议的云服务端;S3、设定各翻译引擎初始运行状态、服务承载权重及初始化实时负荷信息;S5、将待翻译信息进行任务分解,生成若干子任务,并生成各子任务与客户号之间的关联信息;S6、将分解后的各子任务信息添加到任务列表中;S7、根据任务列表信息、各翻译引擎承载权重、各翻译引擎运行状态以及实时任务负荷信息计算各子任务分发的目标翻译引擎;当与翻译引擎建立连接失败或超时,将当前翻译引擎状态进行修改,并重新计算目标翻译引擎;S8、翻译结果信息返回后,根据生成的子任务与客户号关联信息进行任务整合,将翻译结果返回指定客户,并修改对应的各翻译引擎的运行状态及实时任务负荷信息。根据本专利技术的实施例,分布式机器翻译方法还包括:S4、对输入云服务端210的海量语言信息进行预处理,将输入信息中的拼写错误、大小写不规范以及拉丁语系单词间空格缺失问题进行修正。根据本专利技术的实施例,部署若干机器翻译引擎的步骤,具体为:在支持异构的物理机集群中各台物理机的各计算节点上部署若干特定语言方向的机器翻译引擎;部署基于HTTP协议的云服务端210的步骤,具体为:在物理机集群其中一台或集群外部一台物理机上部署基于HTTP协议的云服务端210。根据本专利技术的实施例,将待翻译信息进行任务分解的步骤,具体为:对输入的信息以句子为单位进行拆分,将单个翻译任务拆分成若干个句子,每个句子作为一个待翻译子任务,并对其按顺序标号。根据本专利技术的实施例,任务分发的步骤为:首先获取状态为可用的翻译引擎,根据各翻译引擎当前任务量与任务权重计算各翻译引擎当前负载率,对负载率进行倒排序,将任务列表212中第一个子任务发送到负载率最低的翻译引擎。根据本专利技术的实施例,任务整合的步骤为:当有翻译子任务完成并返回时,根据访问的客户号与子任务编号,判断当前访问的全部子任务是否已翻译完成,如果已完成,则按照子任务编号按顺序进行整合,并返回给指定的客户。根据本专利技术的实施例,各翻译引擎当前状态的管理过程为:通过设定定时器,对当前状态为1的翻译引擎,每隔60秒发送一次连接测试,如果连接失败,将翻译引擎状态修改为0;对当前状态为0的翻译引擎,每个600秒发送一次连接测试,如果连接成功,将翻译引擎状态修改为1。根据本专利技术的实施例,各翻译引擎实时负荷信息的管理过程为:当有任务发送时,根据当前发送的任务量及目标翻译引擎ID,更新目标翻译引擎的实时负荷;当翻译结果返回时,根据返回的任务及目标翻译引擎ID,更新目标翻译引擎的实时负荷。根据本专利技术的实施例,还提供了一种分布式机器翻译系统,包括:若干机器翻译引擎;以及基于HTTP协议的云服务端210,用于:设定各翻译引擎初始运行状态、服务承载权重及初始化实时负荷信息;将待翻译信息进行任务分解,生成若干子任务,并生成各子任务与客户号之间的关联信息;将分解后的各子任务信息添加到任务列表212中;根据任务列表212信息、各翻译引擎承载权重、各翻译引擎运行状态以及实时任务负荷信息计算各子任务分发的目标翻译引擎;当与翻译引擎建立连接失败或超时,将当前翻译引擎状态进行修改,并重新计算目标翻译引擎;翻译结果信息返回后,根据生成的子任务与客户号关联信息进行任务整合,将翻译结果返回指定客户,并修改对应的各翻译引擎的运行状态及实时任务负荷信息。根据本专利技术的实施例,云服务端210包括:任务分解器211,用于对输入的信息以句子为单位进行拆分,将单个翻译任务拆分成若干个句子,每个句子作为一个待翻译子任务,并对其按顺序标号;任务分发器213,用于获取状态为可用的翻译引擎,根据各翻译引擎当前任务量与任务权重计算各翻译引擎当前负载率,对负载率进行倒排序,将任务列表中第一个子任务发送到负载率最低的翻译引擎;监控器214,用于管理内存中的各翻译引擎当前状态、各翻译引擎服务权重以及各翻译引擎实时负荷信息;以及任务整合模块215,用于当有翻译子任务完成并返回时,根据访问的客户号与子任务编号,判断当前访问的全部子任务是否已翻译完成,如果已完成,则按照子任务编号按顺序进行整合,并返回给指定的客户。本专利技术产生的有益效果:本专利技术所公开的分布式机器翻译方法及系统,翻译方法包括以下步骤:部署若干机器翻译引擎;部署基于HTTP协议的云服务端;设定各翻译引擎初始运行状态、服务承载权重及初始化实时负荷信息;将待翻译信息进行任务分解,生成若干子任务,并生成各子任务与客户号之间的关联信息;将分解后的各子任务信息添加到任务列表中;根据任务列表信息、各翻译引擎承载权重、各翻译引擎运行状态以及实时任务负荷信息计算各子任务分发的目标翻译引擎;当与翻译引擎建立连接失败或超时,将当前翻译引擎状态进行修改,并重新计算目标本文档来自技高网
...

【技术保护点】
1.一种分布式机器翻译方法,其特征在于:包括以下步骤:/nS1、部署若干机器翻译引擎;/nS2、部署基于HTTP协议的云服务端;/nS3、设定各翻译引擎初始运行状态、服务承载权重及初始化实时负荷信息;/nS5、将待翻译信息进行任务分解,生成若干子任务,并生成各子任务与客户号之间的关联信息;/nS6、将分解后的各子任务信息添加到任务列表中;/nS7、根据任务列表信息、各翻译引擎承载权重、各翻译引擎运行状态以及实时任务负荷信息计算各子任务分发的目标翻译引擎;当与翻译引擎建立连接失败或超时,将当前翻译引擎状态进行修改,并重新计算目标翻译引擎;/nS8、翻译结果信息返回后,根据生成的子任务与客户号关联信息进行任务整合,将翻译结果返回指定客户,并修改对应的各翻译引擎的运行状态及实时任务负荷信息。/n

【技术特征摘要】
1.一种分布式机器翻译方法,其特征在于:包括以下步骤:
S1、部署若干机器翻译引擎;
S2、部署基于HTTP协议的云服务端;
S3、设定各翻译引擎初始运行状态、服务承载权重及初始化实时负荷信息;
S5、将待翻译信息进行任务分解,生成若干子任务,并生成各子任务与客户号之间的关联信息;
S6、将分解后的各子任务信息添加到任务列表中;
S7、根据任务列表信息、各翻译引擎承载权重、各翻译引擎运行状态以及实时任务负荷信息计算各子任务分发的目标翻译引擎;当与翻译引擎建立连接失败或超时,将当前翻译引擎状态进行修改,并重新计算目标翻译引擎;
S8、翻译结果信息返回后,根据生成的子任务与客户号关联信息进行任务整合,将翻译结果返回指定客户,并修改对应的各翻译引擎的运行状态及实时任务负荷信息。


2.根据权利要求1所述的分布式机器翻译方法,其特征在于:还包括:
对输入云服务端的海量语言信息进行预处理,将输入信息中的拼写错误、大小写不规范以及拉丁语系单词间空格缺失问题进行修正。


3.根据权利要求2所述的分布式机器翻译方法,其特征在于:部署若干机器翻译引擎的步骤,具体为:
在支持异构的物理机集群中各台物理机的各计算节点上部署若干特定语言方向的机器翻译引擎;
部署基于HTTP协议的云服务端的步骤,具体为:
在物理机集群其中一台或集群外部一台物理机上部署基于HTTP协议的云服务端。


4.根据权利要求3所述的分布式机器翻译方法,其特征在于:
将待翻译信息进行任务分解的步骤,具体为:
对输入的信息以句子为单位进行拆分,将单个翻译任务拆分成若干个句子,每个句子作为一个待翻译子任务,并对其按顺序标号。


5.根据权利要求4所述的分布式机器翻译方法,其特征在于:任务分发的步骤为:
首先获取状态为可用的翻译引擎,根据各翻译引擎当前任务量与任务权重计算各翻译引擎当前负载率,对负载率进行倒排序,将任务列表中第一个子任务发送到负载率最低的翻译引擎。


6.根据权利要求5所述的分布式机器翻译方法,其特征在于:任务整合的步骤为:
当有翻译子任务完成并返回时,根据访问的客户号与子任务编号,判断当前访问的全部子任务是否已翻译完成,如果已完成,则按照子任务编号按顺序进行整合...

【专利技术属性】
技术研发人员:张孝飞马伟李程宋凯马毓昭
申请(专利权)人:北京中献电子技术开发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1