分布式机器翻译方法及系统技术方案

技术编号：23446308 阅读：29 留言：0更新日期：2020-02-28 20:21

本发明专利技术涉及机器翻译技术领域，尤其涉及一种分布式机器翻译方法及系统；翻译方法包括以下步骤：将待翻译信息进行任务分解，生成若干子任务，并生成各子任务与客户号之间的关联信息；将分解后的各子任务信息添加到任务列表中；根据任务列表信息、各翻译引擎承载权重、各翻译引擎运行状态以及实时任务负荷信息计算各子任务分发的目标翻译引擎；翻译结果信息返回后，进行任务整合，将翻译结果返回指定客户。本发明专利技术所公开的分布式机器翻译方法及系统，将需要翻译的语言信息分为若干个具有独立意义的语言信息块，然后进行分布式并行翻译，并将翻译完之后的结果进行汇总，形成最终翻译结果，配置灵活，承载能力强，计算资源得到合理有效的利用。

Distributed machine translation method and system

全部详细技术资料下载

【技术实现步骤摘要】
分布式机器翻译方法及系统
本专利技术涉及机器翻译
，尤其涉及一种分布式机器翻译方法及系统。
技术介绍
机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。机器翻译系统按照部署方式分为两种：面向大众用户的开放式系统和面向特定用户的本地化部署系统。中国专利CN201810845896.1提供了一种神经网络机器翻译模型的训练方法和装置，包括：获取多种高资源语言对和低资源语言对；对高资源语言对的源语言和低资源语言对的源语言在字符级别上进行拼写统一化操作；将操作后的每种高资源语言对作为对应的父模型的训练集，将操作后的低资源语言对作为孩子模型的训练集，根据预设顺序对各父模型按照迁移学习的方法进行训练，以使得上一个父模型的源语言的词向量和目标语言的词向量迁移至下一个父模型；根据最后一个训练好的父模型训练所述孩子模型，获得用于翻译低资源语言的神经网络机器翻译模型；有助于在低资源的语言对上训练出来的孩子模型性能上得到明显提升。然而，开放式系统对翻译质量、翻译速度、并发处理能力及异常处理能力具有很高要求。随着神经网络机器翻译技术的逐步成熟，翻译引擎在执行翻译任务时已经不需要依赖大数据量的模型，使得单一语种引擎可以部署在不同类型的单个计算节点之上，甚至单一节点可部署多个引擎，部署方式灵活多变。由于基于神经网络的机器翻译是一项需要大量计算的自然语言处理过程，单一节点受计算能力限制，无法满足多客户使用的速度与实时性要求。目前机器翻译系统采用固定数量、配置的方式部署，虽然实...

【技术保护点】
1.一种分布式机器翻译方法，其特征在于：包括以下步骤：/nS1、部署若干机器翻译引擎；/nS2、部署基于HTTP协议的云服务端；/nS3、设定各翻译引擎初始运行状态、服务承载权重及初始化实时负荷信息；/nS5、将待翻译信息进行任务分解，生成若干子任务，并生成各子任务与客户号之间的关联信息；/nS6、将分解后的各子任务信息添加到任务列表中；/nS7、根据任务列表信息、各翻译引擎承载权重、各翻译引擎运行状态以及实时任务负荷信息计算各子任务分发的目标翻译引擎；当与翻译引擎建立连接失败或超时，将当前翻译引擎状态进行修改，并重新计算目标翻译引擎；/nS8、翻译结果信息返回后，根据生成的子任务与客户号关联信息进行任务整合，将翻译结果返回指定客户，并修改对应的各翻译引擎的运行状态及实时任务负荷信息。/n

【技术特征摘要】
1.一种分布式机器翻译方法，其特征在于：包括以下步骤：
S1、部署若干机器翻译引擎；
S2、部署基于HTTP协议的云服务端；
S3、设定各翻译引擎初始运行状态、服务承载权重及初始化实时负荷信息；
S5、将待翻译信息进行任务分解，生成若干子任务，并生成各子任务与客户号之间的关联信息；
S6、将分解后的各子任务信息添加到任务列表中；
S7、根据任务列表信息、各翻译引擎承载权重、各翻译引擎运行状态以及实时任务负荷信息计算各子任务分发的目标翻译引擎；当与翻译引擎建立连接失败或超时，将当前翻译引擎状态进行修改，并重新计算目标翻译引擎；
S8、翻译结果信息返回后，根据生成的子任务与客户号关联信息进行任务整合，将翻译结果返回指定客户，并修改对应的各翻译引擎的运行状态及实时任务负荷信息。

2.根据权利要求1所述的分布式机器翻译方法，其特征在于：还包括：
对输入云服务端的海量语言信息进行预处理，将输入信息中的拼写错误、大小写不规范以及拉丁语系单词间空格缺失问题进行修正。

3.根据权利要求2所述的分布式机器翻译方法，其特征在于：部署若干机器翻译引擎的步骤，具体为：
在支持异构的物理机集群中各台物理机的各计算节点上部署若干特定语言方向的机器翻译引擎；
部署基于HTTP协议的云服务端的步骤，具体为：
在物理机集群其中一台或集群外部一台物理机上部署基于HTTP协议的云服务端。

4.根据权利要求3所述的分布式机器翻译方法，其特征在于：
将待翻译信息进行任务分解的步骤，具体为：
对输入的信息以句子为单位进行拆分，将单个翻译任务拆分成若干个句子，每个句子作为一个待翻译子任务，并对其按顺序标号。

5.根据权利要求4所述的分布式机器翻译方法，其特征在于：任务分发的步骤为：
首先获取状态为可用的翻译引擎，根据各翻译引擎当前任务量与任务权重计算各翻译引擎当前负载率，对负载率进行倒排序，将任务列表中第一个子任务发送到负载率最低的翻译引擎。

6.根据权利要求5所述的分布式机器翻译方法，其特征在于：任务整合的步骤为：
当有翻译子任务完成并返回时，根据访问的客户号与子任务编号，判断当前访问的全部子任务是否已翻译完成，如果已完成，则按照子任务编号按顺序进行整合...

【专利技术属性】
技术研发人员：张孝飞，马伟，李程，宋凯，马毓昭，
申请(专利权)人：北京中献电子技术开发有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人