一种用单一网络模型实现多个语种之间互译的方法技术

技术编号：30516411 阅读：14 留言：0更新日期：2021-10-27 22:59

本发明专利技术公开一种用单一网络模型实现多个语种之间互译的方法，步骤为：获取互联网中英语与阿拉伯语、德语、西班牙语、波斯语之间相互翻译的双语数据集；对双语数据进行数据清洗得到预处理后的双语数据；对预处理后的双语数据使用加目标语标签的方法构建多语言双语平行语料库；使用构建好的双语平行语料库基于Fairseq开源系统构建多语种分析器，并训练多语言神经机器翻译模型；将训练完成的多语言神经机器翻译模型进行封装，与网页接口进行整合，部署到线上，完成多语言神经机器翻译系统的搭建。本发明专利技术使用来自多个语言对数据的训练模型可帮助模型从多个“源”获得“知识”；多语言神经翻译系统具有更好的泛化能力，从而能够提高翻译质量。高翻译质量。高翻译质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种用单一网络模型实现多个语种之间互译的方法

[0001]本专利技术涉及一种多语言翻译系统的构建技术，具体为一种用单一网络模型实现多个语种之间互译的方法。

技术介绍

[0002]让机器协助语言之间的相互翻译是人类长久以来的梦想。从广义上讲，“翻译”是将一个事物转化成另一个事物的过程，其核心在于对序列的转化。机器翻译是利用计算资源把源语言序列转变为目标语言序列的过程。它主要研究不同语言对之间的翻译，如英文和中文、英文和法文之间的相互翻译。上世纪九十年代，在深度学习应用于机器翻译任务之前，机器翻译处于统计建模的时代，使用传统的基于统计的方法，主要有以下特点：基于离散空间的表示模型、自然语言处理问题的隐含结构假设、以特征工程为主但是特征、规则的存储又消耗资源。
[0003]伴随着深度学习的不断发展以及应用于机器翻译任务中，神经机器翻译成为机器翻译方法中的“宠儿”,它在许多自然语言对的相互翻译上表现出非常良好的性能。神经机器翻译使用一个单一的大型神经网络来模拟整个翻译过程，它的成功主要归功于语言分布式表示的使用，从而能够实现机器翻译系统端到端的训练。神经机器翻译与统计机器翻译不同，它不需要很多单独的组件，比如单词矫正器、翻译规则提取器和其它特征提取器，它的主要机制模式是词嵌入
‑
编码器
‑
注意力机制
‑
解码器。循环神经网、卷积神经网络以及具有自注意机制结构的Transformer模型等就是建立在这种模式上的极为经典方法。这些方法不仅在机器翻译中取得巨大成功，在自然...

【技术保护点】

【技术特征摘要】
1.一种用单一网络模型实现多个语种之间互译的方法，其特征在于：1)获取互联网中英语与阿拉伯语、德语、西班牙语、波斯语之间相互翻译的双语数据集；2)对双语数据进行数据清洗得到预处理后的双语数据；3)对预处理后的双语数据使用加目标语标签的方法构建多语言双语平行语料库；4)使用构建好的双语平行语料库基于Fairseq开源系统构建多语种分析器，并训练多语言神经机器翻译模型；5)将训练完成的多语言神经机器翻译模型进行封装，与网页接口进行整合，部署到线上，完成多语言神经机器翻译系统的搭建。2.根据权利要求1所述的用单一网络模型实现多个语种之间互译的方法，其特征在于：步骤1)在WMT和IWSLT官网中获取包含英语和德语、英语和法语之间相互翻译的初始语料库，包括训练集、验证集和测试集，初步观察数据的规模和质量，制定数据处理策略。3.根据权利要求1所述的用单一网络模型实现多个语种之间互译的方法，其特征在于：步骤2)中对获取的英语与阿拉伯语、德语、西班牙语、波斯语双语语料依据预定的数据处理策略进行处理，步骤为：201)使用re库利用正则表达式去除IWSLT数据集中的各类标签、url以及其他非双语语料部分杂质数据；202)将步骤201)得到的IWSLT数据与WMT原始数据进行按序合并作为总数据集；203)利用Moses分词工具将步骤202)得到的总数据集进行分词，得到分词后的总数据集；204)利用Bpe分词工具将步骤203)得到的总数据集进行切分子词，生成BPE词表，得到BPE切分子词后的总数据集；205)对验证集和测试集采用和步骤201)步骤202)步骤203)步骤204)相同的处理方式。...

【专利技术属性】
技术研发人员：刘兴宇，姜炎宏，杨木润，
申请(专利权)人：沈阳雅译网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人