当前位置: 首页 > 专利查询>新疆大学专利>正文

基于多语言的神经机器翻译模型制造技术

技术编号:29098726 阅读:22 留言:0更新日期:2021-06-30 10:10
本发明专利技术公开了一种基于多语言的神经机器翻译模型,涉及神经机器翻译领域,该基于多语言的神经机器翻译模型包括多语言数据集构建过程和多语言翻译系统,多语言翻译模型操作过程。人工构建多语言平行语料和多语言神经机器翻译模型;前者主要构建俄语

【技术实现步骤摘要】
基于多语言的神经机器翻译模型


[0001]本专利技术涉及神经机器翻译领域,特别涉及一种基于多语言的神经机器翻译模型。

技术介绍

[0002]现如今存在着人工构建多语言平行语料和多语言神经机器翻译模型;前者主要构建俄语

乌兹别克语

维吾尔语

英语

汉语多语言平行语料,借助现有的双语数据,利用小牛和google等翻译工具翻译得到另外3种语言,并通过计算相似度和人工筛选构建多语言平行语料;后者基于transformer框架构建多语言神经机器翻译模型,用构建的数据集训练多语言翻译模型。网络中存在的多语言语料十分少见,大多数多语言平行语料中存在数据不平衡的问题,并且多语言平行语料中的语言相关性不强,为此构建了俄语

俄语

乌兹别克语

维吾尔语

英语

汉语多语言平行语料,这五种语言之间相似度高并且数据量相等。除此之外,多语言神经机器翻译模型均是构建多个编码器或解码器实现多语言翻译。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供一种基于多语言的神经机器翻译模型,保护俄语

俄语

乌兹别克语

维吾尔语

英语

汉语多语言平行语料的构造方法和多语言翻译模型设计的的核心思想。
[0004]为实现上述目的,本专利技术提供以下的技术方案:
[0005]该基于多语言的神经机器翻译模型包括多语言数据集构建过程和多语言翻译系统,多语言翻译模型操作过程。
[0006]多语言数据集构建过程包括如下步骤:
[0007](1)英俄、汉俄、英汉、汉维双语平行语料下载;
[0008](2)翻译工具将双语数据翻译成另外3种语言;
[0009](3)利用metval计算相似度,筛选语料;
[0010](4)人工过滤特殊符号或者句意不通顺,缺少因果关系的句子;
[0011]多语言翻译系统:
[0012](1)多语言翻译系统由一个编码器和一个解码器组成,其中编码器和解码器各有6层;
[0013](2)编码器的6层分为两部分,第一部分是多个语言的编码器子层,第二部分是单个编码器子层,第一部分中多个语言的编码器子层输出结果合并后作为第二部分的输入,每个编码器子层由一个多头注意力和一个前馈网络组成;
[0014](3)解码器由6个解码器子层构成,每个解码器子层由两个多头注意力和一个前馈网络构成。
[0015]多语言翻译模型操作过程包括如下步骤:
[0016](1)原始数据处理;
[0017](2)数据预处理;
[0018](3)模型训练;
[0019](4)应用模型进行多语言翻译。
[0020]采用以上技术方案的有益效果是:
[0021]1、参数少:将编码器中的6个子层拆分,不需要构建额外的编码器,极大的降低了模型的参数数量;
[0022]2、通过改模型实现单编码器单解码器训练多语言翻译模型;
[0023]3、提出的多语言翻译模型能够大幅提升翻译模型的质量。
附图说明
[0024]下面结合附图对本专利技术的具体实施方式作进一步详细的描述。
[0025]图1是单编码器

单解码器模型图。
具体实施方式
[0026]下面结合附图详细说明该基于多语言的神经机器翻译模型的优选实施方式。
[0027]图1出示该基于多语言的神经机器翻译模型的具体实施方式:
[0028]如图1所示,该基于多语言的神经机器翻译模型包括多语言数据集构建过程和多语言翻译系统,多语言翻译模型操作过程。人工构建多语言平行语料和多语言神经机器翻译模型;前者主要构建俄语

乌兹别克语

维吾尔语

英语

汉语多语言平行语料,借助现有的双语数据,利用小牛和google等翻译工具翻译得到另外3种语言,并通过计算相似度和人工筛选构建多语言平行语料;后者基于transformer框架构建多语言神经机器翻译模型,用构建的数据集训练多语言翻译模型。
[0029]多语言数据集构建过程包括如下步骤:
[0030](1)英俄、汉俄、英汉、汉维双语平行语料下载;
[0031](2)翻译工具将双语数据翻译成另外3种语言;
[0032](3)利用metval计算相似度,筛选语料;
[0033](4)人工过滤特殊符号或者句意不通顺,缺少因果关系的句子;
[0034]多语言翻译系统:
[0035](1)多语言翻译系统由一个编码器和一个解码器组成,其中编码器和解码器各有6层;
[0036](2)编码器的6层分为两部分,第一部分是多个语言的编码器子层,第二部分是单个编码器子层,第一部分中多个语言的编码器子层输出结果合并后作为第二部分的输入,每个编码器子层由一个多头注意力和一个前馈网络组成;
[0037](3)解码器由6个解码器子层构成,每个解码器子层由两个多头注意力和一个前馈网络构成。
[0038]多语言翻译模型操作过程包括如下步骤:
[0039](1)原始数据处理;
[0040](2)数据预处理;
[0041](3)模型训练;
[0042](4)应用模型进行多语言翻译。
[0043]该基于多语言的神经机器翻译模型的参数少:将编码器中的6个子层拆分,不需要构建额外的编码器,极大的降低了模型的参数数量。通过改模型实现单编码器单解码器训练多语言翻译模型,提出的多语言翻译模型能够大幅提升翻译模型的质量。
[0044]以上的仅是本专利技术的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本专利技术创造构思的前提下,还可以做出若干变形和改进,这些都属于本专利技术的保护范围。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多语言的神经机器翻译模型,其特征在于:所述基于多语言的神经机器翻译模型包括多语言数据集构建过程和多语言翻译系统,多语言翻译模型操作过程,所述多语言数据集构建过程包括如下步骤:(1)英俄、汉俄、英汉、汉维双语平行语料下载;(2)翻译工具将双语数据翻译成另外3种语言;(3)利用metval计算相似度,筛选语料;(4)人工过滤特殊符号或者句意不通顺,缺少因果关系的句子;多语言翻译系统:(1)多语言翻译系统由一个编码器和一个解码器组成,其...

【专利技术属性】
技术研发人员:艾山
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1