当前位置: 首页 > 专利查询>天津大学专利>正文

一种利用语族信息的多语言神经机器翻译系统及方法技术方案

技术编号:35990601 阅读:16 留言:0更新日期:2022-12-17 23:05
本发明专利技术公开了一种利用语族信息的多语言神经机器翻译系统,该系统基于Transformer基础模型构建,其在Transformer基础模型中的每个自注意力机制模块及前馈神经网络模块后都加入一个语族信息模块;语族信息模块输入语族信息及前置模块的输出,生成融入语族信息的向量后输出。本发明专利技术还提供了一种利用语族信息的多语言神经机器翻译方法。本发明专利技术所提出的利用语族信息的多语言神经机器翻译系统缓解了大规模多语言机器翻译在高资源语言上的性能下降问题,并且进一步提升了在低资源语言上的翻译性能。译性能。译性能。

【技术实现步骤摘要】
一种利用语族信息的多语言神经机器翻译系统及方法


[0001]本专利技术涉及一种神经机器翻译系统,特别涉及一种利用语族信息的多语言神经机器翻译系统及方法。

技术介绍

[0002]目前,机器翻译任务是自然语言处理领域的重要任务之一,无论是在学术界还是工业界都占据着比较重要的地位。在如今21世纪,互联网无疑是现代人使用最多的工具,也是世界范围内使用最多的交流平台。互联网带来的最大的便利之处在于促进了不同国家、地区之间的交流,而这种跨区域、跨语种的交流也使得人们对于机器翻译的需求极具上升。
[0003]机器翻译(Machine Translation,MT)的研究目标是如何利用计算机技术,将文字从一种语言翻译为另一种语言,并且在翻译的过程中尽最大可能保留语言所蕴含的信息不变。早期对于机器翻译的研究主要局限于统计机器翻译(Statistical Machine Translation, SMT)和基于规则的机器翻译(Rule Based Machine Translation),而如今随着图形处理器(Graphics Processing Unit,GPU)的发展所带来的计算能力的大幅提升,神经网络模块重新得到重视,继而衍生出了基于神经网络模块的机器翻译,又称神经机器翻译(NeuralMachine Translation,NMT)。目前的神经机器翻译模型在多个双语语言对上翻译表现,已经远远超越了传统的统计机器翻译模型,替代统计机器翻译成为了机器翻译领域主流的机器翻译系统。然而,由于现存的语言数量超过5000种,较为常用的语言也有几十种语言,若要为每一种语言维护一个单独的双语机器翻译系统,带来的开销将是巨大的。假设要实现N种语言之间的互译,则需要训练并维护N2个神经机器翻译系统,整体开销的复杂度为O(N2(,那么当N逐渐增大时,整体所需要的开销将以平方级别增大,训练时间增长并且难以有效的进行部署和维护。
[0004]多语言神经机器翻译(Multilingual Neural Machine Translation,MNMT)则在一方面很好地解决了上述的双语机器翻译系统所带来的问题。多语言神经机器翻译的主要思想,是通过一个统一的翻译模型,来完成多个语言之间的互译,从而解决双语机器翻译系统在现实中难以扩展的问题。目前工业界也在采取使用大模型的方法来改善多语言机器翻译的性能,许多公司也部署了基于内部数据集开发的统一的多语言机器翻译系统,其中不乏如百度、谷歌、微软、字节跳动、DeepL等互联网巨头。
[0005]多语言机器翻译在一方面,极大地降低了训练部署一个完整的多语言翻译系统的成本,并且联合训练的方式也使得多语言机器翻译模型在训练过程中从高资源语言 (High

Resource Language)向低资源语言(Low

Resource Language)发生了正向迁移 (Positive Transfer),使得模型在低资源语言上的表现超过了双语机器翻译模型;但是在另一方面,多语言机器翻译模型也带来了高资源语言上的翻译性能的下降。由于神经网络模块的性能主要依赖于数据量和模型的参数量,基于神经网络模块的多语言机器翻译模型在数据量方面已经比较充足,但是单个模型的参数量仍旧有限,难以充分学习到数据集中所包含的全部有效信息,从而使得多语言机器翻译在数据量比较充足的语言对上面反而会
出现翻译性能下降的情况。另外在利用语言信息来改善机器翻译模型效果的过程中,模型泛化过程中产生了如下问题:多语言神经机器翻译模型会对低资源语言甚至零资源语言产生转移。

技术实现思路

[0006]本专利技术为解决公知技术中存在的技术问题而提供一种利用语族信息的多语言神经机器翻译系统及方法。
[0007]本专利技术为解决公知技术中存在的技术问题所采取的技术方案是:一种利用语族信息的多语言神经机器翻译系统,该系统基于Transformer基础模型构建,其在Transformer 基础模型中的每个自注意力机制模块及前馈神经网络模块后都加入一个语族信息模块;语族信息模块输入语族信息及前置模块的输出,生成融入语族信息的向量后输出。
[0008]进一步地,语族信息模块包括路由模块、门控模块、语族相关前馈神经网络模块及全局前馈神经网络模块;前置模块的输出分别输入至路由模块、门控模块及全局前馈神经网络模块;路由模块,其还输入语族信息;其将前置模块的输出及语族信息组合后输入至语族相关前馈神经网络模块;门控模块、全局前馈神经网络模块及语族相关前馈神经网络模块三者的输出合并后作为语族信息模块的输出。
[0009]进一步地,该系统包括编码器组件,编码器组件包括多层编码器,每层编码器包括依次相连的自注意力机制模块A、语族信息模块A、归一化模块A、前馈神经网络模块A、语族信息模块B及归一化模块B。
[0010]进一步地,每层编码器的输入数据包括当前语言的语族信息。
[0011]进一步地,该系统还包括解码器组件,解码器组件包括多层解码器,每层解码器包括依次相连的自注意力机制模块B、语族信息模块C、归一化模块C、交叉注意力机制模块、语族信息模块D、归一化模块D、前馈神经网络模块B、语族信息模块E及归一化模块E。
[0012]进一步地,每层解码器的输入数据包括当前语言的语族信息。
[0013]本专利技术还提供了一种利用上述的利用语族信息的多语言神经机器翻译系统的利用语族信息的多语言神经机器翻译方法,按照语族对语言进行分类。
[0014]进一步地,将印欧语系的训练数据集按语族划分为日耳曼语族、波罗的语族及凯尔特语族训练集;闪

含语系的训练数据集中包含5种语言,其中4种属于闪米特语族,另外1种属于乍得语族,将该5种语言归为一类语族。
[0015]进一步地,利用语族信息的多语言神经机器翻译系统的训练集和测试集来自于 OPUS

100数据集;训练集包括94种语言、26个不同的语族。
[0016]进一步地,利用语族信息的多语言神经机器翻译系统训练时采用Adam作为优化器,设置labelsmoothing值为0.1,学习率调度器采用平方根倒数的策略。
[0017]本专利技术具有的优点和积极效果是:本专利技术所提出的利用语族信息的多语言神经机器翻译系统缓解了大规模多语言机器翻译在高资源语言上的性能下降问题,并且进一步提升了在低资源语言上的翻译性能。
附图说明
[0018]图1是本专利技术的结构示意图。
[0019]图2是单语到多语翻译方向上解码器端语族共享参数间的余弦相似度热力示意图。
[0020]图1中:
×
6表示对应的编码器及解码器的层数。
[0021]图2中:
[0022]BA表示波罗的语族代称。
[0023]CE表示凯尔特语族代称。
[0024]GE表示日耳曼语族代称。
[0025]IA表示印度

雅利安语族代称。
[0026]IE表示希本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用语族信息的多语言神经机器翻译系统,其特征在于,该系统基于Transformer基础模型构建,其在Transformer基础模型中的每个自注意力机制模块及前馈神经网络模块后都加入一个语族信息模块;语族信息模块输入语族信息及前置模块的输出,生成融入语族信息的向量后输出。2.根据权利要求1所述的利用语族信息的多语言神经机器翻译系统,其特征在于,语族信息模块包括路由模块、门控模块、语族相关前馈神经网络模块及全局前馈神经网络模块;前置模块的输出分别输入至路由模块、门控模块及全局前馈神经网络模块;路由模块,其还输入语族信息;其将前置模块的输出及语族信息组合后输入至语族相关前馈神经网络模块;门控模块、全局前馈神经网络模块及语族相关前馈神经网络模块三者的输出合并后作为语族信息模块的输出。3.根据权利要求1所述的利用语族信息的多语言神经机器翻译系统,其特征在于,该系统包括编码器组件,编码器组件包括多层编码器,每层编码器包括依次相连的自注意力机制模块A、语族信息模块A、归一化模块A、前馈神经网络模块A、语族信息模块B及归一化模块B。4.根据权利要求3所述的利用语族信息的多语言神经机器翻译系统,其特征在于,每层编码器的输入数据包括当前语言的语族信息。5.根据权利要求1所述的利用语族信息的多语言神经机器翻译系统,其特征在于,该系统还包括解码器组件,解码器组件包括多层解码器,...

【专利技术属性】
技术研发人员:熊德意孙浩然
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1