基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法技术

技术编号:27473460 阅读:54 留言:0更新日期:2021-03-02 17:40
本发明专利技术提出了一种基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法,通过使用环顾生成,减少重复生成的可能;通过使用词汇注意力,在运行解码器的每一层,让每个位置都关注整个词表,得到可能生成的字符,通过词汇注意力,解码器可以使得各个位置预期产生的字符进行交互,从而降低重复生成的可能,同时不需要引入额外的参数;本发明专利技术通过使用对齐交叉熵作为非自回归翻译模型的损失函数,解决了非自回归翻译模型中由于缺少自回归因子,难以对蒙语词序建模的问题;在解码时,采用动态双向解码,从而得到句子级别的更好的采样结果。本发明专利技术在蒙汉翻译的过程中加快解码速度的同时,也提升了翻译质量。提升了翻译质量。提升了翻译质量。

【技术实现步骤摘要】
基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法


[0001]本专利技术属于机器翻译
,特别涉及一种基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法。

技术介绍

[0002]机器翻译作为人工智能的根本组成之一,为解决语言翻译问题提供了方法,机器翻译是利用计算机实现两种自然语言间快速转换的过程,机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随,从1949年翻译备忘录提出到现在,这期间,机器翻译经历了多个不同的发展阶段,也涌现出了很多方法。总结起来主要有三类,一开始是基于规则的方法,然后发展为基于统计的方法。一直到最近的基于神经网络的方法。
[0003]基于规则的机器翻译技术本质上将专家的翻译知识采用规则形式写下来,采用软件的方式利用翻译规则来实现机器翻译过程。这种方法的优点是直接用语言学专家知识,准确率非常高。但因为其涉及到人工参与构建高质量知识库,导致系统构建代价高,灵活性比较差。此外,还面临规则冲突的问题。随着规则数量的增多,规则之间互相制约和影响。而为了解决这一系列问题,不得不引入更多的规则,形成恶性本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法,其特征在于,基于编码器-目标长度预测器-解码器的翻译模型,采用改进的非自回归方法提升蒙汉神经机器翻译的速度和并行性,并在训练过程中使用对齐交叉熵作为损失函数,其中所述改进的非自回归方法为:在解码时,首先使用位置嵌入,然后通过环顾解码和动态双向解码进行解码,并且在解码器的每一层均使用词汇注意力,通过上述进行改进的非自回归方法提升了蒙汉神经机器翻译的速度和并行性。2.根据权利要求1所述基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法,其特征在于,在翻译之前,使用字节编码技术(BPE)进行预处理以提高神经网络的准确率,所述字节编码技术是切分蒙语语料,即,对不同粒度的蒙语语料进行切割分离,以改善蒙语语料的稀疏性问题,同时找出预处理后的蒙语语料的语言特征,在训练的时融入预处理后的蒙语语料的语言特征。由于蒙语的平行语料库小,字节编码技术可以有效缓解未登录词问题。3.根据权利要求1所述基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法,其特征在于,所述解码器共六层,分别为:Masked Self-Attention、Multi-head Attention、Feed forward和三层Add&Norm。4.根据权利要求1所述基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法,其特征在于,所述编码器遵循Transformer架构,给定源语言x={x1,x2,

,x
i
,

,x
n
},得到目标语言y={y1,y2,

,y
i
,

y
m
},n和m分别为源语言的长度和目标语言的长度,x
i
是第i个位置的源语言词条,y
i
是第i个位置的目标语言词条。所述环顾解码是在正式生成词条之前,对每个位置先预测其附近的其他位置可能会生成哪些字符,得到先验信息,然后结合该先验信息去生成当前位置的词条。5.根据权利要求4所述基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法,其特征在于,对于第i个位置,解码器首先通过公式(1)和(2)预测其左侧词条y
i,l
和右侧词条y
i,r
:p(y
i,r
∣x)=softmax(W
r
(z
i
+p
i+1
)+b
r
)
ꢀꢀꢀꢀꢀꢀ
(1)p(y
i,l
∣x)=softmax(W
l
(z
i
+p
i-1
)+b
l
)
ꢀꢀꢀꢀꢀ
(2)然后,使用两个门控c
i,l
和c
i,r
将先验信息输入到第i个位置,所述两个门控在预测y
i
时考虑保存或者遗忘相邻词条的信息,输入门决定了有多少信息需要保存,遗忘门决定了有多少信息需要丢弃,即公式(3)和(4):c
i,l
=σ(W
l
(w
i,l
+p
i-1
)+b
...

【专利技术属性】
技术研发人员:苏依拉王涵张妍彤仁庆道尔吉石宝
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1