一种基于受控语言的机器翻译自动译前编辑方法和系统技术方案

技术编号:38389143 阅读:9 留言:0更新日期:2023-08-05 17:42
本发明专利技术公开了一种基于受控语言的机器翻译自动译前编辑方法和系统,采取“语言规则”与“深度学习”相结合的手段改善机器翻译质量,本发明专利技术构建了译前编辑神经网络模型,处理待翻译原文语料,通过编码器对原文语料中有译文错误的语句进行错误类型的判断,根据句子的错误类型,通过解码器对其进行改写,最后通过复制机制模块进行纠正后,获得最终的译前结果。本方法通过神经网络模型对受控语言规则的深度学习,可以显著降低原文的歧义、冗余、逻辑混乱等情况,从而提升机器翻译译文的准确度和流利度。度。度。

【技术实现步骤摘要】
一种基于受控语言的机器翻译自动译前编辑方法和系统


[0001]本专利技术属于自然语言处理与机器翻译领域,涉及一种基于受控语言的机器翻译自动译前编辑方法和系统。

技术介绍

[0002]近年来,随着机器翻译技术的进步,尤其是谷歌公司推出神经网络机器翻译引擎以来,机器翻译的质量得到了明显的提升。翻译技术的进步推动了语言服务新业态的出现,计算机辅助翻译(CAT)、机器翻译+译后编译(MTPE)逐渐成为翻译行业的主流生产模式。然而,尽管机器翻译产出质量得到一定的改善和提升,但是与人工译文仍然存在较大的差距,直译、硬译甚至是错译的现象仍十分常见。其中,原文的可读性和可译性差是造成上述机器翻译错误的一个重要原因。因此,在进行机器翻译之前,先对原文进行译前编辑可以有效地提升机器翻译质量,提升机器翻译译后编辑的效率。
[0003]目前,机器翻译译前编辑的方法主要分为两种:(1)基于规则的改写方法;(2)基于深度学习的改写方法。基于规则的改写方法(张玉洁、山本和英2003,Ding et al.2016)主要是根据目的语特征制定语言规则,然后根据这些规则将原文改写为可译性更高的受控语言;而基于深度学习的改写方法(Tian,W.et al.2018;Mehta,S.et al.2020)则是先通过回译(back translation)将已有的双语语料库变为改写训练集,然后对神经网络模型进行改写训练,最终实现自动改写。上述两种方法均存在一定的缺陷和不足:一方面,仅仅依靠规则的改写,规则的创立过于复杂,并且误报率极高,不具有工程上的可行性;另一方面,纯粹基于机器学习的神经网络训练,可以有效的对各种复杂的、非典型的规则进行智能化自主学习,但是需要的样本量极大,并且由于对抗样本的存在,往往导致最终的翻译质量不佳。

技术实现思路

[0004]本专利技术的目的在于克服上述现有技术的缺点,提供一种基于受控语言的机器翻译自动译前编辑方法和系统,具体的是一种词汇、句法受到控制的人工语言的自动译前编辑方法,该方法和系统通过对受控语言改写规则的深度学习,从而提升机器译文的准确性和地道性,以解决现有的译前编辑方法中误报率高,可行性低,翻译质量不佳的问题。
[0005]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0006]一种基于受控语言的机器翻译自动译前编辑方法,包括以下步骤:
[0007]输入待译前编辑的原文语料;
[0008]通过译前编辑神经网络模型处理待译前编辑的原文语料;译前编辑神经网络模型包括编码器、分类网络、n个解码器和复制机制模块;编码器提取出原文语料中有译文错误句子特征向量,分类网络通过特征向量划分错误类型;句子的错误类型为基准,错误类型对应的解码器对有译文错误的句子进行解码改写,输出向量,n个解码器对应n个错误类型;复制机制模块对编码器输出向量处理后,将复制机制模块的输出和输出向量按照权重结合,获得译前编辑神经网络输出的译前文本;
[0009]输出编辑后的译前文本。
[0010]本专利技术的进一步改进在于:
[0011]优选的,所述编码器为bert模型。
[0012]优选的,bert模型和分类网络通过微调模型训练。
[0013]优选的,所述解码器为Transformer模型,每一个解码器为一层带有掩码注意力层、多头注意力层和前馈神经网络层的网络。
[0014]优选的,所述复制机制模块为:
[0015][0016]其中,h
t
为t时刻第i个解码器的输出向量,通过该向量可得出第t个目标词;H
src
为编码器输出,softmax为归一化函数。
[0017]优选的,将复制机制模块的输出和输出向量按照权重结合的公式为:
[0018][0019]其中,L∈R
d
×
|V|
,d为词嵌入维度,|V|为词典大小,W为参数矩阵,W
T
为参数矩阵的转置;其中,sigmoid为非线性激活函数,softmax为归一化函数,L
trg
为目标端词嵌入向量
[0020]优选的,所述译前编辑神经网路模型的获取过程包括以下步骤:
[0021]步骤1,建立训练集和测试集;每一个集合中均包括原文语料A和受控原文A+,所述受控原文A+为人工确认后经过译前编辑规则处理过的原文;
[0022]步骤2,建立译前编辑神经网络模型的初始模型;
[0023]步骤3,基于训练集,通过adam优化器对初始模型进行训练,获得最终的译前编辑神经网络模型。
[0024]优选的,步骤1的具体过程包括以下步骤:
[0025]步骤1.1,确定某一
的中文和英文作为译前编辑训练语料;
[0026]步骤1.2,将中文作为原文语料,英文作为参考译文;
[0027]步骤1.3,通过机器翻译原文语料,获得机翻译文;
[0028]步骤1.4,以参考译文为基准对机翻译文评估,如果Bleu值≥0.8,则原文语料无需进行译前编辑,如果Bleu值<0.8,则原文语料需要进行译前编辑,获得待编辑的原文语料;
[0029]步骤1.5,对参考译文进行回译,通过回译结果和机翻译文比对,对待编辑的原文语料对应的机翻译文进行错误分类;
[0030]步骤1.6,针对不同的机翻译文错误,制定译前编辑规则;
[0031]步骤1.7,对机翻译文进行预处理,对机翻译文进行人工校对或人工翻译,获得受控原文A+,将受控原文A+和原文语料组成训练集和测试集。
[0032]优选的,步骤3中,通过adam优化器对初始模型进行训练的过程为:
[0033]步骤3.1,将训练集输入至初始模型中,获得过程语料;
[0034]步骤3.2,将过程语料和受控原文A+进行误差计算,使用adam优化器,通过反向传
播,对初始模型模型进行迭代优化,直至初始模型收敛,获得最终的模型。
[0035]一种基于受控语言的机器翻译自动译前编辑系统,包括:
[0036]输入模块,用于输入待译前编辑的原文语料;
[0037]译前编辑模块,用于通过译前编辑神经网络模型处理待译前编辑的原文语料;译前编辑神经网络模型包括编码器、分类网络、n个解码器和复制机制模块;编码器提取出原文语料中有译文错误句子特征向量,分类网络通过特征向量划分错误类型;句子的错误类型为基准,错误类型对应的解码器对有译文错误的句子进行解码改写,输出向量,n个解码器对应n个错误类型;复制机制模块对编码器输出向量处理后,将复制机制模块的输出和输出向量按照权重结合,获得译前编辑神经网络输出的译前文本;
[0038]输出模块,用于输出编辑后的译前文本。
[0039]与现有技术相比,本专利技术具有以下有益效果:
[0040]本专利技术公开了一种基于受控语言的机器翻译自动译前编辑方法和系统,采取“语言规则”与“深度学习”相结合的手段改善机器翻译质量,本专利技术构建了译前编辑神经网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于受控语言的机器翻译自动译前编辑方法,其特征在于,包括以下步骤:输入待译前编辑的原文语料;通过译前编辑神经网络模型处理待译前编辑的原文语料;译前编辑神经网络模型包括编码器、分类网络、n个解码器和复制机制模块;编码器提取出原文语料中有译文错误句子特征向量,分类网络通过特征向量划分错误类型;句子的错误类型为基准,错误类型对应的解码器对有译文错误的句子进行解码改写,输出向量,n个解码器对应n个错误类型;复制机制模块对编码器输出向量处理后,将复制机制模块的输出和输出向量按照权重结合,获得译前编辑神经网络输出的译前文本;输出编辑后的译前文本。2.根据权利要求1所述的一种基于受控语言的机器翻译自动译前编辑方法,其特征在于,所述编码器为bert模型。3.根据权利要求1所述的一种基于受控语言的机器翻译自动译前编辑方法,其特征在于,bert模型和分类网络通过微调模型训练。4.根据权利要求1所述的一种基于受控语言的机器翻译自动译前编辑方法,其特征在于,所述解码器为Transformer模型,每一个解码器为一层带有掩码注意力层、多头注意力层和前馈神经网络层的网络。5.根据权利要求1所述的一种基于受控语言的机器翻译自动译前编辑方法,其特征在于,所述复制机制模块为:其中,h
t
为t时刻第i个解码器的输出向量,通过该向量可得出第t个目标词;H
src
为编码器输出,softmax为归一化函数。6.根据权利要求1所述的一种基于受控语言的机器翻译自动译前编辑方法,其特征在于,将复制机制模块的输出和输出向量按照权重结合的公式为:其中,L∈R
d
×
|V|
,d为词嵌入维度,|V|为词典大小,W为参数矩阵,W
T
为参数矩阵的转置;其中,sigmoid为非线性激活函数,softmax为归一化函数,L
trg
为目标端词嵌入向量。7.根据权利要求1所述的一种基于受控语言的机器翻译自动译前编辑方法,其特征在于,所述译前编辑神经网路模型的获取过程包括以下步骤:步骤1,建立训练集和测试集;每一个集合中均包括原文语料A和受控原文A+...

【专利技术属性】
技术研发人员:王均松崔维霞马良任斌毕冉
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1