一种基于受控语言的机器翻译自动译前编辑方法和系统技术方案

技术编号：38389143 阅读：9 留言：0更新日期：2023-08-05 17:42

本发明专利技术公开了一种基于受控语言的机器翻译自动译前编辑方法和系统，采取“语言规则”与“深度学习”相结合的手段改善机器翻译质量，本发明专利技术构建了译前编辑神经网络模型，处理待翻译原文语料，通过编码器对原文语料中有译文错误的语句进行错误类型的判断，根据句子的错误类型，通过解码器对其进行改写，最后通过复制机制模块进行纠正后，获得最终的译前结果。本方法通过神经网络模型对受控语言规则的深度学习，可以显著降低原文的歧义、冗余、逻辑混乱等情况，从而提升机器翻译译文的准确度和流利度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于受控语言的机器翻译自动译前编辑方法和系统

[0001]本专利技术属于自然语言处理与机器翻译领域，涉及一种基于受控语言的机器翻译自动译前编辑方法和系统。

技术介绍

[0002]近年来，随着机器翻译技术的进步，尤其是谷歌公司推出神经网络机器翻译引擎以来，机器翻译的质量得到了明显的提升。翻译技术的进步推动了语言服务新业态的出现，计算机辅助翻译(CAT)、机器翻译+译后编译(MTPE)逐渐成为翻译行业的主流生产模式。然而，尽管机器翻译产出质量得到一定的改善和提升，但是与人工译文仍然存在较大的差距，直译、硬译甚至是错译的现象仍十分常见。其中，原文的可读性和可译性差是造成上述机器翻译错误的一个重要原因。因此，在进行机器翻译之前，先对原文进行译前编辑可以有效地提升机器翻译质量，提升机器翻译译后编辑的效率。
[0003]目前，机器翻译译前编辑的方法主要分为两种：(1)基于规则的改写方法；(2)基于深度学习的改写方法。基于规则的改写方法(张玉洁、山本和英2003，Ding et al.2016)主要是根据目的语特征制定语言规则，然后根据这些规则将原文改写为可译性更高的受控语言；而基于深度学习的改写方法(Tian,W.et al.2018；Mehta,S.et al.2020)则是先通过回译(back translation)将已有的双语语料库变为改写训练集，然后对神经网络模型进行改写训练，最终实现自动改写。上述两种方法均存在一定的缺陷和不足：一方面，仅仅依靠规则的改写，规则的创立过于复杂，并且误报率极高，不具有工程上的...

【技术保护点】

【技术特征摘要】
1.一种基于受控语言的机器翻译自动译前编辑方法，其特征在于，包括以下步骤：输入待译前编辑的原文语料；通过译前编辑神经网络模型处理待译前编辑的原文语料；译前编辑神经网络模型包括编码器、分类网络、n个解码器和复制机制模块；编码器提取出原文语料中有译文错误句子特征向量，分类网络通过特征向量划分错误类型；句子的错误类型为基准，错误类型对应的解码器对有译文错误的句子进行解码改写，输出向量，n个解码器对应n个错误类型；复制机制模块对编码器输出向量处理后，将复制机制模块的输出和输出向量按照权重结合，获得译前编辑神经网络输出的译前文本；输出编辑后的译前文本。2.根据权利要求1所述的一种基于受控语言的机器翻译自动译前编辑方法，其特征在于，所述编码器为bert模型。3.根据权利要求1所述的一种基于受控语言的机器翻译自动译前编辑方法，其特征在于，bert模型和分类网络通过微调模型训练。4.根据权利要求1所述的一种基于受控语言的机器翻译自动译前编辑方法，其特征在于，所述解码器为Transformer模型，每一个解码器为一层带有掩码注意力层、多头注意力层和前馈神经网络层的网络。5.根据权利要求1所述的一种基于受控语言的机器翻译自动译前编辑方法，其特征在于，所述复制机制模块为：其中，h
t
为t时刻第i个解码器的输出向量，通过该向量可得出第t个目标词；H
src
为编码器输出，softmax为归一化函数。6.根据权利要求1所述的一种基于受控语言的机器翻译自动译前编辑方法，其特征在于，将复制机制模块的输出和输出向量按照权重结合的公式为：其中，L∈R
d
×
|V|
，d为词嵌入维度，|V|为词典大小，W为参数矩阵，W
T
为参数矩阵的转置；其中，sigmoid为非线性激活函数，softmax为归一化函数，L
trg
为目标端词嵌入向量。7.根据权利要求1所述的一种基于受控语言的机器翻译自动译前编辑方法，其特征在于，所述译前编辑神经网路模型的获取过程包括以下步骤：步骤1，建立训练集和测试集；每一个集合中均包括原文语料A和受控原文A+...

【专利技术属性】
技术研发人员：王均松，崔维霞，马良，任斌，毕冉，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人