翻译评估方法、装置、系统及计算机存储介质制造方法及图纸

技术编号：27561259 阅读：13 留言：0更新日期：2021-03-09 22:03

本发明专利技术实施例提供了一种机器翻译评估方法、装置、系统及计算机存储介质，其中，翻译评估方法包括：获取包括原文语句和对应的机器译文语句的待评估数据；将所述待评估数据输入翻译评估神经网络模型的第一部分，通过所述第一部分的编码器、基于注意力机制的正向解码器和反向解码器，获得第一部分输出数据，其中，所述第一部分输出数据包括：与所述原文语句对应的译文预测语句和所述译文预测语句的语义特征信息；将所述第一部分输出数据输入翻译评估神经网络模型的第二部分，获得所述机器译文语句的机器翻译质量评估结果。通过本发明专利技术实施例，降低了机器翻译质量评估的实现成本，提高了质量评估效率。量评估效率。量评估效率。

全部详细技术资料下载

【技术实现步骤摘要】
翻译评估方法、装置、系统及计算机存储介质

[0001]本专利技术实施例涉及计算机
，尤其涉及一种翻译评估方法、装置、系统及计算机存储介质。

技术介绍

[0002]机器翻译又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。
[0003]随着机器翻译在真实场景中的应用越来越多，翻译质量评估也受到很大的关注。对于翻译质量评估方法来说，最常用的评价机器翻译质量的指标是BLEU(Bilingual Evaluation Understudy，双语评估替换)方法的BLEU值。BLEU方法的核心思想是机器翻译的译文越接近人类专业译文，那么翻译的质量就越好。所以从本质上来说，BLEU值仅仅只是在计算机器翻译的译文与人工翻译的参考译文之间的相似性。此外，虽然BLEU值计算非常迅速，但它仅考虑词语层级的统计相似性，常忽略了语义和语法等特征。且其它如常用词、译文长度、同义词等很多情况都会影响到BLEU值的评判，因此它只能评估机器翻译的译文与人工翻译的参考译文之间的大致相似度。并且，BLEU值的计算依赖于人工生产的高质量参考译文，人工生产的特性限制了该评估方法能够评估的数量，通常只能达到上千或者上万的数据量，这远远不能满足实际的业务场景需求。
[0004]因此，如何在没有任何参考译文的前提下，也能够实时地大量地进行机器翻译质量评估，成为亟待解决的问题。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供一种翻译评估方案，以至少部分解决上述问题。
[...

【技术保护点】

【技术特征摘要】
1.一种翻译评估系统，包括：编码层，所述编码层用于对输入的翻译数据进行特征编码；解码层，所述解码层与所述编码层通信连接，所述解码层用于对所述特征编码的结果进行基于注意力机制的正向解码和反向解码，获取第一译文预测结果；重建层，所述重建层与所述解码层通信连接，所述重建层用于根据所述第一译文预测结果和重构预测词，确定第二译文预测结果；输出层，所述输出层与所述重建层通信连接，所述输出层用于至少基于所述重建层输出的第二译文预测结果对翻译质量进行评估。2.根据权利要求1所述的系统，其中，所述解码层包括：用于对所述特征编码的结果进行基于注意力机制的正向解码的两个正向解码层，和，用于对所述特征编码的结果进行基于注意力机制的反向解码的两个反向解码层。3.根据权利要求2所述的系统，其中，每个正向解码层包括三个子层；其中，第一个子层为自注意力子层；第二个子层为以所述编码层的输出作为Key和Value，以所述第一个子层的输出作为Query的自注意力子层；第三个子层为全连接子层；每个反向解码层包括三个子层；其中，第一个子层为自注意力子层；第二个子层为以所述编码层的输出作为Key和Value，以所述第一个子层的输出作为Query的自注意力子层；第三个子层为全连接子层。4.根据权利要求1所述的系统，其中，所述编码层包括两层，每个编码层包括二个子层；其中，第一个子层为自注意力子层；第二个子层为全连接子层。5.根据权利要求3或4所述的系统，其中，所述自注意力子层均为遮挡多头自注意力(Masked multi-head self-attention)子层。6.根据权利要求1所述的系统，其中，所述输出层为双向长短时记忆网络(Bi-LSTM)层。7.根据权利要求2所述的系统，其中，所述重构预测词根据从所述正向解码层获得的正向语义特征向量和从所述反向解码层获得的反向语义特征向量生成。8.根据权利要求1所述的系统，其中，所述输出层基于所述重建层输出的第二译文预测结果和所述第二译文预测结果的语义特征信息，对翻译质量进行评估。9.根据权利要求8所述的系统，其中，所述输出层基于所述重建层输出的第二译文预测结果、所述第二译文预测结果的语义特征信息、输入的原文语句、和所述第二译文预测结果与输入的与原文语句对应的译文语句，对翻译质量进行评估。10.一种翻译评估方法，包括：获取包括原文语句和对应的机器译文语句的待评估数据；将所述待评估数据输入翻译评估神经网络模型的第一部分，通过所述第一部分的编码器、基于注意力机制的正向解码器和反向解码器，获得第一部分输出数据，其中，所述第一部分输出数据包括：与所述原文语句对应的译文预测语句和所述译文预测语句的语义特征信息；将所述第一部分输出数据输入所述翻译评估神经网络模型的第二部分，获得所述机器译文语句的机器翻译质量评估结果。11.根据权利要求10所述的方法，其中，所述方法还包括：
使用包括训练原文语句和对应的参考译文语句的训练样本，对所述第一部分进行翻译训练，以获得所述第一部分的训练输出数据，其中，所述训练输出数据包括：与所述训练原文语句对应的训练译文预测语句和所述训练译文预测语句的语义特征信息；将所述训练原文语句、所述训练输出数据、所述训练译文预测语句对应的质量标注信息、及所述训练译文预测语句与所述参考译文语句的差异信息输入第二部分，对所述第二部分进行翻译质量评估训练。12.根据权利要求11所述的方法，其中：针对所述参考译文语句中的每个词，获取与当前词对应的训练数据，其中，所述当前词对应的训练数据包括：所述原文训练语句的所有词的词向量，和，所述参考译文语句中除所述当前词之外的其它译文词的词向量；将所述训练数据输入第一部分，通过所述第一部分的编码器对所述训练数据进行编码，获得编码向量，其中，所述编码向量包括编码词向量和语义特征向量；分别使用正向解码器根据当前词对应的所述编码词向量中的前向词向量和所述语义特征向量中的前向语义特征向量，以及，使用反向解码器根据当前词对应的所述编码词向量中的...

【专利技术属性】
技术研发人员：汪嘉怿，樊楷，李博，施杨斌，赵宇，陈博兴，骆卫华，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人