利用检索提升机器翻译质量自动评估的方法、介质及设备技术

技术编号：34520046 阅读：30 留言：0更新日期：2022-08-13 21:09

本发明专利技术公开了一种利用检索提升机器翻译质量自动评估的方法、介质及设备，方法包括：检索阶段：对于机器翻译质量评估句对，为所述机器翻译质量评估句对中的待评估词在数据库中检索出相关的平行句对；机器翻译质量评估阶段：将检索到的平行句对进行编码后，融入到机器翻译质量评估模型中。本发明专利技术能够直接有效地利用相关的平行句对，同时也缓解了机器翻译质量评估训练数据稀疏的问题；更好地解释了模型做出相关决策的原因；无需重新训练模型；避免了端到端模型在训练过程中遗忘训练数据的缺陷，提升了机器翻译质量评估模型的性能。提升了机器翻译质量评估模型的性能。提升了机器翻译质量评估模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
利用检索提升机器翻译质量自动评估的方法、介质及设备

[0001]本专利技术涉及自然语言处理
，具体涉及一种利用检索提升机器翻译质量自动评估的方法、介质及设备。

技术介绍

[0002]随着当今社会全球化趋势的加速发展，机器翻译技术作为连接不同语言之间的桥梁变得至关重要。但目前机器翻译的质量相较于人类的翻译仍有一些差距，因此需要对其进行质量评估，进而帮助人类更好地利用机器翻译的结果。将质量评估的工作同样交由机器来做，就是机器翻译质量的自动评估。近年来，机器翻译质量自动评估受到越来越多的关注，已经成为了机器翻译领域一个被广泛研究和讨论的问题。
[0003]目前，机器翻译质量的自动评估大致可以分为两个方向，第一个是有参考译文的机器翻译质量评估，也就是通过比对机器翻译系统的输出和参考译文给出一个可以量化的指标，经典的工作如BLEU【文献Kishore Papineni,SalimRoukos,Todd Ward,and Wei
‑
Jing Zhu.2002.BLEU:a method forautomatic evaluation of machine translation.(BLEU：一种机器翻译自动评估的方法)Proceedings of the 40th Annual Meeting on Associationfor Computational Linguistics:311
–
318.】，METEOR【文献Alon Lavieand Abhaya Agarwal.2...

【技术保护点】

【技术特征摘要】
1.利用检索提升机器翻译质量自动评估的方法，其特征在于，包括：检索阶段：对于机器翻译质量评估句对，为所述机器翻译质量评估句对中的待评估词在数据库中检索出相关的平行句对；机器翻译质量评估阶段：将检索到的平行句对进行编码后，融入到机器翻译质量评估模型中。2.根据权利要求1所述的利用检索提升机器翻译质量自动评估的方法，其特征在于，所述检索阶段包括以下步骤：步骤1:使用平行句对构造数据库；步骤2:对于机器翻译质量评估句对,在所述数据库中对所述机器翻译质量评估句对中的待评估词构造查询序列，进行检索；步骤3:对于机器翻译质量评估句对中的待评估词，将其检索到的平行句对进行排序后，保留其中所需要的平行句对。3.根据权利要求1或2所述的利用检索提升机器翻译质量自动评估的方法，其特征在于，对于所有的平行句对，所述数据库为每一个平行句对中的每个词都构造倒排索引，即当搜索某个平行句对中的任意词时，都能检索到这个平行句对。4.根据权利要求1所述的利用检索提升机器翻译质量自动评估的方法，其特征在于，所述机器翻译质量评估阶段包括以下步骤：步骤4:将机器翻译质量评估句对和其待评估词对应检索到的平行句对分别使用跨语言预训练模型进行编码，分别获取所述机器翻译质量评估句对中待评估词的隐层表示和所述检索到的平行句对的隐层表示；步骤5:将所述待评估词对应的检索到的平行句对得到的隐层表示拼接起来；步骤6:使用所述机器翻译质量评估句对中待评估词的隐层表示对步骤5中拼接后的隐层表示使用多头注意力进行信息提取；步骤7:将所述机器翻译质量评估句对中待评估词的隐层表示和步骤6中基于信息提取后的隐层表示通过一种门控机制进行融合，得到最终的表示输入进多层感知机中进行分类，得到该待评估词的翻译准确性。5.根据权利要求1或2所述的利用检索提升机器翻译质量自动评估的方法，其特征在于，所述检索阶段具体包括以下步骤：步骤11:所述数据库通过Lucene构造搜索引擎，所述Lucene使用FST结构构造索引，为前缀相同的词共享索引路径，即给定一个平行句对，所述Lucene为所述平行句对中包括源语言和目标语言的每一个词构造倒排索引；步骤12:假设机器翻译质量评估句对为：X＝(x1，...，x
i
，...，x
m
),翻译为：Y＝(y1，...，y
j
，...，y
n
)，对于机器翻译质量评估句对中的待评估词y
j
，所述查询序列为：MUST(y
j
)∧SHOULD(x1)∧...∧SHOULD(x
m
)∧SHOULD(y1)∧...∧SHOULD(y
n
)；步骤13:对于待评估词，将其所有检索到的平行句对使用BM25进行排序，保留所需要的其中的top
‑
k个结果；所述BM25的计算公式如下：
其中Q为待评估的机器翻译质量评估句对，q
i
表示该机器翻译质量评估句对中的每个词，而d则表示检索出的数据库中的一个平行句对，R...

【专利技术属性】
技术研发人员：黄书剑，郑鑫，赵千锋，戴新宇，张建兵，陈家骏，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人