一种基于上下文期望的无监督词汇级翻译质量评估方法和系统技术方案

技术编号：40416680 阅读：8 留言：0更新日期：2024-02-20 22:34

一种基于上下文期望的无监督词汇级翻译质量评估方法和系统，涉及无监督词汇级翻译质量评估领域。解决现有词汇级别QE需要依赖大规模的标注数据，且机器翻译质量评估不准确的问题。所述方法包括：将待评估语句输入至多语言模型中，对所述多语言模型译文端的某一词汇进行遮盖；将所述待评估语句的上下文信息和被遮掩的译文输入至多语言模型，根据所述多语言模型预测被遮掩的词；利用条件概率处理被遮掩词中每个子词间的关系，获取每个子词的生成概率；根据所述生成概率作为评分进行词汇级机器翻译质量评估。本发明专利技术应用于机器翻译领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无监督词汇级翻译质量评估领域，尤其涉及一种基于上下文期望的无监督词汇级翻译质量评估方法。

技术介绍

1、词汇级别qe指的是在不依赖参考译文的前提下，对机器翻译系统的输出进行自动评估，发现翻译错误和不准确的词汇，从而指导翻译系统的改进和调优，为机器翻译系统的开发者提供了一种有效的反馈机制，有助于提高结果的翻译质量。但是，由于训练数据稀缺，有监督的词汇级qe应用受限，难以在机器翻译的研究和应用中发挥广泛的作用。以往的词汇级别qe通常使用循环神经网络或者预训练模型为基座，需要在成千上万的标注语料上进行训练。但是，由于翻译的主观性和领域的多样性，使得qe数据标注困难，难以在新的语言对和领域上开展。

2、为了解决词汇级别qe对于标注数据的依赖，以往有很多研究致力于探索基于迁移学习和数据增强的方法。这些方法旨在利用领域外的标注数据或者大规模的未标注数据和自动生成的标签来训练模型，从而减少对标注数据的需求，提高模型在词汇级别qe任务上的泛化性。现有技术2021年公开的论文“an exploratory analysis of multilingualword-level quality estimation with cross-lingual transformers”(基于跨语言transformers的多语言词水平质量评价的探索性分析)(ranasinghe t,orasan c,mitkovr.an exploratory analysis of multilingual word-level quality

技术实现思路

1、本专利技术针对现有词汇级别qe需要依赖大规模的标注数据，且机器翻译质量评估不准确的问题，提出一种基于上下文期望的无监督词汇级翻译质量评估方法，所述方案具体为：

2、一种基于上下文期望的无监督词汇级翻译质量评估方法，所述方法包括：

3、将待评估语句输入至多语言模型中，对所述多语言模型译文端的某一词汇进行遮盖；

4、将所述待评估语句的上下文信息和被遮掩的译文输入至多语言模型，根据所述多语言模型预测被遮掩的词；

5、利用条件概率处理被遮掩词中每个子词间的关系，获取每个子词的生成概率；

6、根据所述生成概率作为评分进行词汇级机器翻译质量评估。

7、进一步的，还提供一种优选方式，所述方法还包括：多语言模型使用sentence-piece的分词法将所述遮掩词汇进行拆解，获取被遮掩词汇的若干子词。

8、进一步的，还提供一种优选方式，所述对所述多语言模型译文端的某一词汇进行遮盖具体为：将所述子词替换为[mask]标记。

9、进一步的，还提供一种优选方式，所述利用条件概率处理被遮掩词中每个子词间的关系，获取每个单词的生成概率，包括：

10、被遮掩词汇被分为了k个子词，多语言模型正确预测出第i个子词为事件ai，整个词汇被预测正确的概率为：

11、p(a1a2...ak)＝p(a1)·p(a2|a1)...·p(ak|a1a2...ak-1)，

12、其中，p(a1a2...ak)为整个词汇被预测正确的概率。

13、进一步的，还提供一种优选方式，所述根据所述生成概率作为评分进行词汇级机器翻译质量评估，包括：

14、将生成概率转化为评分：

15、

16、其中，依次表示目标序列中的遮盖的子词所属的词汇在sentence-piece分词方法下的每个子词，表示在初始句中可观测部分增添了曾被遮盖过的子词，x代表原句，θ为多语言模型参数。

17、进一步的，还提供一种优选方式，所述根据所述生成概率作为评分进行词汇级机器翻译质量评估，具体为：使用经验阈值τ，将实值质量分数score映射到质量标签。

18、基于同一专利技术构思，本专利技术还提供一种基于上下文期望的无监督词汇级翻译质量评估系统，所述系统包括：

19、遮掩单元，用于将待评估语句输入至多语言模型中，对所述多语言模型译文端的某一词汇进行遮盖；

20、预测单元，用于将所述待评估语句的上下文信息和被遮掩的译文输入至多语言模型，根据所述多语言模型预测被遮掩的词；

21、条件概率处理单元，用于利用条件概率处理被遮掩词中每个子词间的关系，获取每个子词的生成概率；

22、评估单元，用于根据所述生成概率作为评分进行词汇级机器翻译质量评估。

23、进一步的，还提供一种优选方式，所述系统还包括：多语言模型使用sentence-piece的分词法将所述遮掩词汇进行拆解，获取被遮掩词汇的若干子词。

24、基于同一专利技术构思，本专利技术还提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据上述中任一项所述的一种基于上下文期望的无监督词汇级翻译质量评估方法。

25、基于同一专利技术构思，本专利技术还提供一种计算机可读存储介质，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行上述中任一项所述的一种基于上下文期望的无监督词汇级翻译质量评估方法。

26、本专利技术的有益之处在于：

27、本专利技术所提供的一种基于上下文期望的无监督词汇级翻译质量评估方法，采用了无监督的方式进行训练，而不需要大规模的标注数据。传统的词汇级别qe方法通常需要大量的人工标注，这会耗费大量的时间和资源。相比之下，上述方法依赖于多语言模型的预训练，这些模型已经在大规模的文本数据上进行了预训练，因此不需要额外的标注数据。进一步的，该方法通过遮盖待评估词汇并结合上下文信息进行评估，更好地模拟了实际翻译场景。传统的词汇级别qe方法通常独立地评估本文档来自技高网...

【技术保护点】

1.一种基于上下文期望的无监督词汇级翻译质量评估方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于上下文期望的无监督词汇级翻译质量评估方法，其特征在于，所述方法还包括：多语言模型使用sentence-piece的分词法将所述遮掩词汇进行拆解，获取被遮掩词汇的若干子词。

3.根据权利要求2所述的一种基于上下文期望的无监督词汇级翻译质量评估方法，其特征在于，所述对所述多语言模型译文端的某一词汇进行遮盖具体为：将所述子词替换为[MASK]标记。

4.根据权利要求1所述的一种基于上下文期望的无监督词汇级翻译质量评估方法，其特征在于，所述利用条件概率处理被遮掩词中每个子词间的关系，获取每个单词的生成概率，包括：

5.根据权利要求1所述的一种基于上下文期望的无监督词汇级翻译质量评估方法，其特征在于，所述根据所述生成概率作为评分进行词汇级机器翻译质量评估，包括：

6.根据权利要求1所述的一种基于上下文期望的无监督词汇级翻译质量评估方法，其特征在于，所述根据所述生成概率作为评分进行词汇级机器翻译质量评估，具体为：使用经验

7.一种基于上下文期望的无监督词汇级翻译质量评估系统，其特征在于，所述系统包括：

8.根据权利要求7所述的一种基于上下文期望的无监督词汇级翻译质量评估系统，其特征在于，所述系统还包括：多语言模型使用sentence-piece的分词法将所述遮掩词汇进行拆解，获取被遮掩词汇的若干子词。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据权利要求1-6中任一项所述的一种基于上下文期望的无监督词汇级翻译质量评估方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行权利要求1-6中任一项所述的一种基于上下文期望的无监督词汇级翻译质量评估方法。

...

【技术特征摘要】

1.一种基于上下文期望的无监督词汇级翻译质量评估方法，其特征在于，所述方法包括：

3.根据权利要求2所述的一种基于上下文期望的无监督词汇级翻译质量评估方法，其特征在于，所述对所述多语言模型译文端的某一词汇进行遮盖具体为：将所述子词替换为[mask]标记。

6.根据权利要求1所述的一种基于上下文期望的无监督词汇级翻译质...

【专利技术属性】
技术研发人员：杨沐昀，黄辉，宋福海，曹海龙，朱聪慧，徐冰，赵铁军，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人